|
Многие из нас порождают больше данных, чем способны контролировать: руки никак не дойдут до того, чтобы разложить все эти бесконечные фотографии по альбомам; содержимое жёстких дисков в жутком беспорядке; Интернет с его бессистемностью и анонимностью выглядит не лучше.
Все эти HTML, MP3- и JPEG-файлы, составляющие основу современной Всемирной паутины, вероятно, останутся читаемыми в течение очень долгого времени. Но определение их первоначального происхождения и подлинности — незаурядная задача, так как данные часто дублируется, редактируются, аннотируются и изменяются.
Чтобы защитить наши файлы, мы, как правило, создаём резервные копии, отправляем их сами себе по электронной почте или размещаем в Интернете. Файлы также проходят через «руки» многих людей. Все эти действия вносят в них изменения, не видимые невооружённым глазом. Интернет-археологам они сослужат двойную службу: с одной стороны, тем самым они получат ценную информацию о том, как распространялись данные; с другой — будет практически невозможно установить, кто создал тот или иной файл.
Один из возможных способов выявления истины — хеширование (hashing): этот математический метод позволяет представить крупный массив данных в виде небольшого («хеш-значение»), что облегчает сравнение файлов. Однако даже незначительные изменения в исходных данных приводят к появлению совсем другого хеш-значения, так что связь между копиями увидеть трудно.
Можно
А как быть с текстами? Интернет переполнен анонимными комментариями, обновлениями статуса и сообщениями в блогах — как найти авторов? Прежде всего можно воспользоваться старым добрым
С наиболее простой системой анализа можно ознакомиться на сайте
И ещё одна проблема: со временем стиль может значительно измениться. Один из примеров —
Другой подход — семантический анализ. Например, этим занимается Аарон Цинман из Массачусетского технологического института (США). Он разработал программу
Так как же быть историкам будущего? Вероятно, следует признать, что, несмотря на обилие информации, специалистам предстоит всё так же собирать нашу жизнь по кусочкам и обрывкам.