Веб-архивы не гарантируют сохранности данных — американские ученые

Изображение: (cc0) pixabay
Социальные сети
Социальные сети
Социальные сети

Интернет-архивы могут оказаться ненадежным местом для постоянного хранения содержимого веб-страниц. Такие хранилища, как выяснили Майкл Нельсон и его коллеги из Университета Олд- Доминион в Вирджинии, сами по себе подвержены риску потери информации, рассказал 31 августа журнал New Scientist.

Причина в том, что некоторые из веб-страниц изменяют свое фиксированное местоположение в Интернете, известное как базовый единый идентификатор ресурса (URI), а способа автоматически найти новый URI не существует. Такая ситуация может возникать как следствие организационных изменений, отсутствия политики защиты от такого рода потерь или банальных ошибок.

С ноября 2017 года по январь 2019 года ученые запускали веб-поисковик, чтобы получить доступ к 16 627 страницам, архивированным 17 службами США, Европы и некоторыми из тех, которые обслуживают весь Интернет.

Выяснилось, что URI четырех архивов изменились. Проблема поиска коснулась 537 веб-страниц Библиотеки и архива Канады, Национальной библиотеки Ирландии, Государственного архивного управления Северной Ирландии и службы интернет-архивирования Perma.cc. 20 веб-страниц вообще не удалось найти в Интернете, и это означает, что они могли быть навсегда потеряны. Неизвестно, какая информация исчезла, но то, что ее отправляли на хранение в национальных библиотеках и архивах указывает: какой-то момент ее сочли достойной сохранения, отмечает издание.

«Возможность предоставить доступ к архивам и продемонстрировать целостность и подлинность этих архивов-это действительно очень важные вопросы для нас и наших клиентов. При этом веб-архивы не являются исключением», — говорит Дженни Митчем из Коалиции по сохранению цифровых данных. Однако, результаты исследования ее не удивили. «Веб-архивирование является непростой задачей, увеличивающейся по объему и сложности, а ко всему, также недостаточно финансируемой», — добавляет ученый.

Автор исследования Майкл Нельсон соглашается. «В веб-архивах нет ничего волшебного, — говорит он. — Это веб-страницы, как и все остальное». Но кое-что важно сохранить для потомков, утверждает он: «Ваши и мои старые твиты могут не иметь большого значения, но как насчет тех, которые постили будущие премьер-министры или президенты?»