Wayback, archive.today и Google Cache для восстановления

Wayback Machine — самый известный, но не единственный. Когда archive.today и кеш Google могут спасти то, что не вытянул Wayback.

Wayback, archive.today и Google Cache для восстановления

В 80% случаев Wayback Machine закрывает задачу. Но есть ситуации, когда он не помог, а сайт нужен. Тогда смотрим в смежные источники.

Wayback, archive.today и Google Cache для восстановления
Сильные стороны разных архивов в задаче восстановления.

Wayback Machine — основной

  • Лучшая глубина — снимки за 25+ лет
  • Календарь, на котором видно частоту снимков
  • Можно сохранить страницу прямо сейчас, если сайт ещё работает
  • Слабое место: не индексирует страницы за паролем и страницы с robots.txt Disallow

archive.today (он же archive.ph)

  • Сохраняет страницы по запросу пользователя — точка-в-точку, как видит браузер
  • Игнорирует robots.txt — иногда есть то, чего нет в Wayback
  • Особенно полезен для статей, которые сохраняли читатели
  • Ограничение: только те страницы, которые кто-то явно сохранил

Google Cache

  • Самые свежие версии — буквально за последние недели
  • Хорош, если сайт упал недавно и его ещё не выкинули из индекса
  • Минус: Google убирает страницу из кеша через 2-4 недели после удаления оригинала
  • В 2024 Google официально начал сворачивать публичный доступ к кешу — но через cache:URL запрос ещё работает в большинстве случаев

Bing Cache + Яндекс

  • Bing держит кеш дольше, чем Google
  • Яндекс: «Сохранённая копия» в результатах поиска — для русскоязычных сайтов часто свежее, чем Wayback

Стратегия восстановления

Не выбираем один источник — смотрим во все по очереди:

  1. Wayback Machine — основная масса страниц
  2. Google Cache — самые свежие версии главной и приоритетных страниц
  3. archive.today — точечно те страницы, которых нет в Wayback
  4. Яндекс/Bing — заполнить оставшиеся пробелы для русскоязычного контента

На практике хороший охват получается, когда комбинируем 2-3 источника.