Wayback, archive.today и Google Cache для восстановления
Wayback Machine — самый известный, но не единственный. Когда archive.today и кеш Google могут спасти то, что не вытянул Wayback.
В 80% случаев Wayback Machine закрывает задачу. Но есть ситуации, когда он не помог, а сайт нужен. Тогда смотрим в смежные источники.
Wayback Machine — основной
- Лучшая глубина — снимки за 25+ лет
- Календарь, на котором видно частоту снимков
- Можно сохранить страницу прямо сейчас, если сайт ещё работает
- Слабое место: не индексирует страницы за паролем и страницы с robots.txt Disallow
archive.today (он же archive.ph)
- Сохраняет страницы по запросу пользователя — точка-в-точку, как видит браузер
- Игнорирует robots.txt — иногда есть то, чего нет в Wayback
- Особенно полезен для статей, которые сохраняли читатели
- Ограничение: только те страницы, которые кто-то явно сохранил
Google Cache
- Самые свежие версии — буквально за последние недели
- Хорош, если сайт упал недавно и его ещё не выкинули из индекса
- Минус: Google убирает страницу из кеша через 2-4 недели после удаления оригинала
- В 2024 Google официально начал сворачивать публичный доступ к кешу — но через cache:URL запрос ещё работает в большинстве случаев
Bing Cache + Яндекс
- Bing держит кеш дольше, чем Google
- Яндекс: «Сохранённая копия» в результатах поиска — для русскоязычных сайтов часто свежее, чем Wayback
Стратегия восстановления
Не выбираем один источник — смотрим во все по очереди:
- Wayback Machine — основная масса страниц
- Google Cache — самые свежие версии главной и приоритетных страниц
- archive.today — точечно те страницы, которых нет в Wayback
- Яндекс/Bing — заполнить оставшиеся пробелы для русскоязычного контента
На практике хороший охват получается, когда комбинируем 2-3 источника.