Восстановление сайта из Wayback Machine — пошагово

Сайт упал, бэкапов нет, а Wayback Machine хранит снимок. Что реально можно вытащить и как собрать рабочую версию.

Восстановление сайта из Wayback Machine — пошагово

Wayback Machine хранит около 900 миллиардов веб-страниц. Если ваш сайт хоть раз попадал в индекс Google или ходил по ссылкам — скорее всего, он есть и там. Когда хостер потерял базу или домен забрали и вернули, архив — это последняя точка возврата.

Восстановление сайта из Wayback Machine — пошагово
Четыре шага восстановления сайта из веб-архива.

Шаг 1. Проверка покрытия

Открываем web.archive.org/web/*/example.com — видим календарь снимков. Что важно:

  • Свежесть последнего снимка — чем ближе к моменту падения, тем меньше потеряли
  • Полнота — главная страница есть всегда, а внутренние могут быть индексированы выборочно
  • Картинки и стили — иногда сохраняется HTML, но без CSS/JS сайт превращается в текст

Шаг 2. Скачивание

Не вручную через «Сохранить как». Используем инструменты:

  • wayback-machine-downloader (Ruby gem) — берёт весь сайт за указанный диапазон дат
  • wpull с флагом --warc-file — на больших сайтах работает стабильнее
  • Cyotek WebCopy или HTTrack — графические альтернативы для тех, кто не хочет в терминал

Шаг 3. Очистка

В архивных страницах остаётся мусор:

  • Wayback-баннер вверху страницы — выпиливается через регулярку
  • Префикс /web/YYYYMMDD/ в ссылках — заменяется на относительные пути
  • JavaScript трекеров (Google Analytics старых версий, Я.Метрика, баннерные сети) — выкидываем
  • Битые ссылки на ресурсы, которые в архив не попали — заменяем на плейсхолдеры или удаляем блоки

Шаг 4. Деплой

На выходе три варианта:

  • Статика — кладём на любой shared hosting, Netlify, Cloudflare Pages
  • WordPress — если исходный сайт был на WP, импортируем тексты в новый WP с актуальной темой
  • Headless — если планируется развитие, поднимаем CMS и переносим контент

В типичном проекте на восстановление контентного сайта в 50-100 страниц уходит 3-5 рабочих дней. Половину времени ест очистка от мусора и проверка ссылок.