Восстановление сайта из Wayback Machine — пошагово
Сайт упал, бэкапов нет, а Wayback Machine хранит снимок. Что реально можно вытащить и как собрать рабочую версию.
Wayback Machine хранит около 900 миллиардов веб-страниц. Если ваш сайт хоть раз попадал в индекс Google или ходил по ссылкам — скорее всего, он есть и там. Когда хостер потерял базу или домен забрали и вернули, архив — это последняя точка возврата.
Шаг 1. Проверка покрытия
Открываем web.archive.org/web/*/example.com — видим календарь снимков. Что важно:
- Свежесть последнего снимка — чем ближе к моменту падения, тем меньше потеряли
- Полнота — главная страница есть всегда, а внутренние могут быть индексированы выборочно
- Картинки и стили — иногда сохраняется HTML, но без CSS/JS сайт превращается в текст
Шаг 2. Скачивание
Не вручную через «Сохранить как». Используем инструменты:
- wayback-machine-downloader (Ruby gem) — берёт весь сайт за указанный диапазон дат
- wpull с флагом
--warc-file— на больших сайтах работает стабильнее - Cyotek WebCopy или HTTrack — графические альтернативы для тех, кто не хочет в терминал
Шаг 3. Очистка
В архивных страницах остаётся мусор:
- Wayback-баннер вверху страницы — выпиливается через регулярку
- Префикс
/web/YYYYMMDD/в ссылках — заменяется на относительные пути - JavaScript трекеров (Google Analytics старых версий, Я.Метрика, баннерные сети) — выкидываем
- Битые ссылки на ресурсы, которые в архив не попали — заменяем на плейсхолдеры или удаляем блоки
Шаг 4. Деплой
На выходе три варианта:
- Статика — кладём на любой shared hosting, Netlify, Cloudflare Pages
- WordPress — если исходный сайт был на WP, импортируем тексты в новый WP с актуальной темой
- Headless — если планируется развитие, поднимаем CMS и переносим контент
В типичном проекте на восстановление контентного сайта в 50-100 страниц уходит 3-5 рабочих дней. Половину времени ест очистка от мусора и проверка ссылок.