Где AI-видео всё ещё проваливаются

Технологии шагнули, но 30% генераций уходит в корзину. Конкретные сценарии где AI-видео ломаются и обходные пути.

Где AI-видео всё ещё проваливаются

Маркетинг производителей моделей рассказывает только про успешные генерации. На практике 1 из 3 роликов идёт в корзину из-за артефактов. Где конкретно ломается.

Где AI-видео всё ещё проваливаются
Самые частые проваливающиеся сценарии AI-видео по нашему опыту.

Руки и предметы в руках

Пальцы по-прежнему глючат у всех моделей. Особенно — действия с инструментом, телефоном, чашкой кофе. Признаки: 6 пальцев, перекрученные суставы, предмет проходит сквозь руку.

Обход: либо снимать руки отдельно и композить, либо использовать стоковое видео для рук, либо строить кадр так, чтобы рук не было видно (общий план, view from above).

Текст и логотипы

AI до сих пор не умеет писать читаемый текст в кадре длиннее 6-8 символов. Логотипы превращаются в «нечто похожее».

Обход: рендерить текст и лого отдельно в After Effects/Premiere поверх AI-видео.

Консистентность персонажа

В одном ролике из 3 сцен у героя меняется цвет глаз, разрез лица, форма ушей. Зритель замечает.

Обход: character reference (доступно в Sora 2, Runway Gen-4, Kling 2). Закрепить лицо одной картинкой и ссылаться на неё в каждом промпте.

Физика жидкостей и материалов

Льющаяся вода, дым, ткань на ветру — у моделей до сих пор не получается убедительно. Жидкость зависает в воздухе, движется неправильно.

Обход: для критичных кадров с жидкостями — снимать или брать stock. Для b-roll — игнорировать, никто не вглядывается.

Длительность и согласованность

За 5-8 секунд AI начинает терять контекст. Объекты пропадают, фон меняется, освещение скачет.

Обход: разбивать ролик на сцены по 3-5 секунд, склеивать в редакторе. Не пытаться сгенерировать 30 секунд одним промптом.

Известные люди и брендовые лица

Большинство моделей блокируют генерацию узнаваемых людей (политики, актёры). Если не блокируют — выдают похожих, но не точных.

Обход: только если есть явные права. Для брендовых лиц — fine-tune модель на согласованных данных.

Брендовые цвета и фирменный стиль

«Сделай в нашем стиле» AI понимает плохо. Нужен либо style-LoRA (для open-source моделей), либо очень детальный промпт с указанием цветов в HEX, шрифтов, композиции.

Обход: разработать набор reference-картинок и привязывать к ним каждую генерацию.