Это не та же статья, что «Sora 2 vs Veo 3.1: какую модель выбрать». Там — короткая сводка под решение. Здесь — глубокий разбор: 12 тестовых сцен, что именно ломается, где модели врут о себе, и почему один и тот же промпт даёт разный результат на пятой генерации.
Все тесты сделаны в видеогенераторе Quantium, одной подпиской — без отдельных аккаунтов в OpenAI и Google. Каждая сцена прогонялась минимум 3 раза, я брал медианный результат.
12 тестовых сцен — что генерили
Чтобы не сравнивать ягоды с яблоками, я зафиксировал набор сцен. Каждая — конкретный кейс из реального продакшена:
- Кинематографичный пролёт над городом ночью
- Сёрфер на волне в slow-motion
- Бариста готовит кофе, наливает молоко
- Спортсмен на старте, потом резкое движение
- Интерьер кафе с двумя людьми за столом
- Анимация продукта (часы вращаются на белом фоне)
- Пейзаж с движением облаков timelapse
- Animal action — собака бежит по пляжу
- Танцор делает поворот, развевается одежда
- Image-to-video: оживить фотографию пары
- Диалог: два персонажа говорят и жестикулируют
- Сложная сцена 18 секунд с несколькими действиями
Физика движения
Здесь Sora 2 выигрывает в 8 сценах из 12. Особенно — вода, ткань и инерция. Когда сёрфер выходит из воды и капли разлетаются — у Sora они летят по реальной траектории, у Veo иногда «прилипают» к телу или висят в воздухе. Когда танцор делает поворот — ткань платья у Sora продолжает движение по инерции, у Veo чуть «деревенеет».
Veo 3.1 выигрывает на линейном движении камеры. Прямой долли, ровный пролёт, чёткий зум — здесь Veo делает чуть аккуратнее, без микро-дрожи, которая иногда вылезает у Sora. Это важно для продуктовой съёмки и моушн-графики.
Лица и эмоции
Главная боль AI-видео последних лет — мимика. Оба движка справляются в 2026 году заметно лучше, чем год назад, но разница есть. Sora 2 даёт более «живые» лица в крупных планах: микро-движения зрачков, мелкие сокращения мышц вокруг глаз, естественные моргания. Veo 3.1 на крупных портретах иногда соскальзывает в «маску» — лицо технически правильное, но без жизни.
Зато Veo 3.1 лучше держит идентичность персонажа между кадрами. Если в первом кадре женщина с рыжими волосами и в синем свитере, у Veo она такой и останется на 12-й секунде. Sora иногда дрейфует — оттенок волос меняется, родинка пропадает, одежда чуть-чуть другая. Для серийных кадров это важно.
Звук и диалоги
Veo 3.1 — единственная модель с встроенным синхронным аудио. Не «звук поверх», а полноценный sound design генерируется вместе с видео: шаги, окружение, ambience, и да — диалоги в губах персонажей. На тестовой сцене «бариста разговаривает с клиентом» Veo делает законченный ролик за 90 секунд, готовый к загрузке.
У Sora 2 звук генерируется отдельно (через ElevenLabs или такой же сторонний шаг). Это не критично для художественного ролика — туда обычно подкладывают музыку. Но для контента, где нужны реалистичные шаги, дыхание персонажа, шум комнаты — Veo экономит этап постпродакшена целиком.
Image-to-video: оживить фотографию
На задаче «дать жизнь готовому кадру» Veo 3.1 точнее. Модель строже держит композицию исходника, не сдвигает лица, не меняет одежду. Sora 2 свободнее интерпретирует — иногда это плюс (получается красивая сцена), иногда минус (получается «другой человек»).
Подробнее про эту фичу — в статье «Image-to-video в 2026» и в туториале по оживлению фото.
Цена и скорость в Quantium
| Параметр | Sora 2 | Veo 3.1 |
|---|---|---|
| 10 сек Standard | 38 кр. | 28 кр. |
| 10 сек Pro | 56 кр. | 44 кр. |
| Время генерации | ~3 мин | ~90 сек |
| Макс. длина | 20 сек | 12 сек |
| Встроенное аудио | Нет | Да |
Подробнее про разницу Standard vs Pro — в отдельной статье. Для большинства задач Standard достаточен, Pro имеет смысл только под клиентский финал.
Вердикт по задачам
Главный плюс: в Quantium доступны обе. Платишь одну подписку — переключаешь модель в меню. Не надо выбирать раз и навсегда. Связанные материалы: Kling v3 vs Veo 3.1, первое видео в Sora 2, серия видео в Kling.
Попробуйте Quantium бесплатно
20 кредитов в месяц на бесплатном тарифе. 30+ нейросетей в одном Telegram-боте.
Открыть бот →

