Анимация людей — самая капризная задача AI-видео. Камера, пейзаж, объекты — модели делают давно. А вот человек, который двигается естественно, моргает в правильный момент и не теряет себя через 5 секунд — это всё ещё граница, где модели спотыкаются.
Kling v3 и Veo 3.1 — две модели, которые в 2026 году в этом тесте идут ноздря в ноздрю. Обе доступны в видеогенераторе Quantium одной подпиской. Прогнал обе на 20 промптах с людьми, ниже — где какая выигрывает.
Лица и мимика
Kling v3 чуть выигрывает на крупных планах. Зрачки двигаются естественнее, мелкие сокращения мышц вокруг глаз более правдоподобны. На промпте «close-up of woman smiling slightly» Kling даёт улыбку, которая «дозревает» в реальном времени — нет того ощущения, что лицо просто «переключилось» из одного состояния в другое.
Veo 3.1 надёжнее на средних планах с разговором. Когда лицо занимает 30-40% кадра и персонаж говорит — Veo точнее синхронизирует губы с речью (плюс встроенное аудио, которого нет у Kling).
Движение тела
Kling построен изначально под анимацию персонажей — это его основной фокус. На сложных движениях (поворот корпуса, наклон, перенос веса) Kling выглядит органичнее. У Veo иногда вылезает «эффект манекена»: тело двигается, но как будто без массы.
Сложные хождения — оба модели справляются. Прыжки, бег — Kling чуть лучше держит инерцию.
Танец и спорт
Это чистая территория Kling. Любая хореография — модель явно тренирована на большом объёме видео с танцами. На промпте «ballerina pirouette in slow motion» Kling даёт связное движение с правдоподобной физикой платья. У Veo пируэт может «разломиться» в середине — нога идёт отдельно от корпуса.
Спортивные сцены (баскетбол, теннис, бег) — оба справляются на коротких роликах, на длинных Kling лучше держит связность.
Синхрон с речью
Здесь Veo 3.1 не имеет конкурентов. Встроенное аудио и lip-sync — фича, в которую Google вложился больше всех. На промпте «person saying \"hello there\" with a friendly smile» Veo делает законченный ролик с синхронной озвучкой за 90 секунд. У Kling нужно отдельно генерировать звук и потом синхронизировать.
Для роликов с диалогами, talking heads, обучающего контента с озвучкой — Veo без вариантов. Подробнее — в глубоком разборе Sora vs Veo.
Идентичность персонажа
Сколько секунд модель удерживает «того же человека»? Тест: image-to-video из фотографии лица, 10 секунд движения.
- Veo 3.1: 9 из 10 — лицо то же. Дрейф минимальный, можно использовать для серий кадров.
- Kling v3: 7 из 10 — небольшой дрейф черт лица, особенно на длинных роликах. На пятой секунде иногда меняется форма носа или цвет глаз.
Для контента, где нужно «оживить фото знакомого человека» — Veo надёжнее. Для художественных задач, где «приблизительно похож» приемлемо — Kling даёт более художественный результат.
Цена в Quantium и финальный вердикт
| Параметр | Kling v3 | Veo 3.1 |
|---|---|---|
| 10 сек Standard | 22 кр. | 28 кр. |
| 10 сек Pro | 34 кр. | 44 кр. |
| Время | ~2 мин | ~90 сек |
| Аудио | Нет | Встроенное |
| Танец / движение | Лучше | Хорошо |
| Lip-sync | Нет | Да |
Связанное: туториал по сериям видео в Kling, image-to-video в 2026, короткое сравнение Sora vs Veo, все видео-возможности.
Попробуйте Quantium бесплатно
20 кредитов в месяц на бесплатном тарифе. 30+ нейросетей в одном Telegram-боте.
Открыть бот →


