Kling v3 vs Veo 3.1: кто лучше анимирует людей

Анимация людей — самая капризная задача AI-видео. Камера, пейзаж, объекты — модели делают давно. А вот человек, который двигается естественно, моргает в правильный момент и не теряет себя через 5 секунд — это всё ещё граница, где модели спотыкаются.

Kling v3 и Veo 3.1 — две модели, которые в 2026 году в этом тесте идут ноздря в ноздрю. Обе доступны в видеогенераторе Quantium одной подпиской. Прогнал обе на 20 промптах с людьми, ниже — где какая выигрывает.

Лица и мимика

Kling v3 чуть выигрывает на крупных планах. Зрачки двигаются естественнее, мелкие сокращения мышц вокруг глаз более правдоподобны. На промпте «close-up of woman smiling slightly» Kling даёт улыбку, которая «дозревает» в реальном времени — нет того ощущения, что лицо просто «переключилось» из одного состояния в другое.

Veo 3.1 надёжнее на средних планах с разговором. Когда лицо занимает 30-40% кадра и персонаж говорит — Veo точнее синхронизирует губы с речью (плюс встроенное аудио, которого нет у Kling).

Движение тела

Kling построен изначально под анимацию персонажей — это его основной фокус. На сложных движениях (поворот корпуса, наклон, перенос веса) Kling выглядит органичнее. У Veo иногда вылезает «эффект манекена»: тело двигается, но как будто без массы.

Сложные хождения — оба модели справляются. Прыжки, бег — Kling чуть лучше держит инерцию.

Танец и спорт

Это чистая территория Kling. Любая хореография — модель явно тренирована на большом объёме видео с танцами. На промпте «ballerina pirouette in slow motion» Kling даёт связное движение с правдоподобной физикой платья. У Veo пируэт может «разломиться» в середине — нога идёт отдельно от корпуса.

Спортивные сцены (баскетбол, теннис, бег) — оба справляются на коротких роликах, на длинных Kling лучше держит связность.

Синхрон с речью

Здесь Veo 3.1 не имеет конкурентов. Встроенное аудио и lip-sync — фича, в которую Google вложился больше всех. На промпте «person saying \"hello there\" with a friendly smile» Veo делает законченный ролик с синхронной озвучкой за 90 секунд. У Kling нужно отдельно генерировать звук и потом синхронизировать.

Для роликов с диалогами, talking heads, обучающего контента с озвучкой — Veo без вариантов. Подробнее — в глубоком разборе Sora vs Veo.

Идентичность персонажа

Сколько секунд модель удерживает «того же человека»? Тест: image-to-video из фотографии лица, 10 секунд движения.

Veo 3.1: 9 из 10 — лицо то же. Дрейф минимальный, можно использовать для серий кадров.
Kling v3: 7 из 10 — небольшой дрейф черт лица, особенно на длинных роликах. На пятой секунде иногда меняется форма носа или цвет глаз.

Для контента, где нужно «оживить фото знакомого человека» — Veo надёжнее. Для художественных задач, где «приблизительно похож» приемлемо — Kling даёт более художественный результат.

Цена в Quantium и финальный вердикт

Параметр	Kling v3	Veo 3.1
10 сек Standard	22 кр.	28 кр.
10 сек Pro	34 кр.	44 кр.
Время	~2 мин	~90 сек
Аудио	Нет	Встроенное
Танец / движение	Лучше	Хорошо
Lip-sync	Нет	Да