Введение
LTX 2 — модель, которая генерирует видео и аудио длительностью до 20 секунд
Для получения качественных результатов, важно правильно составить промпт и нет, ⚠️аниме-теги через запятую тут никак не подходят⚠️
Статья с универсальным описанием видео-моделей
Ключевые аспекты
Модель LTX 2 создаёт видео со звуком, стоимость генерации составляет ~10 токенов за 1 секунду видео
Эта нейросеть обладает большим набором парметров, чем Wan Video и может создавать более сложные и комплексные видео, однако может неподходить для коротких зацикленных анимаций
Вы можете загрузить аудио в формате mp3 или голосовое сообщение, длительностью до 20 секунд (если длительность будет выше - бот автоматически обрежет первые 10 секунд), чтобы создать видео на его основе
Как это работает?
Если вы загрузите изображение и аудио-файл, наш бот сгенерирует видео на основе этих данных: персонаж может петь песни, разговаривать, играть на муз. инструментах и так далее
Для лучшего липсинка в промпте дополнительно текстово опишите, что персонаж поёт или произносит и на каком языке, если это не английский
... then character says "Привет всем" in russian ...
Модель создает видео в формате 16:9 в разрешении 720p, если ваше изображение имеет другое соотношение сторон, оно будет обрезано автоматически (не всегда удачно), поэтому рекомендуем заранее настроить формат вашей картинки
Составление промпта
- Уточните к какому жанру относится видео: анимация, кино, 3D анимация и т.п.
- Опишите общую обстановку в кадре
- Описывайте действия последовательно: сначала мой персонаж делает это, затем это, затем это, в этот момент происходит это... и т.д.
- Определите движение камеры, укажите, когда и как должно происходить изменение ракурса. Указание того, как объекты или предметы появляются после движения камеры, даст модели лучшее представление о том, как завершить движение
- Опишите звуковое сопровождение. Используйте четкие описания окружающих звуков, музыки, аудио и речи. Для диалогов заключите текст в кавычки и (при необходимости) укажите язык (русский язык поддерживается) и акцент, которые вы хотели бы видеть у персонажа
- Добавляйте к действиям дополнительные описания: персонаж делает что-то медленно, затем камера быстро отдаляется и т.д.
Примеры
The subject's eyes slowly shift to look directly at the camera.
A gentle breeze causes strands of hair to move softly across her face.
Natural light from a window creates subtle shadows that shift imperceptibly.
The camera glides forward through the entrance in a steady dolly movement.
Sunlight streams through windows, casting dynamic shadows as the perspective shifts.
Dust particles float visibly in the light beams.
Персонаж сидит за столом в офисе,
он открывает книгу и начинает читать вслух на русском языке "читайте инструкцию детишки",
затем он закрывает книгу, затем он встаёт из-за стола и уходит.
Камера всё время статичная и не меняет свой ракурс
Структурируйте промпт логично. Начинайте с главного объекта, затем переходите к действию и окружению
То, что работает для генерации картинок не работает для генерации видео. Поэтому, не нужно пытаться использовать веса и стили художников как на устаревшем stable diffusion
⚠️И напоследок, ещё раз: аниме-теги (формат danbooru, по 1-2 слова в Им. падеже), которые вы пишете через запятую для аниме картинок тут не работают⚠️
Удачных генераций!
А если этой информации вам недостаточно, то более подробно вы можете прочитать в официальной документации от разработчика нейросети