Введение
Важно понимать, что видео это не то же самое что и картинка
Ещё более важно понимать, что формат промпта в виде тегов (который использует Stable Diffusion) и аниме-модели, основанные на нем, уже устарели и все остальные нейросети понимают запросы в виде естественного языка
Структура запроса
Если вы генерируете видео по картинке (image to video):
Когда у вас есть исходное изображение, оно уже определяет субъект, сцену и стиль. Фокусируйтесь только на движении и камере.
Промпт = Описание движения + Движение камеры
- Движение — "бежит", "машет рукой", "медленно поворачивается"
- Управление камерой — "dolly in" (наезд), "pan left" (панорама влево), "static shot" (статичный кадр) и т.д.
Пример: "Дракон медленно открывает крылья, статичный крупный план"
Структурируйте промпт логично. Начинайте с главного объекта, затем переходите к окружению, действию и техническим деталям.
То, что работает для генерации картинок не работает для генерации видео. Поэтому, не нужно пытаться использовать веса и стили художников как на устаревшем stable diffusion
Лучше всего использовать английский язык, потому что при переводе с вашего языка на английский могут возникнуть неточности и это ухудшит результат
Удачных генераций!
А если этой информации вам недостаточно, то более подробно вы можете прочитать в официальной документации от разработчика нейросети