Seedance 2 в Sferoom: как писать промпты и получать сильные AI-видео

Seedance 2 — это модель для генерации коротких AI-видео. Но хороший результат здесь зависит не от магической фразы, а от постановки: кто в кадре, что происходит, как движется камера, какие референсы используются и какой звук должен сопровождать сцену.

Главная особенность Sferoom: промпт можно писать на русском. Под капотом Sferoom подготавливает инструкцию для модели: приводит её к понятной структуре, учитывает выбранный формат видео и адаптирует смысл под английский язык перед отправкой в нейронку.

Это важно, потому что англоязычные кинематографические формулировки обычно понятнее видео-моделям. Пользователь пишет простую идею, а Sferoom превращает её в режиссёрскую инструкцию: объект, действие, городская среда, камера, свет, движение, звук и ограничения стабильности.

Почему простой промпт часто даёт слабый результат

Плохой промпт обычно звучит так: «Сделай красивое кинематографичное видео, герой летит по городу, эпично, реалистично». В нём есть настроение, но нет постановки. Модель не знает, какой город, какие машины, как летит герой, где камера, что должно быть в начале и чем сцена заканчивается.

Слабый вариант

Красивое видео, герой летит по городу, эпично, реалистично.

Сильный вариант

0–3 сек: герой на крыше. 3–6 сек: прыжок. 6–9 сек: полёт между домами. 9–12 сек: финальный крупный план.

Для видео важны не только объекты, но и время. Seedance 2 должен понимать последовательность: сначала герой стоит на крыше, потом прыгает, потом летит между домами, потом финальный крупный план.

Кнопка «Улучшить»: зачем она нужна

В Sferoom есть кнопка «Улучшить». Её задача — взять сырой русский промпт и переписать его по канонам Seedance 2. Это полезно, если вы понимаете идею, но не хотите вручную думать про объективы, свет, композицию и движение камеры.

Кнопка «Улучшить» добавляет к промпту ключевые блоки:

Subject — кто в кадре, внешний вид, эмоция.
Camera — крупность, угол, движение камеры.
Lighting — свет, время суток, контраст.
Motion — что движется и с какой скоростью.
Style — плёнка, клип, реклама, грейдинг.
Mood — драматично, энергично, загадочно.

Пример до и после

Сырой промпт:

Парень в худи идёт ночью по Москве, вокруг огни, он слушает новый трек.

После улучшения:

Молодой артист в тёмном худи идёт по мокрой московской улице ночью, в наушниках, с сосредоточенным выражением лица. Камера следует за ним сбоку в плавном tracking shot, отражения фонарей и вывесок скользят по асфальту, позади проезжают старые Лады и маршрутки. Холодный сине-оранжевый свет, лёгкая плёночная текстура, реалистичный клиповый стиль, слышны шаги, шум города и приглушённый бас трека.

Режимы Seedance 2 в Sferoom

Проще всего запомнить три сценария: когда есть только идея, когда есть картинка и когда нужны разные референсы.

Text-to-Video: когда есть только идея

Когда использовать: у вас нет готовой картинки или видео-референса. Вы описываете сцену словами, а Seedance 2 создаёт видео с нуля.

Лучше всего подходит для:

быстрых концептов;
b-roll и атмосферных сцен;
Reels, Shorts и TikTok;
тизеров музыкального релиза;
проверки визуального направления.

Вертикальное видео 9:16. Молодой артист идёт ночью по мокрой московской улице после дождя, в наушниках, вокруг отражения фонарей и вывесок. Камера плавно следует сбоку, затем медленно приближается к лицу. Атмосфера клипа к новому треку, холодный сине-оранжевый свет, лёгкая плёночная текстура, слышны шаги, машины и приглушённый бас.

Image-to-Video: когда нужно оживить картинку

Если у вас уже есть изображение персонажа, обложки или продукта, картинка становится визуальным якорем. В промпте лучше описывать не то, что уже видно, а то, что должно двигаться.

Используй изображение как точный референс внешности и одежды. Девушка медленно поворачивает голову к камере, моргает, волосы слегка двигаются от ветра, камера делает плавный push-in к лицу. Фон остаётся стабильным, свет мягкий и тёплый, без изменения лица, одежды и пропорций.

Omni Reference: когда нужны картинки, видео и звук

Это самый управляемый режим. Изображение отвечает за внешность и стиль, видео — за движение камеры и темп, аудио — за ритм, настроение и синхронизацию.

Используй изображение 1 как точный референс персонажа: сохрани костюм, цвета, логотип и пропорции. Используй видео 1 только как референс движения камеры: плавный полёт вперёд между зданиями. Используй аудио 1 как ритм и настроение. Герой Sferoom летит над вечерней Москвой между панельными домами, внизу старые Жигули, Москвичи, маршрутки, мокрый асфальт и русские вывески.

Standard и Fast: качество или скорость

Standard

Выбирайте для финальных роликов: клипы, реклама, сложные персонажи, важные сцены, максимальное качество.

Fast

Выбирайте для тестов: быстрые черновики, подбор композиции, сравнение нескольких идей.

Практическая схема: сначала сделайте 2–3 быстрых теста в Fast, выберите лучший вариант композиции, потом запустите финальную версию в Standard.

Формат, длительность, разрешение и звук

9:16 — Reels, Shorts, TikTok.
16:9 — YouTube, лендинги, cinematic-сцены.
1:1 — посты и универсальные соцсети.
4–6 секунд — быстрый тест идеи.
10–15 секунд — полноценная сцена.
Generate audio — звук, шумы, музыка, синхрон.
Fixed lens — спокойная статичная камера без лишнего движения.

Звук лучше описывать конкретно: не «эпичная музыка», а «глухой бас, шум ночной улицы, ветер, далёкие машины, электронный пульс синхронно со свечением энергии».

Липсинг: как сделать, чтобы персонаж пел

В Seedance 2 липсинг лучше использовать для коротких музыкальных фрагментов: припевного хука, фразы из песни, сторис-тизера или AI-аватара. Это не замена монтажу полноценного трёхминутного клипа, а инструмент для создания выразительной сцены на 5–15 секунд.

Для хорошего липсинга нужно:

крупный или средне-крупный план;
видимый рот;
чистый вокал;
спокойная камера;
короткий фрагмент песни.

Лучше избегать:

лица издалека;
рук и микрофона перед ртом;
резких поворотов головы;
нескольких поющих персонажей;
слишком быстрого рэпа.

Используй изображение 1 как точный референс персонажа: сохрани лицо, причёску, одежду и стиль. Используй аудио 1 как вокальную дорожку для липсинга. Персонаж поёт прямо в камеру, губы синхронизированы с вокалом, мимика эмоциональная, голова слегка двигается в ритм песни. Средний крупный план, мягкий студийный свет, фон слегка размыт. Не менять лицо, не добавлять второго персонажа, не закрывать рот.

Нужно ли писать текст песни в промпте

Да, но коротко. Если вы загружаете аудио с вокалом, главный источник липсинга — сама аудиодорожка. Но строка текста в промпте помогает модели понять, какую именно фразу персонаж исполняет, где эмоциональный акцент и что не нужно придумывать новые слова.

Используй аудио 1 как точную вокальную дорожку. Персонаж поёт фразу: «я снова лечу над городом, музыка держит меня». Синхронизируй губы с вокалом из аудио 1, не придумывай новые слова.

Если фрагмент длиннее, можно расписать по времени:

0–4 секунды: персонаж поёт «я снова лечу над городом».
4–8 секунд: персонаж поёт «музыка держит меня».

Русский липсинг: кириллица или транслитерация

Для русского вокала иногда помогает фонетическая подсказка латиницей. Но это не значит, что нужно полностью заменять русский текст на транслит. Лучший вариант — писать строку на русском и рядом добавлять произношение.

Не лучший вариант: privet, ya snova zdes

Лучше: «привет, я снова здесь» phonetic: privet, ya snova zdes

Так Sferoom сохраняет понятный русский текст для пользователя, а модель получает дополнительную подсказку по произношению. Это особенно полезно для коротких слов и фраз: «привет», «любовь», «я с тобой», «снова здесь». Для длинного куплета транслитерацию лучше добавлять только к сложным местам, иначе промпт станет перегруженным.

Промпт для AI-артиста, который поёт

Используй изображение 1 как точный референс AI-артиста: сохрани лицо, причёску, одежду и общий стиль. Используй аудио 1 как вокальную дорожку для липсинга. Артист поёт фразу: «я снова лечу над городом» (фонетически: “ya snova lechu nad gorodom”). Вертикальное видео 9:16, средний крупный план, артист смотрит в камеру, губы естественно синхронизированы с вокалом, мимика эмоциональная, лёгкие движения головы и плеч в ритм музыки. Мягкий сине-фиолетовый свет, фон с размытыми огнями, атмосфера музыкального клипа. Не менять лицо, не закрывать рот, не добавлять других персонажей.

Трендовые промпты на русском

1. Супергерой Sferoom над Москвой

Используй изображение 1 как точный референс персонажа Sferoom: сохрани костюм, цвета, логотип, лицо и пропорции. Вертикальное видео 9:16. 0–3 секунды: герой стоит на крыше старой московской многоэтажки, серое небо, антенны, мокрый бетон, внизу двор с Жигулями и Москвичами. 3–6 секунд: он прыгает с крыши и выпускает сине-фиолетовые энергетические нити в форме музыкальных волн. 6–9 секунд: камера сбоку следует за ним, он летит между домами над улицей с русскими вывесками, маршрутками и троллейбусными проводами. 9–12 секунд: финальный героический кадр над вечерней Москвой, энергия Sferoom пульсирует вокруг костюма, слышны ветер, город и электронный бас.

2. Тизер музыкального релиза

Вертикальное видео 9:16. Молодой артист идёт ночью по мокрой улице после дождя, в наушниках, задумчивый взгляд, в отражениях асфальта мигают фонари и вывески. Камера плавно следует сзади, затем переходит в боковой крупный план. На последнем кадре вокруг него появляются световые волны, будто музыка становится видимой. Атмосфера ночного клипа, реалистичный свет, мягкая плёночная текстура, приглушённый бас и шум города.

3. Оживление обложки трека

Используй изображение 1 как обложку трека и не меняй композицию. Камера медленно приближается к центру изображения, свет на фоне слегка пульсирует в ритм музыки, мелкие частицы двигаются в воздухе, элементы одежды и волосы едва заметно оживают. Сохрани лицо, цвета, стиль и общий дизайн обложки. Атмосфера музыкального сниппета, мягкий cinematic glow, без новых объектов и без искажения текста.

4. UGC-реклама продукта

Вертикальное видео 9:16. Молодой креатор на светлой кухне держит продукт ближе к камере, улыбается и быстро показывает три преимущества жестами. Камера выглядит как съёмка на телефон, лёгкое естественное дрожание, яркий дневной свет из окна, чистый фон. Продукт остаётся резким, этикетка читаемая, темп энергичный как в Reels, слышна лёгкая поп-музыка и короткие звуки жестов.

Чек-лист перед генерацией

Понятно ли, кто главный объект в кадре?
Есть ли одно главное действие?
Выбран ли формат: 9:16, 16:9 или 1:1?
Описано ли движение камеры?
Если есть референсы, назначена ли роль каждому?
Не конфликтуют ли инструкции между собой?
Нужен ли звук или можно оставить generate audio выключенным?
Для финала выбран Standard, а для тестов Fast?

Итог

Seedance 2 даёт сильные результаты, когда промпт написан как постановка сцены. В Sferoom можно писать по-русски: сервис помогает превратить обычную идею в структурированную инструкцию для модели, а кнопка «Улучшить» добавляет недостающие детали по камере, свету, движению и стилю.

Лучший рабочий процесс такой: сначала набросайте идею простыми словами, нажмите «Улучшить», проверьте структуру, сделайте короткий тест в Fast, затем финальную версию в Standard. Если важна внешность — используйте Image-to-Video. Если важны движение, музыка и референсы — выбирайте Omni Reference. Если нужно просто найти идею — начинайте с Text-to-Video.

Полезные источники: BytePlus ModelArk Seedance 2.0 tutorial, Dreamina Seedance 2.0 Guide, Dreamina Seedance 2.0 prompts, Seedance prompt guide, InVideo Seedance 2.0 guide.