Вступление
Автор настоящего материала сознательно нарушает многовековую традицию подачи текста не от первого лица. Что-то в этой традиции представляется слишком архаичным, бюрократичным и выхолощенным, а также навевает сравнение с Азией (дикость, господа: «не угодно ли будет великому эмиру…»). Скрываться за третьим лицом не хочется, тем более что авторский подход — основа доверительного отношения к содержанию и примета новейшего времени с его блогами, твитами и прочей писаниной-отсебятиной. Поэтому пишу от себя.
Второе, о чем хотел бы сказать, — о мотивах, которые сосредоточили мой интерес на генерации треков с помощью нейросети. Всё началось с автомобильной музыки, точнее её запаса на смартфоне и других носителях. Музыка в машине звучит постоянно, но старые треки (хотя и присутствуют в изобилии), как говорится, затерты до дыр, их повторение уже давно тяготит, а репертуар обновляется довольно редко. Из новинок хочется переслушать лишь немногое. Решил обратиться за помощью к нейросети — в том смысле, что с ее помощью можно «нагенерить» много новой музыки, которая будет соответствовать моим вкусам и предпочтениям. После нескольких недель знакомства с разными решениями выяснил, что самый приемлемый для меня вариант (по состоянию на июнь 2024 г.) — это Suno.ai. То есть да, конечно, это не единственный аванпост ИИ в музыкальной индустрии, но сколько-нибудь достойную альтернативу найти просто не удалось.
Здесь важно сказать о третьем начальном моменте: у меня и редакции нет никаких связей с Suno. То есть, оплачиваем мы только подписку на этот сервис. подпискиТри сегодня из личных средств; никаких выплат, скидок или преимуществ от того юридического лица, его представителей и сотрудников не получаем. личную позицию Писателя, как частного лица, а не редакцию как организации.
Возвращаясь к альтернативам, заинтересованные смогут перечислить не менее десятка других ИИ-генераторов музыки. Сравнительно с Suno у них меньше преимуществ, а ограничения и сложности использования значительно выше. Некоторые из таких моделей делают конкурентов маловостребованными, особенно в условиях нашей страны.
Уdio считается более профессиональным инструментом для создания аудиоконтента высокого качества, но не поддерживает русский язык, ограничен композициями длительностью шестьдесят секунд, а процедура подготовки задания для генерации сложна. У Suno максимальная длина композиции — четыре минуты (!), возможность добавлять расширения к трекам и объединять их в общее произведение длиной до десяти минут (неофициально). Suno работает с минимальными инструкциями и даже без них, обладает большой гибкостью формулировок промта (даже исправляет явные грамматические ошибки), понимает множество языков. Не уверен насчет суахили, но тайский, китайский, арабский и иврит у неё получаются неплохо. Ошибки случаются, даже с английскими текстами, но можно жить с ними.
К перечню преимуществ добавлю еще несколько: одновременная генерация двух композиций, создание обложек для треков (простые по идеям и выполнению), видео с текстом для караоке. Есть удобные функции редактирования готовых композиций: замена текста, обрезка и удлинение за счет последовательных расширений. У Suno есть приложения для смартфонов и планшетов на Android и iOS (доступны в магазинах). Однако после знакомства интерес к ним пропал: функционально это лишь фрагменты веб-варианта, даже на смартфоне удобнее открыть браузер. Тем не менее, эти приложения есть, а конкуренты в этом плане никак не блещут.
Сuno постоянно совершенствуется, и результаты этого заметны уже через полгода работы: появилась возможность создавать видео для караоке, затем каверы песен, новая версия генеративной модели, сохранение голосов любимых вокалистов для новых генераций, функции ремастеринга треков, приложения для Android и iOS. В январе добавилась опция создания дополнительных рабочих пространств для организации треков по темам.
Знакомство
Для взаимодействия с нейронной сетью предназначен веб-интерфейс, доступный через любой браузер.
На главной странице размещается регулярно обновляемый контент с примерами треков, сделанных Suno по просьбам пользователей. Прослушать их можно без подписки.
После активации в левом меню пункта «Создать композицию» в окне отображаются четыре вертикальных поля. Левое поле, как и раньше, содержит позиции меню, следующее служит для управления генерацией, далее располагается рабочее пространство, где накапливаются созданные композиции и доступна дальнейшая работа с ними. В правой колонке выводятся новости и сообщения системы, а при выборе любого элемента списка отображаются параметры и контент трека: наименование, промт, дата и время создания, текст.
Третье меню слева – это библиотека. В ней хранятся все творения пользователя в нейросетке.
Библиотека наполняется достаточно быстро. По моему мнению, для упорядоченной работы требуется вносить имена вновь созданных композиций. Suno не производит их нумерацию самостоятельно даже для разграничения первого варианта от второго при одновременной генерации. Поэтому логично дополнять названия цифрами, как минимум.
Последние варианты отмечены словом «FINAL» или знаком плюс перед названием композиции – таким образом проще быстро найти лучшие, когда количество треков увеличится.
В правом верхнем углу окна Library есть кнопка с изображением, ведущая к корзине для удаления композиций. https://suno.com/me/trash
Моя корзина отбракованных треков значительно больше по размеру, чем полезный контент в библиотеке. Возможно, требования к генерации слишком высоки. Но бывают случаи, когда брак появляется непрерывно. Чаще всего приходится выбрасывать результаты при ремастеринге и создании расширений/каверов (в октябре 2024 года за два дня потратил половину месячного запаса кредитов на один проект из-за нехватки опыта).
В окне появляется список музыкальных жанров и стилей, который медленно вращается по часовой стрелке при активации четвертой позиции меню «Исследовать».
Каждый элемент списка можно кликнуть, чтобы воспроизвести пример стиля в том месте, где он находится. Кнопка позволяет выбрать этот стиль для генерации аудиоконтента в дальнейшем.
Пятая строка меню (Search) предоставляет дополнительный вариант поиска. В поле со значком лупы можно ввести необходимую строку для выбора примеров из списка.
Теперь о деньгах.
Акаунт только что создан, подписка не оплачена. В бесплатной версии (Basic Plan) доступно 50 кредитов, которые возобновляются через сутки. На одну композицию расходуется 5 кредитов, но одновременно создаются два трека, генерация каждой пары обходится в 10 кредитов. Уменьшить расход невозможно. специально Возвращение кредитов происходит только в случае, если композиция не создана или её длительность меньше шестнадцати секунд. В таком случае пользователю возвращается соответствующее количество кредитов (чаще всего дефектным признаётся лишь один вариант из пары, поэтому возврат составляет 5 кредитов).
На скриншоте показано возвращение средств за трек, продолжительность которого составила всего шесть секунд.
В рамках бесплатного Basic Plan доступна активация генерации максимум пять раз в сутки. Такого объёма недостаточно даже для ознакомления с базовыми функциями. Кроме того, у бесплатной версии имеются дополнительные ограничения:
- Генеративная модель доступна лишь в прошлой версии. — Три с половиной, а не четыре. Точка в английском языке разделяет целую и дробную части, поэтому эквивалент первого числа — три с половиной, второго — просто четыре. Это максимальная длительность генерируемого трека — три минуты тридцать секунд против четырех минут. Модель 3.5 значительно слабее по возможностям анализа текста, распознавания смысла, внятности и правильности произношения слов, корректности расстановки ударений и логических акцентов. Качество звучания у неё беднее, а количество артефактов выше, чем у 4.0.
- Кредиты докупать нельзяВ сутки доступно всегда 50 единиц. Для получения большего запаса кредитов обратитесь к платной подписке.
- Музыкальные композиции принадлежат Suno. Право на авторство принадлежат владельцу торговой марки. Композиции запрещено использовать в коммерческих целях, при использовании в некоммерческих нужно указывать, что композиция создана Suno.ai.
Созданный контент доступен всем пользователям и посетителям сайта, сделать его приватным невозможно. При оплаченной подписке авторское право переходит к пользователю, упоминание Suno не требуется. - Можно создавать не более двух музыкальных дорожек одновременно. Нейросеть формирует по умолчанию лишь одну пару изображений, при платной подписке количество может увеличиться до пяти пар.
- Каждая задача по созданию помещается в очередь. Приходится ждать несколько минут, а в моменты высокой нагрузки — десятки.
- Предлагаем скачивание трека в формате MP3. Бесплатная версия не предоставляет возможности скачивать аудиофайлы, в то время как платным абонентам доступен формат WAV.
- Нельзя скачать разделенные партии вокала и инструментального аккомпанемента (Stems).
- Доступ к ремастерингам и созданию кавер-версий песен ограничен. треков.
- Нельзя запоминать вокалистов. и повторно использовать при генерации.
Первые шаги
Не верю в радикальные методы, как например обучение плаванию выбросив человека из лодки посреди реки, но считаю, что новичкам интереснее сразу испытать возможности Suno, чем тратить время на теоретические основы. Перейду к практике. Понадобится минимум знаний и навыков, а о тонкостях расскажу позже.
Примечание: язык промта
Я применяю английскую нотацию по двум причинам: с одной стороны, нейронной сети легче её понимать. что мы имели в виду Перевод на русский язык для неё сложная задача.
Вторая причина — отечественная музыкальная терминология — это калька с английской (аудио, блюз, бэк-вокал, вайб, вау-вау, лидсингер, рифф, соул, хорус, эмбиент и др.). Поэтому проще использовать оригинальные термины, а не их русскую транскрипцию, в которой господствует хаос (Ambient транскрибируется как эмбиент, амбиент, амбьент и т.д.).
Составим музыкальное сопровождение. Запустим suno.ai.
Инструментальные треки
Включаю кастомную генерацию (Custom в верхнем левом углу), режим создания инструментального трека (Instrumental Mode), в окно Style of Music ввожу задание, то есть промт: «Космическое эмбиентное, интродукция мюзикла, оркестровая поэма, звуковые картины космоса с ощущениями тайны и захватывающих исследований».
Космическая атмосфера музыкального оркестрового произведения, звучания из космоса и ощущение таинственности при захватывающей экспедиции.
В поле «Название» можно указать название песни; автором выбрано «Granny Metagalaxy», что русским языком будет звучать как «Бабушка Метагалактика».
За один запуск Suno генерирует два трека, которые можно прослушать через 15-20 секунд после создания обложек и появления красных точек слева от них — сигнала того, что трек ещё не воспроизведен. Полная генерация занимает примерно 3,5 минуты. По окончании генерации внизу справа над обложкой отобразится продолжительность трека, а также станут доступны кнопки Extend (расширить) и другие опции в выпадающем меню при нажатии на традиционную иконку меню из трёх вертикальных точек.
Результаты представляю ниже:
Granny Metagalaxy 1 — Вариант неплохой, но хочется чего-то более впечатляющего. Так я обычно думаю в большинстве ситуаций. Более того: никогда не получал сразу желаемого результата; всегда требуется повторить генерацию.
Granny Metagalaxy 2 — вариант мне не нравится совершенно.
В обеих ситуациях нейросеть ошиблась с продолжительностью треков. Обе композиции прерваны по истечении времени (3 минуты 59 секунд) и потребуют дальнейшей обработки, так как для инструментальных произведений невозможно задать точный момент окончания.
С самого начала использования Suno было понятно, что второй вариант существенно отличается от ожидаемого при составлении запроса. Такая же особенность наблюдается при любой генерации: ремастеринге, каверах или расширениях композиций. В каждом случае специфика ритмического рисунка, характера исполнения и мелодических вариаций у второго экземпляра всегда более выражена. Для разнообразия композиций вставки такого рода даже предпочтительны, но сейчас, при первичном создании треков, №2 звучит хуже (его следует отбросить). Генерацию можно продолжить с прежним запросом или последовательно вносить изменения, но это будет позже и с другим материалом.
Примечание: акценты в промте
По какой-то причине я научился писать каждое значимое определение с заглавной буквы: Оркестровый, Оперный, Театральный.
funk Funk FUNK
В нем первый вариант имеет наименьший приоритет, последний — самый высокий, а средний — именно средний. Если Suno что-то проигнорировала, то бесполезно повторять это несколько раз: раз в отказ и два в отказ — значит, много-много раз.
Попробуем создать что-нибудь полезноеВо время путешествий по стране или за границей мы сделали множество фотографий и видеозаписей, из которых можно смонтировать фильм для семьи и друзей. С помощью Suno можно подобрать музыку для озвучивания. Главное достоинство получаемых треков — они будут стараться соответствовать изобразительному ряду. Поэтому в запросе буду придерживаться сюжетной конкретики.
Включаю кастомную генерацию, режим создания инструментального трека. В поле Title ввожу «Полет к Мутновке», а в окно Style of Music — промт «Неземная атмосферная музыка для видео о Камчатке, живописный полет на вертолете R44 Raven над горами Камчатки к Мутновскому вулкану». Этёрическая атмосферичная музыка для видео о Камчатке, панорамный полёт на вертолёте R44 Raven над горами Камчатки к вулкану Мутновскому. . Результаты:
«Полет к Мутновке 1» и «Полет к Мутновке 2».
Разнообразие стилей присутствует, но оба варианта передают ритмичный рисунок вращающегося ротора вертолета. На обложках треков изображены горы и Robinson R44 Raven, который упомянут в первоначальном запросе. Завершение треков законченное, не прерванное. Возможна дальнейшая генерация с изменением жанров и стилей.
Вокализ
Пока столкнулись с трудностями при сочинении текстов для песен, давайте потренируемся в вокальном исполнении. Пение голосом по нотам (иногда и вне их) без слов.
Сделал простой рисунок вокальной партии с только гласными. Можно использовать «и», «о», «у» и «э». «Ы» не поют, а «е е е» как «йе йе йе». Лучше всё писать латиницей или так: ooh для «у», aah или uuh для «а».
[Verse 1]
Ааааааааааааааааа
ааааааааааааааааааааааааааа
аааааааааааaаааааааааааааааа
ааааааааaaааааааа
Ааааааааааааааааа
ааааааааааааааааааааааааааа
ааааааааааaаааааа
аааааааааааааааааааааааааааа
Ааааааааааааааааааааааааааааа
ааааааааааааааааааааааааааааа
ааааааааааааааааааааааааааааа
ааааааааааааааааааааааааааааа
[Melodic Interlude]
Ааааааааааааааааааааааааааааа
ааааааааааааааааааааааааааааа
ааааааааааааааааааааааааааааа
ааааааааааааааааааааааааааааа
Ааааааааааааааа
аааааaaаааааааааааааааааааааа
ааааааааааааааааааааааааааааа
ааааааааааааааа
[Choir]
Ааааааааааааааааааа
ааааааааааааааааааааааааааа
аааааааааааааааааа
аааааааааааааааааааааааааааа
[End]
Сuno получала несложные инструкции.
- Italian Ambient Vocalese, Operatic
- Афрохаус с вокалом, умеренное tempo, африканские ритмы, глубокие басы и душевный вокал.
- Русская народная вокальная музыка, эфирный оперный стиль.
Вот ссылки на треки: 1 Италия, 2 Кения, 3 РоссияПо моему мнению, текст достаточно убедителен и показывает многообразие.
Принципы генерации
В отличие от платформ для изображений и текста, где более подробный запрос приводит к большей точности результата, в Suno наоборот: чем проще промт, тем качественнее результат.
Сложные запросы ведут к игнорированию указаний из-за того, что главным для Suno остаётся сам текст песни. Сунэ в обязательном порядке разбирается в его смысле и настраивает интонации и музыкальные акценты соответственно. Например, в построении «куплет — предприпев — припев» часто наблюдается повышение эмоциональной напряжённости исполнения. Разработчики ресурса честно предупреждают о том, что стилистические решения нейросети всегда будут превалировать. Если доверяете Suno сочинять музыку, не пытайтесь самостоятельно контролировать процесс, так как это мешает работе ИИ.
Вторая особенность — преобладание в композиции специфики выбранного пользователем музыкального стиля. Например, при выборе блюза (даже в сочетаниях блюз-рок, блюз-фанк, блюз-ду-воп), приоритет отдается гитаре. Заставить нейросеть включить саксофон, трубу или флейту (не говоря о фанфарах) даже со специальными тегами, обычно не удается. А вот тег [Уpright Bass] — бас-гитара — напротив, приветствуется, и нейросеть часто использует этот инструмент без указаний.
Третья особенность — отсутствие повторения мелодий. Каждый создаваемый трек уникален Не имеет аналогов. Теоретически повторения возможны, но это позволяет считать каждый трек отдельным произведением, а не перепевкой. Кроме того, вряд ли пользователь столкнется с такой ситуацией. За 8 месяцев работы с Suno в интенсивном режиме лишь одна мелодия слегка напоминала уже созданную ранее, но её отвергли из-за несоответствия теме и стихам.
Тэги структуры
При создании песни, помимо музыки, необходимо скомпоновать текст и использовать базовые тэги, приведенные ниже.
Вступление | [Intro] — без уточнения [Instrumental Intro] — инструментальное |
Куплет основной текст (стих, строфа) |
[Verse] |
Пауза | [Break] — краткая остановка исполнения [Percussion Break] — остановка и ударные |
Предприпев (прехорус) | [Pre-Chorus] |
Припев (хорус) | [Chorus] |
Постприпев (постхорус) | [Post-Chorus] |
Проигрыш (инструментальный фрагмент) | [Melodic Interlude] |
Связка | [Bridge] |
Текст завершения песни | [Outro] |
Конец композиции | [End] [Big Finish] |
В большинстве случаев Suno самостоятельно привносит музыкальное начало песни. Поэтому тэг [Intro] без указания важности теряет смысл. Тэг [Instrumental Intro] лучше отражает работу нейросети, поэтому (если это не нарушает планы) его следует размещать первым.
Неструктурированный текст может получиться скучноватым, потому что нейросеть для разных его частей может использовать разные темпы, ритмы, музыкальные фразы. Это повышает разнообразие трека и делает результат более привлекательным. В общем случае лучше разбить текст на строфы. Если они не повторяются, то тэги следует сделать уникальными. В противном случае Suno с высокой вероятностью будет считать их взаимозаменяемыми и использовать любой блок [Verse] по своему выбору вместо любого другого с таким же тэгом (то же справедливо и для Pre-Chorus, Chorus, Post-Chorus). Тэг [Bridge] лучше всего ставить предпоследним (перед [Outro]), а окончательным — [End]. Дополнительно, [Bridge] используется как резерв текста — при недостатке материала именно этот блок будет повторяться.
Используя пример форматирования из стихотворения Александра Сергеевича «Зимний вечер» (1825 г.), известного с детства, распределим теги для обозначения структуры.
[Instrumental Intro]
[Verse 1]
Буря мглою небо кроет,
Вихри снежные крутя,
То, как зверь, она завоет,
То заплачет, как дитя.
[Pre-Chorus 1]
То по кровле обветшалой
Вдруг соломой зашумит,
То, как путник запоздалый,
К нам в окошко застучит.
[Chorus 1]
Наша ветхая лачужка
И печальна и темна.
Что же ты, моя старушка,
Приумолкла у окна?
[Melodic Interlude]
[Verse 3]
Или бури завываньем
Ты, мой друг, утомлена,
Или дремлешь под жужжаньем
Своего веретена?
[Pre-Chorus 2]
Выпьем, добрая подружка
Бедной юности моей,
Выпьем с горя; где же кружка?
Сердцу будет веселей.
[Chorus 2]
Спой мне песню, как синица
Тихо за морем жила;
Спой мне песню, как девица
За водой поутру шла.
[Bridge]
Буря мглою небо кроет,
Вихри снежные крутя;
То, как зверь, она завоет,
То заплачет, как дитя.
[Outro]
Выпьем, добрая подружка
Бедной юности моей,
Выпьем с горя: где же кружка?
Сердцу будет веселей.
[End]
Запускаем генерацию
Получаем: Зимний вечер (1) и Зимний вечер (2).
Можно считать это удовлетворительным результатом, учитывая отсутствие подготовки текста: отсутствуют знаки препинания, уточнения по стилю и жанру, указание инструментов.
Немного о том, что делает нейросеть с предложенным ей текстом.
- Язык
Определяются русский, немецкий, испанский, французский, а также арабский, хинди, иврит, китайский, тайский и другие языки. В тексте допускается использование нескольких языков, но не стоит создавать для нейросети экзамен, перемешивая в одной строке 3-4 языка (даже профессионал справиться с этим не сможет). При возникновении трудностей со «переключением» можно использовать специальные тэги [Русский Язык], [Английский язык (Великобритания)], [Французский язык] и так далее (хотя гарантии это не дает). - Контент
С помощью анализа текста Suno определяет стиль, ритм и манеру исполнения, а также разрабатывает оформление обложки для трека. В этом деле хорошо помогает структурирование текста тегами. - Структура
Определение участков текста, требующих усиления ритма, эмоциональной выразительности и силы голоса, а также зон понижения накала.
Исполнители
В таблице представлены различные варианты исполнения вокала с учётом пола исполнителя, его возраста и эмоционального оттенка.
Акапелла (пение без аккомпанемента) | [A Capella] |
Вокализ (пение голосом без слов) | [Vocalese] |
Девочка | [Girl] |
Дерзкое пение | [Gittery Vocals] |
Диктор (объявления) | [Announcer] |
Женщина | [Woman] |
Женский вокал | [Female Vocals] |
Женщина-рассказчик | [Female Narrator] |
«Жутковатое» пение | [Eerie Vocals] |
Оперное пение | [Operatic] |
«Освежающее» пение | [Breezy Vocals] |
Реверберация | [Reverb-Heavy Vocals] |
Тревожное пение | [Unsettling] |
Мальчик | [Boy] |
Мужской вокал | [Male Vocals] |
Мужчина | [Man] |
Мужчина-рассказчик | [Male Narrator] |
«Неземной» («эфирный») вокал | [Ethereal Vocals] |
Соблазнительное пение | [Seductive Vocals] |
Страстное пение | [Sultry Vocals] |
Хор | [Choir] |
Хорал | [Chorale] |
Церковное пение | Григорианский хор — это канон латинской литургии. |
У Suno разные приоритеты у тегов. Указание пола при смене исполнителя часто игнорируется, а если выполняется, то иногда наоборот: [Female Vocals] — мужчина поёт, [Male Vocals] — женщина (если оба тэга в тексте; один тэг Suno скорее всего соблюдает). Это происходит даже когда родные окончания без тегов подразумевают мужской и женский вокал («я ходил, и я ходила, // я так ждал, и я ждала, // я был зол, и я сердилась // я ушел, и я ушла»). В итоге мужчина поёт «и я ходила», а женщина — «я так ждал». Возникает ощущение упрямства Suno без логического обоснования. Повторяя генерации, можно добиться успеха, но сколько повторов не угадаешь: возможно пять (10 композиций), а может и пятьдесят (100 композиций). После двадцати генераций стоит отложить работу и вернуться позже, потому что непрерывные повторы выматывают не только человека, но и Suno: нейросеть начинает «глючить», собирая строки из разных строф и выдавая бессмыслицу.
Теги с эмоциональной окраской принимают лучше, но могут быть и отклонены или приняты с неожиданным решением.
Специальные звуки
Этот список малоэффективен из-за того, что используемые им теги редко учитываются.
Аплодисменты | [Applause] |
Вздохи | [Sighs] |
Визг | [Squawking] |
Гавканье собаки | [Barking] |
Дождь | [Rainfall] |
Драка | [Fighting] |
Звонок | [Bell Dings] — колокольчик [Ring] — звонок без уточнения характера [Phone Ringing] — телефон |
Индустриальные шумы | [Industrial] |
Кашель исполнителя | [Cough] |
Крики | [Screams] |
Пип (цензура) | [Bleep] |
Подцензурный контент | [Censored] |
Посмеивание (исполнителя) | [Chuckles] |
Приветствия аудитории | [cheering] — приветственный шум [cheers and applause] — приветствия и аплодисменты |
Свист как элемент композиции | [Whistling] |
Стоны | [Groaning] |
Тишина (пауза) | [Silence] |
Хихиканье | [Giggling] |
Хлопанье в ладоши | [Clapping] |
Шепот | [Whispers] |
Щебет птиц | [Birds Chirping] |
Эхо | [Echoes] |
Чаще всего используются свист и эхо.
Стили и жанры
Их число велико, перечисление лишь создаст путаницу и вряд ли поможет, особенно на начальном этапе освоения базнейFunctions нейросети. Полный список стилей, которые она распознаёт, можно увидеть с помощью интерфейса (описанного в начале материала) или… Aicando.xyzПонять, как работает модель, поможет изучение стилей/жанров и эксперименты с ними во время создания контента. Стоит помнить, что трек, созданный с тэгом [Rock, Progressive, Atmospheric], вряд ли будет похож на последующие: вариабельность внутри выбранного стиля и жанра очень велика. Это затрудняет составление промта, так как можно ожидать чего угодно. Поэтому приходится часто повторять генерацию.
Примечание: комбинации стилей
Разнообразие стилей возможно увеличить при помощи разнообразных сочетаний.
Перед и после комбинаций могут быть указаны особенности звучания, колорит, эмоциональность и прочее.
Акустический | [Acoustic] |
Альтернативный | [Alternate] |
Атмосферный | [Atmospheric] |
Баллада | [Ballad] |
Барокко | [Baroque] |
Душевный | [Soulful] |
Меланхолический | [Melancholic] |
«Неземной» | [Ethereal] |
Оптимистичный | [Upbeat] |
Оркестровый (исполнение оркестром) | [Orchestral] |
«Прохладный» | [Chill] |
Психоделический | [Psychedelic] |
Радостная | [Joyful] |
Танцевальная электронная музыка | [Dance & Electronic] [EDM] — Electronic Dance Music |
Театральный | [Theatrical] |
Экспериментальный | [Experimental] |
Эмбиентный | [Ambient] |
В итоге комбинация слияния может быть такой:
Альтернативный фанк блюз рок, экспериментальный, атмосферный, эмбиент, эфирный, оперный, театральный.
Инструменты
Описание инструментов также имеет множество тегов; сложно предугадать, на какие Suno отреагирует, а на какие нет. Далее представлю только те тэги, которые пробовал лично.
Аккордеон | [Accordion] |
Арфа | [Harp] |
Бас-гитара | [Bass], [Bass Guitar] — классическая |
Валторна | [French Horn] |
Виолончель | [Cello] |
Гитара | [Guitar] — без уточнения вида [Hawaian Guitar] — гавайская [Spanish] — испанская [Wah Wah] — «вау-вау» (эффект) |
Гобой | [Oboe] |
Губная гармошка | [Harmonica] |
Дудук | [Duduk] |
Духовые инструменты | [Brass] |
Клавесин | [Harpsichord] |
Кларнет | [Clarinet] — традиционный [Duduk] — армянский («абрикосовый») |
Концертина | [Concertina] |
Контрабас | [Upright Bass] — классический «вертикальный бас» |
Литавры | [Timpani] |
Лютня | [Lute] |
Мандолина | [Mandoline] |
Орган | Органи — инструмент, используемый в храмах из-за специфических свойств звука. [Electric Organ] — электроорган [Organ] — без уточнения вида [Pipe Organ] — классический |
Оркестр | Оркестр — без уточнения типа; Большой джаз — большая эстрадная группа. [Brass Band] — духовой [Symphonic Orchestra] — симфонический |
Перкуссия | [Percussion] — собирательное название |
Саксофон | [Saxophone] — без уточнения [Alto Saxophone] — альт [Bariton Saxophone] — баритон [Bass Saxophone] — бас [Contrabass Saxophone] — контрабас [Tenor Saxophone] — тенор |
Синтезатор | [Synth] |
Скрипка | [Violin] |
Струнные | [Strings] — без уточнения |
Труба | [Trumpet] |
Туба | [Tuba] |
Фагот | [Bassoon] |
Флейта | [Flute] — традиционная поперечная [Bamboo Flute] — бамбуковая [Ney] — персидская (арабская, турецкая) [Ocarina] — окарина («картофельная») [Pan Flute] — многоствольная (флейта Пана) [Piccolo] — пикколо Деревянный флейта. |
Фортепиано | [Electric Piano] — электропиано [Piano] — фортепиано (рояль) |
Челеста | [Celesta] |
Стихосложение
В этом тексте обсуждается то, что нейросетям до сих пор не удаётся делать: генерировать слова (стихи) для песен на русском языке. Это связано с богатством и лингвистической сложностью русского языка, которую искусственный интеллект пока не может преодолеть.
Генерация на русском
Рассмотрим примеры. Сформулируем простой запрос: «Песня о долгой, мрачной дождливой погоде в Кронштадте».
В качестве стандартной модели генерации Suno использует самое новое решение – ReMi. Полученный результат представлен ниже.
Вариант 1.
Кронштадтский унылый и долгий дождь
[Verse 1]
Кронштадтский унылый и долгий дождь
Уж третий день без перерыва
Ты одним сомневающимся словом стерла
Едва высвечивавшуюся перспективу
[Verse 2]
Кронштадтский унылый и долгий дождь
Спасибо вам за тяжелый траффик
У моей бывшей жены родился сын.
Но получила ли она
Что хотела
[Chorus]
Объясни мне честно
Ты действительно меня не любит?
Ты действительно меня не любит?
Объясни мне честно
Ты действительно меня не любит?
Ты действительно меня не любит?
[Verse 3]
Кронштадтский унылый и долгий дождь
Ленивые коллеги
Расползающиеся как тараканы
Не впечатлило даже чувство срочности
Запоминающиеся воспоминания о том
Что я бы там ни делал
[Verse 4]
Кронштадтский унылый и долгий дождь
Английская профсоюзная конференция
Жду тепла не от русских послов
[Chorus]
Объясни мне честно
Ты действительно меня не любит?
Ты действительно меня не любит?
Объясни мне честно
Ты действительно меня не любит?
Ты действительно меня не любит?
Вариант 2.
Долгий тоскующий дождь в Кронштадте
[Verse]
Шёл долгий заставляющий дождь опять
В Кронштадте
И поняла в Кронштадте
Дождь отлива
Шёл долгий дождь
В Кронштадте
Опять
Дождь отлива
[Verse]
И ни один
Из наших друзей
Не верят мне
Вы знаете ливень?
И шёл долгий
Долгий
Дождь в Кронштадте
Опять
[Verse]
Ты прошла
Долгим дождём
И шёл дождь
В Кронштадте
Кто знал
[Bridge]
Шёл долгий
Долгий дождь
Forsake him
Шёл долгий
Долгий дождь
В Кронштадте
[Chorus]
И шёл долгий
Долгий дождь
Its an escape to yourself
It’s a long
Long rain
In Kronstadt
It’s an escape
[Chorus]
Долгий
Долгий дождь
Постоянно ливень
Шёл долгий
Долгий дождь
В Кронштадте
Полное безобразие, к тому же неправильное переплетение языков. Провал.
В честь Илья Калинникова, руководителя группы «Високосный год», запрос будет изменен на «лучшая песня о любви».
Вот результаты работы программы Suno.
Ответы нейросети.
Вариант 1
[Куплет 1]
Чайник свищет на вокзале
Объявляют уходящий поезд
В этот день с тобой прощались мы
И ты в вагон шагнула свой
[Переход]
И вслед
Смотря
Я мечтал
Как по ветру в даль неслись мои слова
[Припев]
Песня доносилась мне вслед.
Лучшая из всех
Что ты слышала
Песня про любовь
[Куплет 2]
Я спешил опять увидеть
Ваши нежные глаза
Ты встречала при дороге
Мне шепча едва слова
Как волна
[Переход]
Бросая в них свои слова
Я чувствовал
Что плачу после долгой высоты
[Припев]
О тебе моя песня
Так похож ты на неё
Лучше всех
Что слышали
Песен про любовь
Вариант 2
[Вступление]
Это лучшая песня
Послушай сейчас
Это лучшая песня
Это для вас
[Куплет]
Кевин сидит в песочнице
Продавил задом весь песок
Забирает девчонок из казино
На серебристой электро-бугатти
[Припев]
Это лучшая песня о любви
Это лучшая песня о любви
Лучше я не могу придумать
Это лучшая песня
Это для вас
[Куплет 2]
А если всё это правда
Если вся атмосфера реальная
Если каждому хочется жить хорошо.
Надо просто верить в любовь
[Припев]
Это лучшая песня о любви
Это лучшая песня о любви
Лучше я не могу придумать
Это лучшая песня
Это для вас
[Переход]
Ля-ля-ля-ля
Что-то совсем неподобающее…
Дадим ещё одну попытку, воспользовавшись предыдущей, старой версией генерирующей модели (Classic). Зададим снова то же самое: «Лучшая песня о любви». В результате получим новые «шедевры»:
Вариант 1
[Verse]
Ты мое сердце в красках лови
Танцуй в лучах любви с тобой
Смело дышу спокойствием сильным
Ты мой один
Мой непокорный герой
[Verse 2]
Слова как звезды в ночи для нас
Вдвоем летим на крыльях мечты
Я тобою дышу
Просто рядом будь
Мой мир теперь в твоей орбите
[Chorus]
Ты луч
Что дарит свет мой
Знаю это не сон любви
С тобой мир становится простым
В ритме бьются два сердца
[Bridge]
Дождь смывает печаль из глаз
Тепло держи
Не отпусти
Пусть ветер вместе нас несет
В сказку наших дней пустив
[Verse 3]
Смело в сердце тревогу возьму
Уверен в силах вечной любви
Мир за окном спит
Но не уснет
Страсть рисует мгновение нас
[Chorus]
Ты луч
Что дарит свет мой
Знаю это не сон любви
С тобой мир становится простым
В ритме бьются два сердца
Вариант 2
[Verse]
Взгляд твой словно солнечный луч
Ты мой день превращаешь в светлый
Каждый миг с тобой как сладкий пломбир
Ты моя весна в лучах рассвета
[Verse 2]
Твоя улыбка мир мой красит
Наши мечты цветом небес
Ты моя вера в чудеса
Ты мой отдых среди всех бед
[Chorus]
Лучшая песня о любви
Это мы с тобой вдвоем
Наши сердца в одном ритме
Мы танцуем под звездным дождем
[Verse 3]
Каждое слово словно песня
Что поет лишь для нас двоих
Ты моя нежность и воскресенье
Тончайший свет в моём творчестве.
[Verse 4]
Обними меня
Не отпускай
Мы как два крыла способны летать
В мире вековых сказаний.
Ты моя правда и мой рай
[Chorus]
Лучшая песня о любви
Это мы с тобой вдвоем
Наши сердца в одном ритме
Мы танцуем под звездным дождем
Ещё раз не то. Применим более узкоспециализированные инструменты ИИ-генерации, например, AI Song Lyrics Generator из набора yeschat.ai. Задаём ему написать стихи для лучшей песни о любви и получаем такое:
Куплет 1
Ты — свет, что греет ночью в холод,
Ты — воздух, что я не могу не вдохнуть.
В гуще суеты, среди множества звуков.
Я нашёл тебя — и уже не вернуть.
Припев
Ты моё сердце, ты мой сон,
С тобой весь мир — как сладкий фон.
Не нужно больше звёзд и луны,
Всё, что мне нужно — это ты.
Куплет 2
Твои глаза, как бескрайний океан,
В них отражается наш вечный роман.
В каждой улыбке — тысячи чудес,
Ты мой мир, мой смысл, мой небесный лес.
Бридж
Пусть время бежит, подобно пламени свечи.
Я обещаю быть рядом в ночи.
Ничего нет сильнее, чем наша любовь,
Ты — моя душа, я — твоя кровь.
Припев
Ты моё сердце, ты мой сон,
С тобой весь мир — как сладкий фон.
Не нужно больше звёзд и луны,
Всё, что мне нужно — это ты.
Финал
В каждом дыхании, в каждом дне
Ты — моя песня, звучишь во мне.
Любовь к тебе — мой вечный крик,
Ты — мой огонь, мой вечный миг.
Галиматья, да и только. Узнаем у нейросети, почему искусственный интеллект сочиняет слабые стихи. Вот ее ответ в защиту.
Искусственный интеллект пишет плохие стихи из-за отсутствия личного опыта и чувств. Он лишь имитирует их, что делает строки механическими. Также ИИ часто использует шаблоны и статистику, в то время как поэзия требует интуиции и неожиданной образности. Поскольку у него нет творческого безумия, стихи Искусственного интеллекта лишены человечности.
ChatGPT
С точки зрения автора, не разбирающегося в создании и обучении нейросетей, ответ отходит от сути вопроса. Он слишком акцентирует внимание на представлениях высокого уровня. В действительности, написанные ИИ стихи выдают бессвязное словосочетание, часто сочетающиеся друг с другом только по формальным признакам, а иногда и вовсе не сочетающиеся ничем. Часто наблюдается отсутствие согласований по падежам, родам, числам и т. д. Во множестве случаев отсутствует простая логика построения предложений.
Генерация на английском
Тексты на английском языке создаются с большей глубиной и красотой, хотя иногда звучат наивно. Для оценки важно слушать их исполнение, как на концерте, ведь родным языком это не является.
Обратились к Suno с заданием. Я использовал только описание стиля песни, не указывая тему стихов: «нео-соул джаз, умеренный темп, соул джаз, джазовая гармония, современное звучание, джаз, душевный вокал, душевная композиция».
Промптом руководил не я — взял готовый. Отсюда повторы без смысла, как уже говорилось (если сто раз повторить слово «халва», то во рту слаще не станет). Вот он на английском:
Неосоул джаз, умеренный темп, джаз с элементами соула, гармонии джаза, современная обработка, джаз, душевные вокальные партии, душевная музыка.
Результат — «Мечтанья под луной», или Moonlit Reverie (вариант 1), (вариант 2).
[Verse]
Under the glow of the moonlight’s embrace,
We danced through the night, finding our pace,
Soft whispers of secrets, tender and true,
In this world of dreams, just me and you.
[Verse 2]
A melody lingers, sweet in the air,
Полоски рисуют пальцы, нежно и благородно.
Heartbeats in rhythm, a soulful decree,
In this moonlit reverie, it’s just you and me.
[Chorus]
Oh, in the still of the night, our love we find,
Two kindred spirits, perfectly aligned,
Под музыку, время утекает.
In this enchanted moonlit sway.
[Verse 3]
We’ve painted our canvas in shades of grace,
Each brushstroke a memory, love we embrace,
Gentle notes echo, from heart to heart,
In this moonlit serenade, we’re never apart.
[Bridge]
Beneath the stars, our souls interlace,
Every moment, a tender embrace,
Through songs of love and whispers so fine,
In the moon’s glow, our hearts combine.
[Chorus]
Oh, in the still of the night, our love we find,
Two kindred spirits, perfectly aligned,
Под музыку качаясь, время уходит.
In this enchanted moonlit sway.
Я подчеркнул проблемные обороты и любимые слова генератора: «обнимать», «шептать», «секреты», «мечты», «тени», «linger», «бит сердечного ритма», «дух». Повторов много; по идее, их нужно устранить, возможно, даже переписать строки. Но мы этого не сделаем — так сойдет.
Стихотворение в духе ду-вопа о большой семье на отдыхе у моря.
Мellow мелодия о большой семье на отдыхе у моря, в стиле ду-воп, радостная, театральная.
Результат — «Семейство у моря», или Family by the Sea (вариант 1), (вариант 2).
[Verse]
We’re laughing in the sun light bright
Kids are digging castles high
Waves are crashing left and right
Fish are jumping saying hi
[Verse 2]
Auntie’s got her grill ablaze
Uncle’s dancing in his shades
Grandma’s knitting in the shade
Любовь семьи никогда не угаснет.
[Chorus]
We got one big wavy family
Splashing joy down by the sea
Melodies in harmony
Living wild and fancy free
[Verse 3]
Brother’s building bonfire tall
Sister’s throwing beachball high
Cousins running chase-and-call
Underneath the azure sky
[Bridge]
Dad’s guitar is strumming tunes
Mom’s voice floating to the moon
Here the world is all in tune
С сердцами, что трепещут и поют
[Verse 4]
Evening glow on water’s edge
Family saga never ends
Sandy toes and laughter blend
In waves of love we all depend
Здесь слова ещё проще. Несмотря на жанр, за них всё же стыдно. Всё равно не будем тратить время на правку.
Если относиться к делу серьёзно, то целесообразнее сочинять стихи самостоятельно, а при крайней необходимости — опираться на произведения классики, учитывая её наличие на разных языках.
Авторские стихи
Когда автор самостоятельно пишет стихи, сможет не только поделиться оригинальным содержанием, но и регулировать создание композиции, выбирая размер, ритм, рифмы, аллитерации и метафоры.
Шутовство
[Instrumental Intro]
[Verse 1]
Пока в быту аднообразном
еще не вышел жизни счёт,
а в ажидании напрасном
бывает нечет или чёт,
[Pre-Chorus 1]
пока тебе никто не верит,
попробуй верить сам себе;
уговоРИ себя: теперь я
поупражняюсь в ворожбе.
[Chorus 1]
Набивай дипломат,
собирай плагиат —
ненаучный формат,
удальстВО.
Каждый миг покори,
каждый час одари,
каждый день преврати
в волшебстВО
[Post-Chorus 1]
волшебство
оооооооооо
колдовство
оооооооооо
ведовство
[Melodic Interlude]
[Verse 2]
Пока попоны — не препоны,
покуда вдоль — не поперёк,
пока работают нейроны,
и с ними варит котелок
[Pre-Chorus 2]
познай события и числа,
освободи напор и прыть,
тогда ни силами, а смыслом
любого сможешь удивить.
[Chorus 2]
Компромат нарасхват:
гос- и партаппарАт,
экспонат-демократ,
существо;
каждый миг покори,
каждый час одари,
каждый день преврати
в шутовство.
[Post-Chorus]
баловствО
оооооооооо
хвастовство
оооооооооо
естество
[End]
Пишемые обозначены изменени́ями для правильного произноше́ния безуда́рных гласных, принуди́тельно поставленными «ё», выделя́емыми ударе́нными гласными и ударе́нными слогами.
Достигнув главной цели оформления структуры текста, мы сосредоточились на устранении ошибок. Модель 4.0, как и говорилось ранее, лучше справляется с неанглийскими языками по сравнению с 3.5-й версией, но всё равно иногда допускает огрехи. Даже у искусственной модели бывают сбои, а что говорить о человеке?
Вместо «е» везде необходимо ставить «ё». По мнению редактора, букву Карамзина следует использовать только тогда, когда контекст не позволяет определить звучание: «все узнали» или «всё узнали». Для Suno ясности нет: даже если в слове «все» нужен звук «е», нейросеть упрямо пишет «ё». Например, «березняк» становится «берёзняком» (потому что берёза, и всё).
Можно поставить ударение правильно тремя способами.
- Сделать букву прописной (аппарАт),
- Выделить прописными весь ударный слог (аппала). РАТ)
- Перед ударением поставить апостроф. ’рат)
Ни один из предложенных вариантов не предоставляет абсолютной защиты от ошибок, однако их нельзя применять одновременно, не только три, но и даже два. Дополнительно: действующий алгоритм Suno обязывает всегда петь «далеко́», а не «далёко», «высоко́», а не «высо́ко», независимо от того, подходят ли эти варианты по размеру или рифме.
Обратимся снова к созданию треков. Я приложил больше усилий, отсеял несостоявшиеся идеи и представляю для вашего внимания семь различных композиций в разных стилях и жанрах.
- Психоделический фанк:
Психеделический фанк, ритмичные басовые линии, гитары с эффектом «вау-вау», трипперские эффекты и энергичные духовые партии. - Гиперпоп:
Хайперпоп с быстрым темпом, преувеличенными синтезаторами, автотюнированным вокалом и максималистической обработкой. - Ду-воп:
Doo Wop, joyful - Мат-рок, джей-поп:
Математический рок, японский поп, мутирующий фанк, отскок, дабстеп, электронная музыка, 160 ударов в минуту. - Свинг-метал:
Металл в ритмах свинг-музыки, быстрый темп, энергетический сплав с элементами рок-инструментов. - Эмбиент фанк:
Мелодичный гармоничный эмбиент-фанк, атмосферный, эфирный, оперный, театральный. - Эмбиент метал:
Мелодичный гармоничный эмбиент, эфирный металл, орган, искажённые гитары, оперный, театральный.
Иногда приходится писать стихи на английском языке. Нельзя сказать, что я сильно продвинулся в английском стихосложении по сравнению с Suno, но всё же верю, что мои попытки не уступают работе нейросети. Приведу пример.
«Словно потерявшийся ребенок» — Like a Lost Child
[Instrumental Intro]
[Verse 1]
Walking down beneath the Moon,
I forget the route and clue.
In the air, I hear a tune,
Playing music old for new.
[Pre-Chorus 1]
Every corner calls my name,
Shadows play a nasty game.
[Chorus]
Oh, my heart, it’s losing ground,
In the dark, no solace found.
Heavy mind, it’s runnin’ wild,
In my soul, I’m a lost child.
[Melodic Interlude]
[Verse 2]
Every corner calls my name,
Shadows play a nasty game.
Lonely heart makes me insane,
Thoughts are damaging the brain.
[Pre-Chorus 2]
Every breath takes me away,
Every shadow tries to play.
[Chorus]
Oh, my heart, it’s losing ground,
In the dark, no solace found.
Heavy mind, it’s runnin’ wild,
In my soul, I’m a lost child.
[Bridge]
Maybe I’m just lost tonight,
Or maybe I’m just outta sight.
Moonlight fades and so do dreams,
Chasin’ nothings in the streams.
[End]
Семь треков различного стиля и жанра.
- Блюз западного побережья:
Завораживающий блюз западного побережья, проникновенный вокал женщины, оперный, театральный. - Блюз-фанк:
Альтернативный блюз-фанк западного побережья, экспериментальный, контрабас, хор, оперный, театральный. - Блюз:
Меланхоличный блюз, контрабас, хор, низкий женский вокал, оперный, театральный - Космический джаз:
Космический джаз, умеренный темп, импровизации на тему космоса, электронные элементы и грандиозные звучания. - Дес-метал:
Атмосферный дед метал с экспериментальным оттенком, умеренный темп. - Арт-рок:
Атмосферный прогрессив-рок с экспериментальными элементами, умеренное tempo. - Классический джаз:
Джазовая атмосфера прошлого, классические композиции, виртуозные партии на трубе, живой бас и соблазнительный женский вокал.
Заключение
В ходе знакомства с возможностями Suno — одной из самых популярных и развитых систем ИИ-генерации — выяснилось, что нейросеть может создавать инструментальные и песенные треки. Важно отметить, что написание слов остается слабым местом не только Suno, но, вероятно, и других ИИ-систем.
Несмотря на это, Suno можно успешно использовать для личных нужд и коммерческих целей, например, для создания треков по заказу. Преимущества сервиса явно перевешивают его недостатки. Полный обзор невозможно поместить в один текст, поэтому продолжение следует. Вторая часть будет посвящена проблемам генерации музыки с помощью Suno, способам их преодоления и приемам улучшения качества звука созданных композиций.