Сунго пишет и исполняет музыку.

Вступление

Автор этого текста сознательно нарушает традицию подачи текста от третьего лица. В такой традиции автор видит что-то архаичное, бюрократичное и выхолощенное, даже сравнимое с Азией («не угодно ли будет великому эмиру…»). Не хочется скрываться за третьим лицом, ведь авторский подход — основа доверительного отношения к содержанию. В современном мире с блогами, твитами и другой «писаниной-отсебятиной» авторы обращаются непосредственно к читателям. Поэтому автор пишет от себя.

Второе, о чем хотел бы сказать, — о мотивах, которые направили мой интерес к генерации треков с помощью нейросети. Всё началось с автомобильной музыки: запаса на смартфоне и других носителях. Музыка в машине звучит постоянно, но старые треки (хотя и присутствуют в изобилии), как говорится, затерты до дыр, их повторение уже давно тяготит, а репертуар обновляется редко. Из новинок хочется переслушать лишь немногое. Я решил обратиться к нейросети — с её помощью можно «нагенерить» много новой музыки, которая будет соответствовать моим вкусам и предпочтениям. После нескольких недель знакомства с разными решениями я выяснил, что самым приемлемым для меня вариантом (по состоянию на июнь 2024 г.) является Suno.ai. То есть да, конечно, это не единственный аванпост ИИ в музыкальной индустрии, но сколько-нибудь достойную альтернативу найти не удалось.

Здесь нужно сказать о третьем начальном моменте: между редакцией и Suno нет отношений. В частности, оплата подписки на данный сервис производится нами… подпискиСегодня три из собственного кармана. Не получаем никаких выплат, скидок и преференций от юрлица, его представителей и сотрудников. Этот текст и другие возможные упоминания Suno в наших публикациях не носят рекламного характера, а комментарии отражают личную позицию Автор как человек, а не редакция как организация.

Вернусь к альтернативе. Любопытные могут без труда назвать несколько других ИИ-генераторов музыки, но по сравнению с Suno у них меньше достоинств, а использование сложнее и привязано к большим ограничениям. Некоторые из таких генераторов практически не используются, особенно в России.

udio отличается большей профессиональностью в создании аудиоконтента высокого качества, но не поддерживает русский язык, ограничивается композициями длительностью шестьдесят секунд, а подготовка задания (промта) для генерации сложна. У Suno максимальная длина композиции — четыре минуты, есть возможность добавлять расширения к уже созданному треку и объединять их в произведение большой длительности (до десяти минут). Suno работает с минимальными инструкциями или вообще без них, гибко реагирует на формулировки промта, даже прощает грамматические ошибки. Она понимает множество языков: тайский, китайский, арабский, иврит и другие. Ошибки могут возникать, даже с английским текстом, но это не критично.

Добавлю к перечню достоинств еще несколько: одновременная генерация двух композиций, создание картинок-обложек для треков (по идеям и исполнению достаточно примитивны), генерация видео к треку с текстом для караоке, некоторые удобные функции редактирования готовой композиции (замена напеваемого текста, обрезка и, как сказано выше, удлинение песни за счет последовательных расширений). У Suno есть специально созданное приложение для смартфонов и планшетов на Android и iOS (доступны в соответствующих магазинах). Правда, после краткого знакомства интерес к ним утратился: по функциональности это лишь отрывки полноценного веб-варианта, даже на смартфоне полезнее открыть браузер, чем мириться с укороченной адаптацией под маленький экран. Тем не менее, эти приложения есть, а конкурентам в этом плане хвастать вовсе нечем.

Важно, что Suno непрерывно совершенствуется, и результаты этих изменений видны уже через полгода работы: возможность создания видео для караоке появилась в сентябре 2024 г., затем каверов песен, после чего вышла новая версия генеративной модели, функция сохранения голосов любимых вокалистов для использования в новых треках, функции ремастеринга музыки, приложения для Android и iOS, а последняя, январская, прибавка — опция создания дополнительных рабочих пространств (как папок) для упорядочивания треков по темам.

Знакомство

Как обычно для нейросетей, управление генерируемым контентом осуществляется через веб-интерфейс, используемый в любых браузерах.

На главной странице публикуется постоянно обновляемый контент с примерами песен, сделанных Suno по запросам пользователей. Прослушать их возможно без подписки, что и будет использовано ниже для предоставления ссылок на созданные произведения.

Активировав в левом меню пункт «Создать композицию», в окне появятся четыре вертикальных поля. Левое поле, как и раньше, содержит позиции меню. Следующее поле предназначено для управления процессом генерации, далее расположено рабочее пространство, где накапливаются созданные композиции и предоставляется возможность дальнейшей работы с ними. В правой колонке выводятся новости и сообщения системы. Выбор любого элемента из списка приводит к отображению параметров и контента трека: наименование, промт, дата и время создания, текст.

Третье меню слева — это библиотека. В ней хранятся все пользовательские творения нейросети.

Библиотека наполняется достаточно быстро. Для эффективного функционирования системы необходимо вносить дополнительные сведения о недавно созданных композициях. Suno не осуществляет автоматическую нумерацию, даже для дифференциации первого и второго вариантов при одновременном генерации. Следовательно, целесообразно добавлять к названиям номера.

Завершённые версии отмечены словом «FINAL» или знаком плюс перед именем песни — это упрощает поиск лучшего варианта, если их будет много.

Вверху справа от списка композиций в окне «Библиотека» находится кнопка с иконкой для доступа к мусорной корзине. Её добавили не так давно; раньше приходилось вводить в строку браузера… https://suno.com/me/trash

Моя корзина полна отброшенных треков, число которых намного больше количества полезного контента в библиотеке. Возможно, я слишком критично оцениваю результаты генерации. Впрочем, бывают случаи, когда бракованные тексты появляются непрерывно. Чаще всего приходится выбрасывать результаты при ремастеринге и при создании расширений и каверов (на один проект в октябре 2024 года за два дня я потратил половину месячного запаса кредитов из-за недостатка опыта).

Нажатие на четвертую позицию меню («Исследовать») открывает список музыкальных жанров и стилей, который медленно вращается по часовой стрелке.

Все элементы списка можно кликнуть. Нажав на позицию, вы запустите пример стиля. Кнопка ниже позволяет выбрать этот стиль для генерации аудиоконтента в дальнейшем.

Пятый пункт меню, Search, также предоставляет возможность поиска. Введите необходимую строку в поле с лупой, чтобы просмотреть список примеров.

Теперь о деньгах.

Аккаунт недавно создан, подписка не оформлена. В бесплатном варианте (Basic Plan) предусмотрено 50 кредитов, которые восстанавливаются ежедневно. На одну композицию уходит 5 кредитов, но при одновременной генерации двух треков расход составляет 10 кредитов. специально Возврат кредитов происходит только в случае если композиция не создана или ее продолжительность меньше шестнадцати секунд. Чаще всего дефектным признаётся лишь один вариант из пары, поэтому возврат составляет пять кредитов.

Скриншот демонстрирует возвращение средств за трек, продолжительность которого составляла всего шесть секунд («Возврат кредитов»).

Бесплатный тарифный план Basic позволяет активировать генерацию всего пять раз в сутки. Даже этого недостаточно для оценки базовых возможностей. Кроме того, у бесплатного плана есть другие ограничения.

  • Генеративная модель доступна лишь в старой версии. — Три с половиной, а не четыре. Точка в английском языке разделяет целую и дробную часть, поэтому эквивалентом в первом случае является число три с половиной, во втором — просто четыре. Это максимальная длительность генерируемого трека — три минуты тридцать секунд против четырех минут. Модель 3.5 значительно слабее по возможностям анализа текста, распознавания смысла, внятности и правильности произношения слов, корректности расстановки ударений и логических акцентов. Качество звучания у неё беднее, а артефактов больше, чем у 4.0.
  • Кредиты докупать нельзяЕжедневно доступно 50 единиц. Для получения большего количества кредитов можно оформить платный тариф.
  • Музыкальные произведения, разработанные здесь, принадлежат Suno. Авторское право на товарный знак и композицию остается за владельцем торговой марки. Использование в коммерческих целях запрещено, а для некоммерческого — необходимо указать, что композиция создана Suno.ai.
    Созданный контент доступен всем пользователям сайта и его посетителям.
    Приобретая платную подписку, авторское право переходит к пользователю, упоминание Suno не требуется.
  • Можно одновременно создавать максимум два трека. Сеть генерирует лишь одно набора изображений по умолчанию (до пяти пар при платной подписке).
  • Каждая задача по созданию чего-либо ожидает своего выполнения. Порой ожидание может занять несколько минут, а в часы наибольшей загруженности — десятки.
  • Музыкальный трек доступен для загрузки только в формате MP3. Бесплатная версия предоставляет возможность прослушивания, а платная подписка дополнительно включает скачивание в формате WAV.
  • Нельзя скачать разделенные партии вокала и инструментального аккомпанемента (Stems).
  • Доступ к ремастерингу и созданию кавер-версий песен отсутствует. треков.
  • Вокалистам не следует создавать образы. и повторно использовать при генерации.

Первые шаги

Не верю в решительные меры, например, обучение плаванию путем выброса человека из лодки посреди реки. Но думаю, что новичкам интереснее сразу попробовать возможности Suno, чем тратить время на теорию. Поэтому перейду к делу. Никаких специальных знаний или навыков не нужно, а про хитрости скажу позже.

Примечание: язык промта

Я применяю английские обозначения по двум причинам: первое, нейросеть должна распознать… что мы имели в виду Перейти на русский язык для нее задача сложная, во-вторых отечественная терминология в музыкальной индустрии — это калька с английской (аудио, блюз, бэк-вокал, вайб, вау-вау, лидсингер, рифф, соул, хорус, эмбиент и проч.), поэтому проще использовать оригинальные термины, а не их русскую транскрипцию, в которой господствует хаос (например, Ambient транскрибируется как эмбиент, амбиент, амбьент и т. д.).

Сделаем музыкальную основу. Запускаем suno.ai.

Инструментальные треки

Включаю кастомную генерацию (Custom в левом верхнем углу), устанавливаю режим создания инструментального трека. В окно Style of Music ввожу задание, то есть промт: «Космическое эмбиентное, интродукция мюзикла, оркестровая поэма, звуковые картины космоса с ощущениями тайны и захватывающих исследований».

Космическое погружение в музыкальную симфонию, оркестровые звуки и загадочные пейзажи, полные захватывающего путешествия.

Можно указать в поле (Title) название песни; я указал «Granny Metagalaxy», «Бабушка Метагалактика».

За одну итерацию Suno генерирует два трека, которые можно послушать через 15-20 секунд после создания обложек с красными точками слева — это сигнал о том, что трек еще не проигрывался. Полная генерация занимает около 3,5 минут. После завершения внизу справа поверх обложки появится длительность звучания и станут доступны кнопка Extend (расширить) и другие опции в выпадающем меню при нажатии на значок меню в виде трех точек.

Результаты представляю ниже:

Granny Metagalaxy 1 — Вариант приемлемый, но хочется чего-то масштабнее. Так обычно думаю в большинстве случаев. Да и никогда не получаю с первого раза то, что предвидел, приходится генерировать снова.

Granny Metagalaxy 2 — вариант мне не нравится совершенно.

Нейросеть ошиблась с продолжительностью треков в обоих случаях, поэтому обе композиции прерваны по истечении времени (3 минуты 59 секунд). Для последующего редактирования потребуется уточнить конец каждой композиции, так как для инструментальных произведений отсутствует указатель завершения.

С самого начала работы со Suno было понятно, что второй вариант существенно отличается от ожидания пользователя при составлении запроса, больше первого. Такое же наблюдается во всякой генерации: ремастеринге, создании каверов или расширениях композиции («правило пары» справедливо для всех случаев). Специфика ритмического рисунка, характера исполнения и даже мелодических вариаций у второго экземпляра всегда заметнее. Если нам нужно разнообразить композицию подобными вставками, это предпочтительнее. Сейчас, при первоначальном создании треков, №2, по моему мнению, звучит хуже (его следует отбросить). Генерация может продолжаться с прежним запросом или с последовательным внесением изменений, но этим займемся позже с другим материалом.

Примечание: акценты в промте

Я почему-то привык записывать каждое значимое описание с заглавной буквы: Оркестровый, Оперный, Театральный. По факту иерархия проста. Вот ряд написаний одного и того же:

funk Funk FUNK

В нем первый вариант наименее предпочтителен, последний — наиболее предпочтителен, а средний — имеет средний приоритет. Если Suno что-то проигнорировала, то бесполезно повторять это дважды, трижды и так далее: один раз в отказ и два раза в отказ — значит много раз.

Попробуем создать что-нибудь полезноеВо время путешествий по стране или за границей мы сняли фото и видео, из которых можно создать фильм для семьи и друзей. Как подобрать музыку для озвучивания? Suno поможет, и главное достоинство получаемых треков в том, что они будут соответствовать содержанию изображений. Поэтому я буду опираться на сюжетные детали.

Включаю кастомную генерацию, режим создания инструментального трека. В поле Title ввожу «Полет к Мутновке», а в окно Style of Music — промт «Неземная атмосферная музыка для видео о Камчатке, живописный полет на вертолете R44 Raven над горами Камчатки к Мутновскому вулкану». Эфирный атмосферный саундтрек для видео о Камчатке, панорамный полет на вертолете Р44 «Raven» над горами Камчатки к вулкану Мутновскому. . Результаты:

«Полет к Мутновке 1» и «Полет к Мутновке 2».

Разные варианты по стилю, но оба передают ритмический рисунок вращающегося ротора вертолета. На обеих обложках треков изображены горы и Robinson R44 Raven, о котором я упомянул ранее (казалось, старался не зря). Завершение треков нормальное, не прервано. По желанию можно продолжить генерации, меняя жанры и стили.

Вокализ

Пока не столкнулись с трудностями при сочинении текстов для песен, рассмотрим вокализ: пение голосом по нотам (иногда «мимо» нот), но без слов.

Создал простой вокальный рисунок только с гласными. Можно использовать «и», «о», «у» и «э». «Ы» не поётся, а «е е е» воспроизводится как «йе йе йе». Лучше всё писать не русскими буквами, а английскими или последовательностями: ooh для «у», aah или uuh для «а».

[Verse 1]
Ааааааааааааааааа
ааааааааааааааааааааааааааа
аааааааааааaаааааааааааааааа
ааааааааaaааааааа
Ааааааааааааааааа
ааааааааааааааааааааааааааа
ааааааааааaаааааа
аааааааааааааааааааааааааааа

Ааааааааааааааааааааааааааааа
ааааааааааааааааааааааааааааа
ааааааааааааааааааааааааааааа
ааааааааааааааааааааааааааааа

[Melodic Interlude]

Ааааааааааааааааааааааааааааа
ааааааааааааааааааааааааааааа
ааааааааааааааааааааааааааааа
ааааааааааааааааааааааааааааа
Ааааааааааааааа
аааааaaаааааааааааааааааааааа
ааааааааааааааааааааааааааааа
ааааааааааааааа

[Choir]
Ааааааааааааааааааа
ааааааааааааааааааааааааааа
аааааааааааааааааа
аааааааааааааааааааааааааааа

[End]

В качестве заданий Suno получали несложные инструкции.

  1. Italian Ambient Vocalese, Operatic
  2. Афрохаус с вокалом, умеренный темп, африканские ритмы, глубокие бас-линии и душевная вокальная партия.
  3. Русский народный вокал, эфирный, оперный

Вот ссылки на треки: 1 Италия, 2 Кения, 3 РоссияСчитаю, что текст хорошо показывает различие.

Принципы генерации

В отличие от площадок для графики и текста, где более подробный запрос приводит к большей корреляции с ожиданиями, у Suno чаще наблюдается обратная тенденция: чем проще запрос, тем лучше результат. Позже будет показано, что даже без указания музыкального стиля, исполнения и аранжировки нейросеть способна создать приемлемую заказчику композицию (романс не будет похож на сиротские куплеты).

Чем сложнее запрос, тем больше указаний в нём будут проигнорированы. Причина этому проста: основным руководством для Suno служит текст песни.
Программа вникает в его смысл и настраивает интонационные и музыкальные акценты соответственно. Например, в «куплет — предприпев — припев» эмоциональная напряженность исполнения обычно повышается. Создатели ресурса честно предупреждают о приоритете стилевых концепций самой нейросети, подчеркивая, что доверяя ей сочинение композиций, не нужно пытаться что-то решать самостоятельно, так как это мешает работе ИИ.

Вторая особенность — преобладание выбранного пользователем музыкального стиля в готовой композиции. Например, при выборе блюзов (даже в сочетаниях блюз-рок, блюз-фанк, блюз ду-воп) приоритет отдается гитаре (гитарам).
Заставить нейросеть включить в подобную композицию саксофон, трубу или флейту даже с тегами [Smooth Saxophone Solos], [Trumpet Solo], [Flute]) обычно не удаётся. А вот тег [Upright Bass] — бас-гитара — приветствуется, и нейросеть часто задействует этот инструмент (или даже контрабас) без специальных указаний.

Третья особенность — отсутствие повторения мелодий. Каждый создаваемый трек … уникален Нет аналогов этому. Повторение теоретически возможно, но это позволяет считать каждый трек самостоятельным произведением, а не «перепевом». Вряд ли обычный пользователь столкнется с повторением. За 8 месяцев работы в напряженном режиме мне лишь одна мелодия показалась похожей на ранее созданную. Ее отклонили из-за непригодности к теме и стихам.

Тэги структуры

Для песни текстовую часть нужно упорядочить. В таблице представлены базовые теги, используемые для этого.

Вступление [Intro] — без уточнения
[Instrumental Intro] — инструментальное
Куплет
основной текст (стих, строфа)
[Verse]
Пауза [Break] — краткая остановка исполнения
[Percussion Break] — остановка и ударные
Предприпев (прехорус) [Pre-Chorus]
Припев (хорус) [Chorus]
Постприпев (постхорус) [Post-Chorus]
Проигрыш (инструментальный фрагмент) [Melodic Interlude]
Связка [Bridge]
Текст завершения песни [Outro]
Конец композиции [End]
[Big Finish]

Чаще всего Suno самостоятельно привносит музыкальное вступление в начале трека, поэтому тег [Intro] без указания значения бессмысленен. Тег [Instrumental Intro] точнее отражает работу нейросети, поэтому (если это не противоречит планам), его следует размещать первым в композиции.

Неструктурированный текст получится скучновата, поскольку для разных его частей нейросеть может использовать разные темпы, ритмы, музыкальные фразы. Это повышает разнообразие трека и делает результат более привлекательным. Лучше разбить текст на строфы. Если они не повторяются, нужно делать тэги уникальными. В противном случае Suno с высокой вероятностью будет считать их взаимозаменяемыми и использовать любой блок [Verse] вместо любого другого с таким же тэгом (такое же справедливо и для Pre-Chorus, Chorus, Post-Chorus). Тэг [Bridge] лучше ставить предпоследним (перед [Outro]), а окончательным — [End]. Кстати, помимо основного назначения [Bridge] ещё и резерв текста — при нехватке песенного материала именно этот блок будет выбран для повторения.

В качестве примера формата обратимся к стихотворению Александра Сергеевича «Зимний вечер» (1825 г.), знакомым с детства. Для обозначения структуры применим перечисленные теги.

[Instrumental Intro]

[Verse 1]

Буря мглою небо кроет,
Вихри снежные крутя,
То, как зверь, она завоет,
То заплачет, как дитя.

[Pre-Chorus 1]

То по кровле обветшалой
Вдруг соломой зашумит,
То, как путник запоздалый,
К нам в окошко застучит.

[Chorus 1]

Наша ветхая лачужка
И печальна и темна.
Что же ты, моя старушка,
Приумолкла у окна?

[Melodic Interlude]

[Verse 3]

Или бури завываньем
Ты, мой друг, утомлена,
Или дремлешь под жужжаньем
Своего веретена?

[Pre-Chorus 2]

Выпьем, добрая подружка
Бедной юности моей,
Выпьем с горя; где же кружка?
Сердцу будет веселей.

[Chorus 2]

Спой мне песню, как синица
Тихо за морем жила;
Спой мне песню, как девица
За водой поутру шла.

[Bridge]

Буря мглою небо кроет,
Вихри снежные крутя;
То, как зверь, она завоет,
То заплачет, как дитя.

[Outro]

Выпьем, добрая подружка
Бедной юности моей,
Выпьем с горя: где же кружка?
Сердцу будет веселей.

[End]

Запускаем генерацию

Получаем: Зимний вечер (1) и Зимний вечер (2).

Можно считать это допустимым, учитывая отсутствие подготовки текста, отсутствия разметки ударений, стилей, жанров и указания инструментов.

Немного о том, что делает нейросеть с предложенным ей текстом.

  • Язык

    Определяются русский, немецкий, испанский, французский, а также арабский, хинди, иврит, китайский, тайский и другие языки. В тексте можно использовать несколько языков. Не стоит создавать для нейросети экзамен и смешивать в одной строке 3-4 языка (даже профессионал не справится). При возникновении трудностей с «переключением» можно применять специальные теги [Русский Язык], [Английский (Великобритания)], [Французский Язык] и т. д., но без гарантии.
  • Контент

    Анализируя текст, Suno определяет стиль, темп исполнения и характер музыки, а также разрабатывает обложку для трека. В этом ему помогает структура текста с использованием тегов.
  • Структура

    Определение участков с необходимостью увеличения интенсивности, эмоциональной выразительности и силы звука, а также участков, требующих ослабления акцента.

Исполнители

В таблице представлены различные варианты исполнения вокала, распределенные по полу, возрасту исполнителя и эмоциональному контексту.

Акапелла (пение без аккомпанемента) [A Capella]
Вокализ (пение голосом без слов) [Vocalese]
Девочка [Girl]
Дерзкое пение [Gittery Vocals]
Диктор (объявления) [Announcer]
Женщина [Woman]
Женский вокал [Female Vocals]
Женщина-рассказчик [Female Narrator]
«Жутковатое» пение [Eerie Vocals]
Оперное пение [Operatic]
«Освежающее» пение [Breezy Vocals]
Реверберация [Reverb-Heavy Vocals]
Тревожное пение [Unsettling]
Мальчик [Boy]
Мужской вокал [Male Vocals]
Мужчина [Man]
Мужчина-рассказчик [Male Narrator]
«Неземной» («эфирный») вокал [Ethereal Vocals]
Соблазнительное пение [Seductive Vocals]
Страстное пение [Sultry Vocals]
Хор [Choir]
Хорал [Chorale]
Церковное пение Григорианский хор — это канон латинской литургии.

Сuno относит данные теги к разным категориям важности. При смене исполнителя, указание пола часто игнорируется, а если и выполняется, то наоборот: [Female Vocals] — поет мужчина, [Male Vocals] — женщина (если в тексте оба эти тега; если же один, Suno ему скорее всего последует). Это происходит даже когда род слова без тэгов подразумевает пол вокалиста. Например «я ходил, и я ходила, // я так ждал, и я ждала, // я был зол, и я сердилась // я ушел, и я ушла». Получается, мужчина поет: «и я ходила», а женщина — «я так ждал». Кажется, нейросеть демонстрирует упрямое поведение без логического обоснования. Повторяя генерации, можно добиться успеха, но количество повторов непредсказуемо: может быть пять (10 композиций), а может и пятьдесят (100 композиций). Обычно после двадцати генераций стоит отложить работу и вернуться к ней позже, потому что непрерывные повторы вызывают раздражение как у человека, так и у Suno; нейросеть начинает «глючить», собирая строки из разных строф бессмысленно и выдавая чушь.

Тэги с эмоциональной окраской усваиваются лучше, но могут быть отклонены или приняты непредсказуемо.

Специальные звуки

Этот список не самый полезный, так как применяемые в нём теги зачастую остаются незамеченными.

Аплодисменты [Applause]
Вздохи [Sighs]
Визг [Squawking]
Гавканье собаки [Barking]
Дождь [Rainfall]
Драка [Fighting]
Звонок [Bell Dings] — колокольчик
[Ring] — звонок без уточнения характера
[Phone Ringing] — телефон
Индустриальные шумы [Industrial]
Кашель исполнителя [Cough]
Крики [Screams]
Пип (цензура) [Bleep]
Подцензурный контент [Censored]
Посмеивание (исполнителя) [Chuckles]
Приветствия аудитории [cheering] — приветственный шум
[cheers and applause] — приветствия и аплодисменты
Свист как элемент композиции [Whistling]
Стоны [Groaning]
Тишина (пауза) [Silence]
Хихиканье [Giggling]
Хлопанье в ладоши [Clapping]
Шепот [Whispers]
Щебет птиц [Birds Chirping]
Эхо [Echoes]

Наибольшей популярностью пользуются свист и эхо.

Стили и жанры

Число доступных стилей велико, и перечисление их лишь создаст путаницу, что особенно актуально на первых этапах освоения базовых функций нейросети. Aicando.xyzИзучение стилей/жанров и эксперименты с ними при создании контента помогут разобраться в возможностях. Нужно учитывать, что трек с тегом [Rock, Progressive, Atmospheric] может существенно отличаться от следующего и последующих; вариабельность отдельных треков в рамках выбранного стиля и жанра велика. Это осложняет составление промта, поскольку можно ожидать чего угодно.

Примечание: комбинации стилей

Разнообразие стилей можно увеличить с помощью разнообразных комбинаций.
Дополнительно к ним можно указать характер звучания, окраску, эмоциональность и прочее. Вот список определений для уточнения стиля, жанра, вокала, настроения.

Акустический [Acoustic]
Альтернативный [Alternate]
Атмосферный [Atmospheric]
Баллада [Ballad]
Барокко [Baroque]
Душевный [Soulful]
Меланхолический [Melancholic]
«Неземной» [Ethereal]
Оптимистичный [Upbeat]
Оркестровый (исполнение оркестром) [Orchestral]
«Прохладный» [Chill]
Психоделический [Psychedelic]
Радостная [Joyful]
Танцевальная электронная музыка [Dance & Electronic]
[EDM] — Electronic Dance Music
Театральный [Theatrical]
Экспериментальный [Experimental]
Эмбиентный [Ambient]

Финальная комбинация слияния может быть представлена следующим образом:

Альтернативный фанк блюз рок, экспериментальный, атмосферный, эмбиент, эфирный, оперный, театральный.

Инструменты

Множество тегов описывают инструменты; предсказать, на какие Suno отреагирует, а на какие нет, весьма затруднительно. Приведу лишь те теги, которые испытал лично.

Аккордеон [Accordion]
Арфа [Harp]
Бас-гитара [Bass], [Bass Guitar] — классическая
Валторна [French Horn]
Виолончель [Cello]
Гитара [Guitar] — без уточнения вида
[Hawaian Guitar] — гавайская
[Spanish] — испанская
[Wah Wah] — «вау-вау» (эффект)
Гобой [Oboe]
Губная гармошка [Harmonica]
Дудук [Duduk]
Духовые инструменты [Brass]
Клавесин [Harpsichord]
Кларнет [Clarinet] — традиционный
[Duduk] — армянский («абрикосовый»)
Концертина [Concertina]
Контрабас [Upright Bass] — классический «вертикальный бас»
Литавры [Timpani]
Лютня [Lute]
Мандолина [Mandoline]
Орган Орган церкви — инструмент с особенной акустикой, характерной для храмов.
[Electric Organ] — электроорган
[Organ] — без уточнения вида
[Pipe Organ] — классический
Оркестр Оркестр — без указания типа; Большой банд — большая джазовая (эстрадная) группа.
[Brass Band] — духовой
[Symphonic Orchestra] — симфонический
Перкуссия [Percussion] — собирательное название
Саксофон [Saxophone] — без уточнения
[Alto Saxophone] — альт
[Bariton Saxophone] — баритон
[Bass Saxophone] — бас
[Contrabass Saxophone] — контрабас
[Tenor Saxophone] — тенор
Синтезатор [Synth]
Скрипка [Violin]
Струнные [Strings] — без уточнения
Труба [Trumpet]
Туба [Tuba]
Фагот [Bassoon]
Флейта [Flute] — традиционная поперечная
[Bamboo Flute] — бамбуковая
[Ney] — персидская (арабская, турецкая)
[Ocarina] — окарина («картофельная»)
[Pan Flute] — многоствольная (флейта Пана)
[Piccolo] — пикколо

Деревянный свирель.
Фортепиано [Electric Piano] — электропиано
[Piano] — фортепиано (рояль)
Челеста [Celesta]

Стихосложение

В данной статье рассматривается то, что нейросетям до сих пор не удается (точнее, хуже всего удаётся) — генерация слов для песен на русском языке.

Генерация на русском

Проиллюстрируем на примере запроса: «Песня о длительном, угнетающем дожде в Кронштадте».

По умолчанию Suno использует самую новую модель генерации, которая называется ReMi. В результате получается следующее.

Вариант 1.
Кронштадтский унылый и долгий дождь

[Verse 1]
Кронштадтский унылый и долгий дождь
Уж третий день без перерыва
Ты одним сомневающимся словом стерла
Едва высвечивавшуюся перспективу

[Verse 2]
Кронштадтский унылый и долгий дождь
Спасибо вам за тяжелый траффик

У моей бывшей жены появился сын.

Но получила ли она
Что хотела

[Chorus]
Объясни мне честно
Ты действительно меня не любит?
Ты действительно меня не любит?
Объясни мне честно
Ты действительно меня не любит?
Ты действительно меня не любит?

[Verse 3]
Кронштадтский унылый и долгий дождь
Ленивые коллеги
Расползающиеся как тараканы
Не впечатлило даже чувство срочности
Запоминающиеся воспоминания о том
Что я бы там ни делал

[Verse 4]
Кронштадтский унылый и долгий дождь
Английская профсоюзная конференция
Жду тепла не от русских послов

[Chorus]
Объясни мне честно
Ты действительно меня не любит?
Ты действительно меня не любит?
Объясни мне честно
Ты действительно меня не любит?
Ты действительно меня не любит?

Вариант 2.
Долгий тоскующий дождь в Кронштадте

[Verse]
Шёл долгий заставляющий дождь опять
В Кронштадте
И поняла в Кронштадте
Дождь отлива
Шёл долгий дождь
В Кронштадте
Опять
Дождь отлива

[Verse]
И ни один
Из наших друзей
Не верят мне
Вы знаете ливень?
И шёл долгий
Долгий
Дождь в Кронштадте
Опять

[Verse]
Ты прошла
Долгим дождём
И шёл дождь
В Кронштадте
Кто знал

[Bridge]
Шёл долгий
Долгий дождь
Forsake him
Шёл долгий
Долгий дождь
В Кронштадте

[Chorus]
И шёл долгий
Долгий дождь
Its an escape to yourself
It’s a long
Long rain
In Kronstadt
It’s an escape

[Chorus]
Долгий
Долгий дождь
Постоянно ливень
Шёл долгий
Долгий дождь
В Кронштадте

Полное безобразие, усугубленное языковой мешаниной. Провал.

В честь Ильи Калинникова, лидера группы «Високосный год», изменим запрос на «лучшая песня о любви». Вот результаты работы Suno.

Ответы нейросети.

Вариант 1

[Куплет 1]
Чайник свищет на вокзале
Объявляют уходящий поезд
В этот день с тобой прощались мы
И ты в вагон шагнула свой

[Переход]
И вслед
Смотря
Я мечтал
Как по ветру в даль неслись мои слова

[Припев]

Песня доносилась мне вслед.

Лучшая из всех
Что ты слышала
Песня про любовь

[Куплет 2]
Я спешил опять увидеть
Ваши нежные глаза
Ты встречала при дороге
Мне шепча едва слова
Как волна

[Переход]
Бросая в них свои слова
Я чувствовал
Что плачу после долгой высоты

[Припев]
О тебе моя песня
Так похож ты на неё
Лучше всех
Что слышали
Песен про любовь

Вариант 2

[Вступление]
Это лучшая песня
Послушай сейчас
Это лучшая песня
Это для вас

[Куплет]
Кевин сидит в песочнице
Продавил задом весь песок
Забирает девчонок из казино
На серебристой электро-бугатти

[Припев]
Это лучшая песня о любви
Это лучшая песня о любви
Лучше я не могу придумать
Это лучшая песня
Это для вас

[Куплет 2]
А если всё это правда
Если вся атмосфера реальная

Каждый желает жить благополучно.

Надо просто верить в любовь

[Припев]
Это лучшая песня о любви
Это лучшая песня о любви
Лучше я не могу придумать
Это лучшая песня
Это для вас

[Переход]
Ля-ля-ля-ля

Что-то совсем неподобающее…

Еще раз попробуем, применив старую вторую генеративную модель (Classic). Запрос – как прежде: «Лучшая песня о любви». В результате получаем новые творения.

Вариант 1

[Verse]
Ты мое сердце в красках лови
Танцуй в лучах любви с тобой
Смело дышу спокойствием сильным
Ты мой один
Мой непокорный герой

[Verse 2]
Слова как звезды в ночи для нас
Вдвоем летим на крыльях мечты
Я тобою дышу
Просто рядом будь
Мой мир теперь в твоей орбите

[Chorus]
Ты луч
Что дарит свет мой
Знаю это не сон любви
С тобой мир становится простым
В ритме бьются два сердца

[Bridge]
Дождь смывает печаль из глаз
Тепло держи
Не отпусти
Пусть ветер вместе нас несет
В сказку наших дней пустив

[Verse 3]
Смело в сердце тревогу возьму
Уверен в силах вечной любви
Мир за окном спит
Но не уснет
Страсть рисует мгновение нас

[Chorus]
Ты луч
Что дарит свет мой
Знаю это не сон любви
С тобой мир становится простым
В ритме бьются два сердца

Вариант 2

[Verse]
Взгляд твой словно солнечный луч
Ты мой день превращаешь в светлый
Каждый миг с тобой как сладкий пломбир
Ты моя весна в лучах рассвета

[Verse 2]
Твоя улыбка мир мой красит
Наши мечты цветом небес
Ты моя вера в чудеса
Ты мой отдых среди всех бед

[Chorus]
Лучшая песня о любви
Это мы с тобой вдвоем
Наши сердца в одном ритме
Мы танцуем под звездным дождем

[Verse 3]
Каждое слово словно песня
Что поет лишь для нас двоих
Ты моя нежность и воскресенье

Самый мягкий свет моих слов.

[Verse 4]
Обними меня
Не отпускай
Мы как два крыла способны летать

В этом мире вековых историй.

Ты моя правда и мой рай

[Chorus]
Лучшая песня о любви
Это мы с тобой вдвоем
Наши сердца в одном ритме
Мы танцуем под звездным дождем

Ещё раз неудача. Рассмотрим обращение к более узкоспециализированным ИИ-генераторам, например AI Song Lyrics Generator в рамках yeschat.ai. В ответ на запрос «Напиши стихи для лучшей песни о любви» получаем такой результат:

Куплет 1
Ты — свет, что греет ночью в холод,

Ты — воздух, что я не могу не вдохнуть.

В гуле дней, среди тысяч голосов.

Я нашёл тебя — и уже не вернуть.

Припев
Ты моё сердце, ты мой сон,
С тобой весь мир — как сладкий фон.
Не нужно больше звёзд и луны,
Всё, что мне нужно — это ты.

Куплет 2
Твои глаза, как бескрайний океан,
В них отражается наш вечный роман.
В каждой улыбке — тысячи чудес,
Ты мой мир, мой смысл, мой небесный лес.

Бридж

Пусть минуты уносятся, подобно языкам огня.

Я обещаю быть рядом в ночи.
Ничего нет сильнее, чем наша любовь,
Ты — моя душа, я — твоя кровь.

Припев
Ты моё сердце, ты мой сон,
С тобой весь мир — как сладкий фон.
Не нужно больше звёзд и луны,
Всё, что мне нужно — это ты.

Финал
В каждом дыхании, в каждом дне
Ты — моя песня, звучишь во мне.
Любовь к тебе — мой вечный крик,
Ты — мой огонь, мой вечный миг.

Галиматья, да и всё. Узнаем у искусственного интеллекта, почему его стихи получаются плохими. В ответ получим следующее.

Искусственный интеллект пишет плохие стихи из-за отсутствия личных переживаний и эмоций, которые служат основой для настоящей поэзии.
Программы могут лишь имитировать чувства, а не испытывать их на себе, что делает строки бездушными и поверхностными.
Помимо этого, AI часто полагается на шаблоны и статистику, в то время как поэзия требует интуиции, игры слов и неожиданных образов, которые сложно запрограммировать. Искусственный интеллект пока не способен воспроизвести ту искру творческого безумия, которая делает стихи человечными — способными ранить, вдохновлять или трогать до слёз.

ChatGPT

Автор, далекий от разработки нейросетей, считает ответ неуместным. Он слишком погружен в абстрактные понятия. В стихах, созданных ИИ, бросается в глаза бессмысленное соединение слов, которое часто основывается лишь на формальных признаках или вообще не имеет смысловой связи. Часто отсутствуют согласования по падежам, родам, числам и так далее. Во многих случаях нет элементарной логики построения предложений.

Генерация на английском

Генерация текстов на английском языке дает более качественный результат для лирики, и несмотря на заметный «привкус простонародности», эти слова можно использовать. Ведь английский нам не родной, мы не стремимся стать Шекспиром. Чтобы оценить качество, нужно вслушиваться в искаженное пением произношение, как это делают на концертах. В этом случае сойдет.

Мы поручили Suno написать песню. Я дал инструкции только о стиле: «нео-соул джаз, умеренный темп, соул джаз, джазовая гармония, современное звучание, джаз, душевный вокал, душевная композиция». Пример текста взят где-то из интернета и поэтому содержит повторы, лишенных смысла.

Нью-соул джаз, умеренное темпo, соул-джаз, гармонии джаза, современная продукция, джаз, душевная вокальная партия.

Результат — «Мечтанья под луной», или Moonlit Reverie (вариант 1), (вариант 2).

[Verse]
Under the glow of the moonlight’s embrace,
We danced through the night, finding our pace,
Soft whispers of secrets, tender and true,
In this world of dreams, just me and you.

[Verse 2]
A melody lingers, sweet in the air,

Полотенца скользят по поверхности, нежно и с легкостью.

Heartbeats in rhythm, a soulful decree,
In this moonlit reverie, it’s just you and me.

[Chorus]
Oh, in the still of the night, our love we find,
Two kindred spirits, perfectly aligned,

В ритме музыки время растворяется.

In this enchanted moonlit sway.

[Verse 3]
We’ve painted our canvas in shades of grace,
Each brushstroke a memory, love we embrace,
Gentle notes echo, from heart to heart,
In this moonlit serenade, we’re never apart.

[Bridge]
Beneath the stars, our souls interlace,
Every moment, a tender embrace,
Through songs of love and whispers so fine,
In the moon’s glow, our hearts combine.

[Chorus]
Oh, in the still of the night, our love we find,
Two kindred spirits, perfectly aligned,

Под музыку тело дёргается, время растворяется.

In this enchanted moonlit sway.

Я отметил фразы, которые кажутся неудачными, и часто повторяющиеся слова генератора: «обнимать», «шептать», «секреты», «сны», «тени», «задерживаться», «биение сердца», «дух». С повторами всё не очень гладко; по идее их нужно убирать и возможно переписывать строки. Но мы этого не сделаем — так будет достаточно.

Песня в духе ду-вопа, рассказывающая о счастливой большой семье, проводящей время у океана.

Песенка о большой семье, отдыхающей на берегу моря, с элементами ду-вопа, радостным и театральным настроением.

Результат — «Семейство у моря», или Family by the Sea (вариант 1), (вариант 2).

[Verse]
We’re laughing in the sun light bright
Kids are digging castles high
Waves are crashing left and right
Fish are jumping saying hi

[Verse 2]
Auntie’s got her grill ablaze
Uncle’s dancing in his shades
Grandma’s knitting in the shade

Любовь семьи никогда не угаснет.

[Chorus]
We got one big wavy family
Splashing joy down by the sea
Melodies in harmony
Living wild and fancy free

[Verse 3]
Brother’s building bonfire tall
Sister’s throwing beachball high
Cousins running chase-and-call
Underneath the azure sky

[Bridge]
Dad’s guitar is strumming tunes
Mom’s voice floating to the moon
Here the world is all in tune

С нашими сердцами, которые тоскуют и поют.

[Verse 4]
Evening glow on water’s edge
Family saga never ends
Sandy toes and laughter blend
In waves of love we all depend

Здесь слова ещё проще. Хотя жанр оправдывает этот уровень, всё же немного неудобно читать такое. Впрочем, мы не будем тратиться на переписывание.

Если относиться к делу серьёзно, то лучше сочинять стихи самостоятельно, а при необходимости опираться на классику, которой много и на других языках.

Авторские стихи

Когда сочиняешь стихи самостоятельно, то можешь не только продемонстрировать оригинальное содержание, но и определённой степени управлять построением композиции, ведь выбираешь размер, ритм, рифмы, аллитерации, метафоры и тому подобное. Написал я такую «песенку-дебилку», не претендующую даже на средний школьный уровень, но она хорошо показывает возможности управления процессом создания композиции.

Шутовство

[Instrumental Intro]

[Verse 1]
Пока в быту аднообразном
еще не вышел жизни счёт,
а в ажидании напрасном
бывает нечет или чёт,

[Pre-Chorus 1]
пока тебе никто не верит,
попробуй верить сам себе;
уговоРИ себя: теперь я
поупражняюсь в ворожбе.

[Chorus 1]
Набивай дипломат,
собирай плагиат —
ненаучный формат,
удальстВО.
Каждый миг покори,
каждый час одари,
каждый день преврати
в волшебстВО

[Post-Chorus 1]
волшебство
оооооооооо
колдовство
оооооооооо
ведовство

[Melodic Interlude]

[Verse 2]
Пока попоны — не препоны,
покуда вдоль — не поперёк,
пока работают нейроны,
и с ними варит котелок

[Pre-Chorus 2]
познай события и числа,
освободи напор и прыть,
тогда ни силами, а смыслом
любого сможешь удивить.

[Chorus 2]
Компромат нарасхват:
гос- и партаппарАт,
экспонат-демократ,
существо;
каждый миг покори,
каждый час одари,
каждый день преврати
в шутовство.

[Post-Chorus]
баловствО
оооооооооо
хвастовство
оооооооооо
естество

[End]

П/ж вы-де-лë-ны из-ме-нен-nye для а-дэ-к-ва-т-нóгo про-ни́шё-ния бе-ду́ш-ар-ные глас-ные, при-ну-ди-тель-но по-став-лен-ные «ё», вы-де-лён-ные удар-ные глас-ны-е и у-дар-ны-е с-ло-ги.

Мы достигли главной задачи оформления структуры текста с целью устранения нежелательных ошибок. Правда, как я ранее говорил, модель 4.0 лучше разбирается в специфике языков, отличных от английского, чем предыдущая версия 3.5, но у нее все же иногда случаются сбои — и у естественной живой женщины бывают промахи, что уж говорить об искусственном интеллекте!

В тех местах, где должна стоять буква «ё», её следует писать именно такой, а не «е». По мнению редактора, «буква Карамзина» ставится лишь тогда, когда по смыслу текста непонятно, какой звук подразумевается: «все узнали» или «всё узнали». А для Suno никакой ясности нет: даже если в слове «все» нужен звук «е», а не «ё», нейросеть с назойливостью пишет «ё». Например, «березняк» превращается в «берёзняк», потому что берёза и всё тут.

Чтобы правильно поставить ударение, существуют три метода.

  1. Сделать букву прописной (аппарАт),
  2. Выделить прописными весь ударный слог (аппАрт). РАТ)
  3. Перед ударным слогом поставьте апостроф (апп). рат)

Ни один из предложенных вариантов не обеспечивает полной защиты от ошибок, их нельзя применять одновременно, даже два. Кроме того, действующий алгоритм Suno обязывает петь «далеко́», а не «далёко», «высоко́», а не «высо́ко», независимо от соответствия этих норм размеру или рифме.

Возвращаясь к созданию музыкальных дорожек, я усовершенствовал процесс, исключив несостоявшиеся варианты. Для сравнения представлено семь различных композиций, отличающихся стилями и жанрами.

  1. Психоделический фанк:
    Психеделический фанк, грув-ориентированные бас-линии, гитары с эффектом «вау-вау», триппи эффекты и энергичные секции духовых инструментов.
  2. Гиперпоп:
    Гиперпоп, быстрый темп, преувеличенные синтезаторы, обработанные вокальные партии и максималистское звучание.
  3. Ду-воп:
    Doo Wop, joyful
  4. Мат-рок, джей-поп:
    Математический рок, японский поп, мутирующий фанк, отскок дропа, дабстеп, EDM, 160 ударов в минуту.
  5. Свинг-метал:
    Металл с ритмами свинга, быстрый темп, металлическая инструментовка и энергичное слияние.
  6. Эмбиент фанк:
    Мелодичный, гармоничный эмбиент-фанк, атмосферный, эфирный, оперный, театральный.
  7. Эмбиент метал:
    Мелодичный гармоничный эмбиент эфирный металл, орган, искажённые гитары, оперный, театральный

Порой мне нужно писать стихи на английском языке. Надо сказать, я пока не сильно оторвался от Suno в этом жанре, но всё равно верю, что мои попытки чуть получше, чем у нейросети. Приведу пример.

«Словно потерявшийся ребенок» — Like a Lost Child

[Instrumental Intro]

[Verse 1]
Walking down beneath the Moon,
I forget the route and clue.
In the air, I hear a tune,
Playing music old for new.

[Pre-Chorus 1]
Every corner calls my name,
Shadows play a nasty game.

[Chorus]
Oh, my heart, it’s losing ground,
In the dark, no solace found.
Heavy mind, it’s runnin’ wild,
In my soul, I’m a lost child.

[Melodic Interlude]

[Verse 2]
Every corner calls my name,
Shadows play a nasty game.
Lonely heart makes me insane,
Thoughts are damaging the brain.

[Pre-Chorus 2]
Every breath takes me away,
Every shadow tries to play.

[Chorus]
Oh, my heart, it’s losing ground,
In the dark, no solace found.
Heavy mind, it’s runnin’ wild,
In my soul, I’m a lost child.

[Bridge]
Maybe I’m just lost tonight,
Or maybe I’m just outta sight.
Moonlight fades and so do dreams,
Chasin’ nothings in the streams.

[End]

Семь композиций с разнообразными стилями и жанрами.

  1. Блюз западного побережья:
    Очаровательный блюз западного побережья, чувственный вокал женщины, оперный, театральный.
  2. Блюз-фанк:
    Альтернативный блюз-фанк Запада США, экспериментальный, контрабас, хор, оперный, театральный
  3. Блюз:
    Медленный блюз, контрабас, хор, томные женские вокалы, оперное исполнение, театральная атмосфера.
  4. Космический джаз:
    Космический джаз, умеренный темп, импровизации на космические темы, электронные элементы и обширные звуковые ландшафты.
  5. Дес-метал:
    Эфирно-атмосферный металл с элементами деатри и эксперимента, умеренный темп.
  6. Арт-рок:
    Эthereal progressive atmospheric art rock, experimental music, умеренный темп.
  7. Классический джаз:
    Винтажный джазовый клуб с классическими стандартами, мелодичными соло на трубе, контрабасом и чувственными женскими вокальными партиями.

Заключение

В ходе знакомства с возможностями нейросети Suno, одной из самых популярных и развитых систем ИИ-генерации, выяснилось, что она умеет создавать как инструментальные, так и песенные треки.
Словосочетания (стихи) — слабое звено сети, вероятно, и других ИИ-систем. Тем не менее Suno при всех оговорках можно успешно использовать для личных нужд и даже в коммерческих целях, например, создавая треки на заказ. Достоинства сервиса явно перевешивают недостатки. Обзор будет продолжен. Во второй части подробно остановлюсь на проблемах генерации музыки с помощью Suno, способах их преодоления и приемах улучшения качества звука в композициях.