Появилась нейросеть, которая делает крутую надпись на картинке

28 Август 2023

Время чтения: 7 минут

Самой популярной MidJourney о такой функции мечтать и мечтать.

Мы уже много рассказывали про нейросети, в том числе для генерации изображений. Одна из больших их проблем – невозможность генерировать нормальный текст на картинке: получается либо абракадабра, либо вообще нечитаемые символы. Но бывшие сотрудники Google смогли исправить этот недостаток — они запустили сервис Ideogram, в котором любые надписи по вашему желанию генерируются с невероятной точностью.

Почему у нейросетей плохо выходят надписи

За последние полтора года (примерно тогда в свет вышла первая версия MidJourney) нейросети для генерации изображений прошли огромный путь улучшений и стали создавать качественные работы. Тем не менее, все еще встречаются «изъяны» — неправильное количество пальцев на руках (или ногах), косые лица, неразборчивые надписи.

Все эти дефекты работ нейросети, на самом деле, обусловлены одной и той же проблемой: процессом обучения модели. Дело в том, что, обучая нейросеть, специалисты дают ей определенные изображения и созданный человеком текст, который описывает то, что на этом изображении находится. Обучаясь, нейросеть обычно анализирует изображение в целом — очень редко специалисты описывают отдельные части картины, так как это очень трудозатратно и сложно.

В итоге, даже если в обучающей выборке есть достаточно изображений с правильным числом пальцев на руках или красивыми и понятными надписями, нейросеть просто не понимает, какая конкретная деталь на изображении — надпись, а какая — палец. Поэтому, когда в запросе алгоритм видит фразу, например, «табличка с текстом I love you», он может выдать что-то вроде «IIu lvooo Youuu».

В обучающей выборке алгоритма могли быть изображения с такими надписями, но никто не говорил ему, что единственно правильный вариант написания этой фразы именно «I love you», поэтому нейросеть просто смешивает все буквы, как смешивает моделей в Баленсиага и фото Папы Римского.

Нейросеть, создающая надписи

Но вот у программистов Ideogram получилось обучить нейросеть так, чтобы надписи на сгенерированных ею изображениях были корректными. Представители стартапа, генеральный директор которого Мохаммад Норузи был старшим научным сотрудником Google, не раскрывают секретов того, как им удалось обучить свою модель.

Сейчас каждый может опробовать новую нейросеть и насладиться результатами ее работы. Достаточно зайти на сайт ideogram.ai/ и пройти регистрацию при помощи аккаунта Google. После этого вы попадаете на главную страницу, где будут высвечиваться ваши работы и лента с изображениями, созданными другими пользователями:

Вводите свой запрос в окне и получаете на выходе четыре варианта изображения. Лучше всего пока справляется с английским языком — с русским совсем плохо, хотя интент запроса алгоритм понимает. Вот несколько примеров того, на что способна Ideogram:

Смотреть галерею

Как вводить запрос в Ideogram

В целом, правила формулирования промта (запроса) для Ideogram точно такие же, как и для Stable Diffusion и MidJourney — о них мы рассказывали в отдельной статье. Но так как тут мы имеем дело с надписями, стоит отметить еще одну важную вещь: при вводе запроса текст надписи, которую вы хотите увидеть на картинке, лучше всего вводить внутри кавычек — так нейросеть лучше поймет, какой текст должен быть на рисунке.