Протестировали нейросеть Point-E, которая создает 3D-модели по текстовому описанию

23 Декабрь 2022

Время чтения: 6 минут

Очередная нейросеть от OpenAI оказалась не такой точной, как прошлые разработки.

Мы уже тестировали две нейросети от OpenAI — ChatGPT и DALLE-2. Обе они оправдали наши ожидания и в целом очень понравились. Но нейросеть Point-E, о которой пойдет речь в этой статье, отнюдь не вызвала тех же ощущений.

Так что дизайнерам – отставить панику: замена нейросетями вам пока не грозит. Заказчикам – не ждать, пока нейросети научатся работать так же хорошо, как живые специалисты, а заказать дизайн у них прямо сейчас.

Нейросеть для создания 3D-объектов

Было лишь вопросом времени, когда нейросети начнут создавать не только двумерные изображения, но и 3D-модели. OpenAI смогла реализовать такую нейросеть — ее назвали Point-E.

Алгоритм состоит из двух основных частей: первая создает двумерное изображение по текстовому запросу пользователя, а вторая — преобразует полученную картинку в трёхмерную форму. На выходе нейросеть выдает набор точек разного цвета, описывающий полученное изображение.

Но если взглянуть на типичные изображения нейросетей, возникает недоумение: каким образом алгоритм должен понимать, где тут какой и объект, и как он должен выглядеть в 3D, если даже человек иногда не понимает, что же такое получилось на рисунке?

Согласны, проблема воссоздания объемных объектов из двумерного изображения очень сложна, и для ее решения в приемлемом виде потребуются еще годы работы. OpenAI заявляет, что сделала первый шаг на этом пути, обучив Point-E на миллионах объектах. По словам организации, сгенерированные нейросетью модели даже были напечатаны при помощи 3D-принтера.

Теперь OpenAI открыли исходный код Point-E всем желающим — каждый кодер может заглянуть в него, изменить набор данных для обучения или вовсе поменять работу нейросети так, как считает нужным.

Мы решили протестировать нейросеть для создания 3D-изображений и выяснили, насколько хорошо она справляется с поставленными задачами.

Тест нейросети Point-E

Чтобы воспользоваться нейросетью, вы можете зайти на ее страничку на сайте Hugging Face. Здесь справа перед вами сразу будет строка запроса, а слева — окно вывода.

Для начала мы ввели несколько запросов, которые обычно легко рисует обычная нейросеть, такие как «синий цыпленок» (a blue chicken) или «толстая кошка» (fat cat). Можно сказать, что алгоритм справился с ними на троечку — крылья цыпленка оказались похожими на реальное животное, но вот отличить перед от зада не представилось возможным.

С кошкой получилось чуть лучше, но при изменении ракурса то, что раньше казалось ухом, станет огромным носом:

Внизу страницы у нейросети есть подсказки — и с генерацией этих объектов она справляется хорошо. Вот, например, результат запроса «красная тыква»:

Красный мотоцикл и красную машину нейросеть тоже сгенерировала неплохо:

В общем и целом, эта нейросеть лучше всего создает вещи, чем животных. Неудивительно, ведь обучали ее по большей части именно на неодушевленных объектах с целью применения алгоритма в 3D-печати.

Надеемся, что в будущем нейросеть сможет генерировать и котиков — как иначе сделать трехмерную статую питомца?