По электрической активности тех или иных частей мозга можно примерно понять, о чем думает человек. Но если человек представляет себе какой-то визуальный образ, перенести электрические сигналы его мозга на бумагу очень сложно. Однако японские ученые нашли способ сделать это — они использовали интерпретацию сигналов мозга испытуемых как промт для нейросети Stable Diffusion.
Визуализация мыслей при помощи нейросетей
Прогресс в области нейросетей идет настолько быстро, что мы буквально не успеваем осознать те возможности, которые они открывают. Stable Diffusion и MidJourney уже позволяют генерировать очень качественные изображения при правильном запросе. Но даже расплывчатый промт позволяет создавать вполне понятные и релевантные изображения.
Этой способностью нейросетей и воспользовались японские исследователи из Университета Осаки, которые при помощи данных функциональной магнитно-резонансной томографии (фМРТ) смогли сгенерировать примерные изображения того, о чем думал человек.
Для этого ученые помещали добровольцев в аппараты фМРТ и показывали им различные изображения. фМРТ-изображения исследователи затем прогоняли через алгоритм, который примерно описывал словами то, о чем думал испытуемый.
Эти слова затем в качестве промта (запроса для нейросети) отправляли в Stable Diffusion для генерации изображения. На картинке ниже вы можете увидеть результаты эксперимента: в верхнем ряду находятся изображения, которые показывали испытуемым, а в нижнем — то, что сгенерировала Stable Diffusion на основе подсказок из данных МРТ.
Проблемы исследования
Пока статья ученых ждет публикации в научном журнале, у других ученых уже возникли к ней вопросы. Самым сомнительным моментом эксперты считают текстовое декодирование снимков фМРТ. По их словам, такой дополнительный шаг не позволяет считать конечное изображение, созданное Stable Diffusion, подлинной визуализацией человеческих мыслей.
Дело в том, что точность перевода данных МРТ в текст пока что не очень высокая, как и соответствие изображений нейросети исходным запросам. Ошибки при распознавании и генерации накладываются друг на друга, и на выходе мы можем получить ошибочный результат. Решением этой проблемы мог бы стать другой подход, который позволил бы миновать перевод МРТ-снимков в текст. Например, можно было бы обучить нейросеть создавать изображения на основе картины МРТ, минуя ее перевод в текстовый запрос.
Пока что, конечно, такая технология кажется излишней, ведь нейросети и так прекрасно справляются с генерацией изображений по правильным промтам. Особенно, если вы освоили модную профессию промт-инженера.
Читайте также:
Нейросети увольняют дизайнеров (ну, почти): пример Tiffany и Nike
Китайская нейросеть делает из вас персонажа аниме. Бесплатно
Как составлять запросы к нейросетям: примеры, настройки, параметры