ChatGPT обновился: общение голосом, картинками и не только

14 Май 2024

Время чтения: 10 минут

Пока это не GPT-5, но обновление масштабное.

В основу ChatGPT от OpenAI теперь легла новая языковая модель GPT-4o. Буква «o» в конце названия означает omni (омниканальность), что подчеркивает универсальность модели. Она способна понимать речь и музыку (то есть, звуки), генерировать речь и музыку, а также изображения и текст.

Судя по тестам, GPT-4o по 4 из 6 параметров превосходит другие свои версии и конкурентов.

Но… есть и важное отставание GPT-4o от конкурентов. В новой модели может работать с контекстным окном до 128 тысяч токенов (это соответствует 300 страницам текста). То есть, по сравнению с GPT-4 Turbo его не увеличили (об этой версии языковой модели вы найдете информацию ниже). При этом у Claude 2.1 контекстное окно составляет уже 200 тысяч токенов, а у Gemini 1.5 – 1 миллион токенов.

Новая версия будет доступна всем бесплатно, но не спешите – пока мощностей и тестовых лимитов хватает лишь на платных пользователей системы: возможности GPT-4o «будут развертываться постепенно, начиная с сегодняшнего дня».

Дарья Капитонова, руководитель отдела маркетинга TexTerra, специалист по нейросетям:

«При выпуске новой версии ChatGPT с улучшенной моделью GPT-4o, в первые дни после релиза, высока вероятность того, что бесплатные пользователи не смогут получить к ней доступ. Это связано с ожидаемым повышенным спросом. При этом компания заранее предупредила, что при высокой нагрузке бесплатные пользователи будут автоматически переключены обратно на предыдущую версию GPT-3.5.

Поэтому, скорее всего, в первые дни и даже недели после выхода GPT-4o, доступ к новой модели получат, в основном, платные подписчики, которые не имеют подобных ограничений. Бесплатным пользователям придется либо запастись терпением, либо рассмотреть возможность оплаты подписки, чтобы опробовать улучшенные возможности ChatGPT как можно быстрее.

Такая практика весьма распространена при выпуске новых версий популярных продуктов. Компании стараются сначала удовлетворить запросы платных клиентов, а уже затем постепенно распространять новые функции на бесплатный сегмент по мере роста доступных мощностей».

Вот что получат все пользователи, когда новая версия GPT-4o станет доступна для всех:

Реакция на аудиовход –320 миллисекунд в среднем и 232 миллисекунды на пике, что сопоставимо с реакцией человека.
При голосовом общении происходит смена интонации.
Нейросеть запоминает все беседы с пользователем, и можно делать отсылки к разным моментам общения.
Поддержка 50 языков.
Способна синтезировать объектов в 3D.
Улучшенный анализ изображений, в том числе графиков, диаграмм, скриншотов.
Активно использует собственные «знания» и информацию из открытых источников (интернета).

«До GPT-4o общение с ChatGPT голосом проходило со средней задержкой в 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4). Причина заключается в том, что в этих двух моделях голосовой режим представляет собой конвейер из трех отдельных моделей: одна простая модель транскрибирует звук в текст, GPT-3.5 или GPT-4 принимает и выводит текст, а третья простая модель преобразует этот текст обратно в аудио. Из-за этого нейросеть теряет часть информации: она не может напрямую считывать тон беседы, понимать нескольких говорящих или распознавать фоновые шумы, — говорится в релизе OpenAI. – теперь все данные обрабатываются одной моделью».

Напомним, что предыдущая языковая модель OpenAI называлась GPT-4 Turbo и появилась она не так давно – в сентябре 2023 года.

Обновление ChatGPT в сентябре 2023

25 сентября OpenAI выложили в своем блоге статью, в которой рассказали об обновлении нейросетевого сервиса. В этом обновлении мы не видим улучшения самих нейросетевых алгоритмов, однако в нем есть кое-что не менее важное — первые шаги по переходу ChatGPT к мультимодальной модели.

Мультимодальные модели представляют собой алгоритмы, способные работать не только с текстом, но и картинками, видео и аудио. В статье про языковую модель GPT-4 мы писали, что согласно прогнозам, уже она должна стать мультимодальной. И вот прогнозы сбылись — обновление наделило нейросеть способностью синтеза и распознавания речи, а также анализа изображений.

Сообщалось, что голосовой ввод и генерация аудио доступны только пользователям мобильных версий ChatGPT для iOS и Android, а вот работа с картинками появилась на всех платформах.

Как воспользоваться этими функциями

В мобильном приложении нейросети доступен голосовой ввод, но этим никого не удивишь. Синтез речи включить не так просто. Для этого зайдите в мобильное приложение, перейдите в Settings, а затем нажмите New Features и выберите Voice conversations. Затем нажмите кнопку наушников, расположенную в правом верхнем углу главного экрана, и выберите один из пяти голосов, которым будет говорить нейросеть.

Чтобы воспользоваться функцией работы с изображениями, по словам OpenAI, нужно нажать значок с фотографией слева от панели ввода запроса. В мобильном приложении перед этим нужно будет нажать значок «+».

Заметка дополняется...