Главная Блог Texterra ChatGPT обновился: общение голосом, картинками и не только

ChatGPT обновился: общение голосом, картинками и не только

Пока это не GPT-5, но обновление масштабное.

Новости Контент Нейросети

Никита Шевцев

Дата публикации: 26 сен 2023

Дата обновления: 14 мая 2024

5 минут

6 582

Оглавление

В основу ChatGPT от OpenAI теперь легла новая языковая модель GPT-4o. Буква «o» в конце названия означает omni (омниканальность), что подчеркивает универсальность модели. Она способна понимать речь и музыку (то есть, звуки), генерировать речь и музыку, а также изображения и текст.

Судя по тестам, GPT-4o по 4 из 6 параметров превосходит другие свои версии и конкурентов.

Но… есть и важное отставание GPT-4o от конкурентов. В новой модели может работать с контекстным окном до 128 тысяч токенов (это соответствует 300 страницам текста). То есть, по сравнению с GPT-4 Turbo его не увеличили (об этой версии языковой модели вы найдете информацию ниже). При этом у Claude 2.1 контекстное окно составляет уже 200 тысяч токенов, а у Gemini 1.5 – 1 миллион токенов.

Новая версия будет доступна всем бесплатно, но не спешите – пока мощностей и тестовых лимитов хватает лишь на платных пользователей системы: возможности GPT-4o «будут развертываться постепенно, начиная с сегодняшнего дня».

Дарья Капитонова, руководитель отдела маркетинга TexTerra, специалист по нейросетям:

«При выпуске новой версии ChatGPT с улучшенной моделью GPT-4o, в первые дни после релиза, высока вероятность того, что бесплатные пользователи не смогут получить к ней доступ. Это связано с ожидаемым повышенным спросом. При этом компания заранее предупредила, что при высокой нагрузке бесплатные пользователи будут автоматически переключены обратно на предыдущую версию GPT-3.5.

Поэтому, скорее всего, в первые дни и даже недели после выхода GPT-4o, доступ к новой модели получат, в основном, платные подписчики, которые не имеют подобных ограничений. Бесплатным пользователям придется либо запастись терпением, либо рассмотреть возможность оплаты подписки, чтобы опробовать улучшенные возможности ChatGPT как можно быстрее.

Такая практика весьма распространена при выпуске новых версий популярных продуктов. Компании стараются сначала удовлетворить запросы платных клиентов, а уже затем постепенно распространять новые функции на бесплатный сегмент по мере роста доступных мощностей».

Вот что получат все пользователи, когда новая версия GPT-4o станет доступна для всех:

Реакция на аудиовход –320 миллисекунд в среднем и 232 миллисекунды на пике, что сопоставимо с реакцией человека.
При голосовом общении происходит смена интонации.
Нейросеть запоминает все беседы с пользователем, и можно делать отсылки к разным моментам общения.
Поддержка 50 языков.
Способна синтезировать объектов в 3D.
Улучшенный анализ изображений, в том числе графиков, диаграмм, скриншотов.
Активно использует собственные «знания» и информацию из открытых источников (интернета).

«До GPT-4o общение с ChatGPT голосом проходило со средней задержкой в 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4). Причина заключается в том, что в этих двух моделях голосовой режим представляет собой конвейер из трех отдельных моделей: одна простая модель транскрибирует звук в текст, GPT-3.5 или GPT-4 принимает и выводит текст, а третья простая модель преобразует этот текст обратно в аудио. Из-за этого нейросеть теряет часть информации: она не может напрямую считывать тон беседы, понимать нескольких говорящих или распознавать фоновые шумы, — говорится в релизе OpenAI. – теперь все данные обрабатываются одной моделью».

Напомним, что предыдущая языковая модель OpenAI называлась GPT-4 Turbo и появилась она не так давно – в сентябре 2023 года.

Обновление ChatGPT в сентябре 2023

25 сентября OpenAI выложили в своем блоге статью, в которой рассказали об обновлении нейросетевого сервиса. В этом обновлении мы не видим улучшения самих нейросетевых алгоритмов, однако в нем есть кое-что не менее важное — первые шаги по переходу ChatGPT к мультимодальной модели.

Мультимодальные модели представляют собой алгоритмы, способные работать не только с текстом, но и картинками, видео и аудио. В статье про языковую модель GPT-4 мы писали, что согласно прогнозам, уже она должна стать мультимодальной. И вот прогнозы сбылись — обновление наделило нейросеть способностью синтеза и распознавания речи, а также анализа изображений.

Сообщалось, что голосовой ввод и генерация аудио доступны только пользователям мобильных версий ChatGPT для iOS и Android, а вот работа с картинками появилась на всех платформах.

Как воспользоваться этими функциями

В мобильном приложении нейросети доступен голосовой ввод, но этим никого не удивишь. Синтез речи включить не так просто. Для этого зайдите в мобильное приложение, перейдите в Settings, а затем нажмите New Features и выберите Voice conversations. Затем нажмите кнопку наушников, расположенную в правом верхнем углу главного экрана, и выберите один из пяти голосов, которым будет говорить нейросеть.

Чтобы воспользоваться функцией работы с изображениями, по словам OpenAI, нужно нажать значок с фотографией слева от панели ввода запроса. В мобильном приложении перед этим нужно будет нажать значок «+».

Заметка дополняется...

Новое на сайте

31 июл 2026

848

Исправить AI-ответ или попасть в рекомендации: в чем разница между AEO и GEO

Терминологическая граница между AEO и GEO может быть размытой, но вот последствия путаницы вполне конкретны: лишние работы, растянутые сроки и отчет, который трудно связать с задачей бизнеса. Разбираемся, как и зачем договариваться о терминах до согласования брифа и сметы.

29 июл 2026

696

SEO в эпоху AI-поиска: как меняется бэклог

У SEO-задач появилась новая точка отсчета — конкретный сценарий выбора. Один пользователь разбирается в проблеме, другой сравнивает подрядчиков, третий уточняет цену и сроки: показываем, как под эти этапы собирать бэклог и оценивать AI-видимость.

GEO / AEO

24 июл 2026

1 110

Как ставить KPI в GEO, если нельзя гарантировать результат

Бюджеты на GEO уже выделяются, хотя рынок еще договаривается, что именно считать AI-видимостью и как измерять результат. Смотрим, какие подходы складываются на мировом рынке и как мы в TexTerra определяем KPI и границы ответственности.

GEO / AEO

Смотреть все статьи

У вас есть деловой запрос? Давайте обсудим!

Оставьте свои контакты, мы свяжемся с вами в ближайшее время.

Ваше имя * Номер телефона * E-mail * Адрес сайта Опишите суть вашего запроса

Нажимая на кнопку «Оставить заявку», вы подтверждаете свое согласие на обработку пользовательских данных

Я хочу получать дайджест лучших публикаций TexTerra