Gemini — это новейшая модель ИИ от Google, о которой Сундар Пичаи, генеральный директор компании, впервые рассказал в июне, а в декабре 2023, ее выпустили в мир. Она разрабатывалась как мультимодальная система, которая способна работать не только с текстовой информацией, но и с изображениями, видео, аудио и программным кодом. «Это огромный шаг вперед в развитии искусственного интеллекта, который, в конечном итоге, повлияет практически на все продукты Google» — считают в компании.
Gemini вышла в трех версиях:
-
Gemini Nano, которая предназначена для работы на мобильных телефонах с ОС Android от Google. Ее можно скачать в Google Play, но пока не из всех стран.
-
Gemini Pro, которую встроили в чат-бот Google Bard. Но подумав, приняли решение переименовать Bard в Gemini, чтобы не было путаницы. Поэтому с 8 февраля 2024 можно увидеть обновленный, более лаконичный и удобный интерфейс. Она будет доступна в 170 странах, за исключением Великобритании и стран ЕС, так как там требуется получения разрешений. Разработчики и корпоративные клиенты также смогут получить доступ к Gemini Pro через Google Generative AI Studio или Vertex AI в Google Cloud.
-
Gemini Ultra. Это самая мощная модель LLM (large language model или большая языковая модель) из созданных Google. Доступ к ней открыт по подписке Gemini Advanced.
На данный момент базовые модели Gemini поддерживают работу с текстом и кодом, а вот Gemini Ultra предлагает больше вариантов, она может работать еще и с изображениями, видео и аудио.
И, конечно же Google провел тесты, чтобы сравнить работу своих нейросетей с взятым за эталон ChatGPT. В результате. по заявлению компании, Ultra превзошла «современные» модели ИИ, включая самую мощную официальную модель ChatGPT, GPT-4, в 30-ти тестах производительности из 32-х, включая рассуждение и понимание изображений. Модель Pro превзошла GPT-3.5, технологию, лежащую в основе бесплатной версии ChatGPT, в шести из восьми тестов.
Однако тесты — это всего лишь тесты, и, в конечном итоге, настоящую проверку возможностей Gemini будут проводить обычные пользователи, оценивая и результаты, и удобство использования. Вот, что заметили мы.
Тест Gemini 1.5 Pro
21 марта для тестов стала доступна более совершенная модель Gemini Pro – если Bard использовал и использует версию 1.0, то на сайте aistudio вы можете поработать с версией 1.5. Ее главное отличие от другие моделей – объем загружаемой информации составляет 1 миллион токенов, что превышает любые другие нейросети.
По многим параметрам она даже превосходит модель Ultra.
Однако нельзя пройти и мимо минусов.
Первый виден сразу при попадании в интерфейс. Он выглядит сложным и требует времени на то, чтобы разобраться.
Если в ChatGPT или Claude вы просто начинаете чат с нейросетью, то здесь нужно сначала выбрать, в каком режиме вы хотите с ней общаться.
При нажатии кнопки «create chat» на выбор предлагается три варианта:
- Чат-промт
Это основной тип промта. Его назначение в том, чтобы поощрить естественный и свободный разговор, подобный болтовне с другом.
Примеры:
-
«Расскажи о своем дне».
-
«Каковы твои мысли об искусственном интеллекте?»
-
«Какая у тебя любимая книга и почему?»
- Свободный промт
Этот тип промта дает ИИ больше свободы для генерации творческих текстовых форматов, таких как стихи, код, сценарии, музыкальные произведения, электронные письма, письма и т.д. Обычно он включает краткое описание желаемого формата и предоставляет ИИ возможность взять на себя инициативу.
Примеры:
-
«Напиши стихотворение об океане».
-
«Сгенерируй скрипт Python, который печатает последовательность Фибоначчи».
-
«Сочини песню о разбитом сердце».
- Структурированный промт
Этот тип промта предоставляет ИИ конкретные инструкции и ограничения. Он часто включает в себя такие детали, как тема, длина, стиль и желаемый результат. Структурированные промты полезны, когда вы хотите, чтобы ИИ генерировал конкретные типы ответов или выполнял задачи точно.
Примеры:
-
«Изложи основные моменты этой статьи в 3 предложениях».
-
«Переведи это предложение на испанский язык».
-
«Напиши описание продукта для этого нового гаджета».
Выбор типа промта зависит от ваших целей. Если вы хотите провести непринужденный и открытый разговор, чат-промт – хороший выбор. Если вы хотите, чтобы ИИ проявлял больше творчества и генерировал различные текстовые форматы, лучше подойдет свободный промт. А если вам нужно, чтобы ИИ выполнил конкретную задачу или сгенерировал конкретный тип ответа, вам подойдет структурированный промт.
Примеры работающих промтов можно найти на специальной страничке с примерами. Их немного, но, вероятно коллекция будет пополняться.
А теперь – сам тест. Мы решили проверить, насколько хорошо Gemini 1.5 работает с документами. Поддерживаемых типов – много. Это стандартные документы и таблицы, презентации и pdf, а также аудио.
Первым заданием мы попросили выделить самое важное из загруженного документа.
Gemini справилась с заданием, но при последующем задании перевести результат на русский язык, снова выдала ответ на английском.
Это ее второй существенный недостаток. На каком языке вы бы ни задали промт, на выходе вы получите текст только на английском. Возможно, в будущем это исправят, тогда нейросетью будет удобнее пользоваться.
Во втором тесте мы загрузили видео и попросили нейросеть написать, о чем оно. С этим заданием она тоже хорошо справилась.
При этом из доступного лимита в 1000000 токенов было задействовано менее 14 тысяч. Так что если вам нужно работать с объемными данными, то Gemini 1.5 Pro станет полезным помощником.
Читать также:
Лучшая нейросеть для деловых писем: тест-драйв TexTerra