Как работает Google – полный список алгоритмов и документов

06 Февраль 2025

Время чтения: 25 минут

Google впервые с марта 2024 обновил руководство для асессоров.

Недавно Google обновил рекомендации по оценке качества поиска, касающиеся контента с использованием искусственного интеллекта и новых видов спама. Теперь ПС определяет и рассматривает контент, созданный с помощью искусственного интеллекта, в соответствии с рекомендациями по оценке качества.

В рекомендациях говорится, что инструменты искусственного интеллекта разрешены, но контент должен быть уникальным. Добавлены три новых типа спама: злоупотребление доменом с истекшим сроком действия, злоупотребление репутацией сайта и масштабное злоупотребление контентом.

Посмотреть эти гайдлайны можно по ссылке (PDF-файл на английском языке). Хотя эти рекомендации напрямую не влияют на рейтинг, они дают полезную информацию о том, что Google считает высококачественным контентом.

Это обновление отражает постоянно улучшающийся подход Google к определению качества, особенно в отношении контента, созданного с помощью искусственного интеллекта, и новых видов спама.

Что нового в руководстве для асессоров

Добавлено определение генеративного ИИ

Раздел 2.1 «Важные определения» теперь официально посвящен контенту, созданному с помощью ИИ, и содержит четкие указания, как экспертам оценивать материалы, созданные с помощью машинного обучения.

Определение гласит:

«Генеративный ИИ — это тип модели машинного обучения (ML), которая может использовать полученные знания из предоставленных примеров для создания нового контента, такого как текст, изображения, музыка и код».

Низкое качество и Контент «самого низкого качества»

Разделы с 4.0 по 4.6 были существенно переработаны, в них добавлены подробные подразделы, посвященные новым формам спама и низкокачественному контенту. В обновлении определены три основные проблемы:

Злоупотребление доменом с истекшим сроком действия
Это когда истекший доменн приобретается и перепрофилируется в интересах нового владельца веб-сайта путем размещения контента, который практически не представляет ценности для пользователей.
Злоупотребление репутацией сайта
Это тактика, при которой контент третьих лиц публикуется на хостинговом сайте из-за рейтинга этого хостингового сайта, которые он заработал благодаря своему качественному контенту. То есть, сначала сайт размещает качественный контент, а затем начинает публиковать, скажем, нерелевантную рекламу.
Масштабируемое злоупотребление контентом
Это практика рассылки спама, описанная в Политике поиска Google по борьбе со спамом в Интернете. Масштабируемое злоупотребление контентом возникает, когда создается много страниц с целью получения выгоды владельцем веб-сайта, а не для помощи пользователям.

В руководстве конкретно рассматривается контент, созданный с помощью ИИ:

«Использование автоматизированных инструментов (генеративного искусственного интеллекта или других) — это простой способ создания большого количества страниц, которые практически не представляют ценности для посетителей сайта по сравнению с другими страницами на ту же тему».

Идентификация контента, созданного с помощью искусственного интеллекта

В разделе 4.7 приведены конкретные примеры того, как идентифицировать и оценивать контент, созданный с помощью искусственного интеллекта. В разделе «Наиболее распространенные случаи злоупотребления контентом» в тексте говорится:

«Содержимое страницы показывает, что она создана с помощью генеративного искусственного интеллекта, скорее всего, без оригинального контента и не представляет никакой ценности для пользователей.

Например, статья начинается словами „В качестве языковой модели у меня нет данных в режиме реального времени, и дата окончания моих знаний — сентябрь 2021 года“.

Конец текста статьи, похоже, обрывается незаконченным предложением „Нейроэндокринные опухоли поджелудочной железы (НЭО): НЭО поджелудочной железы — это редкий тип рака поджелудочной железы, который может иметь неблагоприятные последствия“».

Новые технические требования

В руководстве теперь указано, что оценщики контента должны отключать блокировщики рекламы для обеспечения точности оценки:

«Некоторые браузеры, такие как Chrome, автоматически блокируют рекламные объявления. Поэтому вам необходимо отключить все функции блокировки рекламы в браузере, который вы используете для просмотра веб-страниц в целях оценки.

Перед выполнением задач оценки проверьте настройки вашего браузера, чтобы убедиться, что ваши оценки точно отражают то, как пользователи воспринимают страницу без настроек и расширений, блокирующих рекламу».

Что все это значит? Если кратко, то ИИ использовать можно, но контент должен быть полезен пользователям и персонален. А новые правила относительно отключения блокировщиков рекламы говорят о том, что асессоры теперь будут обращать внимание на то, как пользователи воспринимают рекламу на сайте.

Вообще у Google есть несколько десятков систем (алгоритмов) ранжирования. Они каждый день оценивают миллиарды страниц, учитывая при этом сотни факторов – все, чтобы выдавать вам самые полезные результаты за долю секунды. Знать алгоритмы Google важно для качественного продвижения и SEO.

Вот как называются и за что отвечают основные системы.

Bidirectional Encoder Representations from Transformers (двунаправленный кодировщик представлений трансформера, чаще – просто BERT)

Это система искусственного интеллекта, которая «догадывается» о сути запроса примерно так же, как это делает наш мозг, и работает, скажем так, с пересечением сущностей.

Какое понятие находится на пересечении двух других понятий – «король» и «женщина»? Конечно, «королева»! Ваш мозг понял это за долю секунды, и алгоритмы такую простую модель тоже давно освоили. Теперь BERT похожим образом учится (и очень успешно!) на более сложных случаях понимать, что же на самом деле ищет человек, – даже если запрос не включает самых нужных и точных запросов.

Crisis information systems (кризисные информационные системы)

У Google есть отдельные системы, которые позволяют быстро найти информацию в кризисных ситуациях: личных, связанных с угрозой насилия или убийства, или стихийных бедствиях. Вторая представляет собой оповещения SOS и работает, чтобы показывать сообщения от властей. Они включают номера и сайты экстренных служб, переводы полезных фраз, карты и много другое – подробнее можно посмотреть в Справке Google.

Deduplication systems (системы дедупликации)

Алгоритм может найти тысячи или даже миллионы страниц с релевантным содержанием – но некоторые из них могут полностью дублировать контент друг друга. Это бесполезный результат для пользователя, поэтому по умолчанию Google скрывает дубли.

Exact match domain system (доменная система точного соответствия)

Система ранжирования Google учитывает слова, содержащиеся в домене – для нее это один из сигналов релевантности содержания. Но та же самая система понимает, что доменные имена вроде «лучшие места, где можно пообедать» созданы исключительно для захвата топа, и не учитывает их при формировании выдачи.

Freshness systems (системы свежести)

Свежий контент не всегда по определению качественнее вышедшего давно. Но алгоритмы Google понимают, когда фактор новизны может иметь большее значение, и поднимают недавние публикации выше в поиске. Например, если вышел обзор на новый фильм, то при запросе информации о фильме этот обзор будет выше, чем новость о запуске производства ленты, а новость о крупном землетрясении недалеко от вас – выше, чем статья из «Википедии».

Helpful content system (система полезного контента)

Этот алгоритм ориентирован на то, чтобы люди видели в результатах выдачи больше полезного контента, написанного людьми для людей. Мы писали об этих системах Google подробнее.

Link analysis systems (системы анализа ссылок)

У Google есть системы, которые фокусируются на том, как страницы ссылаются друг на друга – благодаря этому они понимают, о чем страницы и какие из них могут быть наиболее полезными.

В 2016 году Google отключил тулбар PageRank – одного из самых знаменитых своих алгоритмов для анализа ссылок, причем о «смерти» системы SEO-специалисты писали еще в 2014 году. При этом никто достоверно не знает, работает ли сейчас этот алгоритм – например, западные оптимизаторы писали о его обновлении в 2018 году.

Local news systems (местные новостные системы)

Системы выдачи местного новостного контента работают в Google, как это утверждается в блоге компании, «когда это уместно».

Это не отключенный весной в России Google News, а один из быстрых результатов. Но, возможно, эти алгоритмы работают в связке: мы попытались проверить работу этого алгоритма на примерно десятке запросов – и не увидели ничего релевантного.

Multitask Unified Model (MUM, многозадачная унифицированная модель)

Это система искусственного интеллекта, способная как понимать, так и генерировать письменную речь. ИИ используется не для общего ранжирования в поиске, а только для некоторых «приложений», например, поиска информации о вакцине против COVID-19.

Neural matching (нейронное сопоставление)

Этот ИИ Google использует для понимания того, о чем говорится в запросах и на страницах – и сопоставления этих сущностей друг с другом.

Original content systems (системы оригинального контента)

Это алгоритмы, которые нацелены на приоритет в выдаче оригинального контента. Если контент по каким-то причинам дублируется на одном сайте, владелец может просто указать одну из страниц как каноническую – для этого Google предусмотрел специальную разметку.

Removal-based demotion systems (системы понижения сайтов в выдаче, основанные на фактах законного удаления контента)

Алгоритмы Google понижают в выдаче сайты, контент с которых удаляется по двум причинам:

из-за нарушения авторских прав;
из-за публикации личной информации.

По сути, сайт, попадая в такие конфликты, сигналит поисковой системе, что у него не все ок с контентной политикой – раз его контент удаляют на законном основании.

Page experience system (системы, завязанные на пользовательском опыте)

Этот алгоритм оценивает критерии, которые свидетельствуют о плохом или хорошем опыте взаимодействия со страницей: скорость загрузки, удобство для мобильных устройств, отсутствие навязчивых межстраничных объявлений, безопасность обслуживания. При прочих равных поисковик показывает выше те страницы, которые показывают лучшие результаты по перечисленным критериям.

Дарья Завьялова,

выпускающий редактор TexTerra:

«Мы подняли трафик на сайте, просто перенеся контент двух (!) страниц на новый шаблон, который как раз учитывал page experience – подробнее можно почитать об этом в кейсе про рост трафика. Потом то же самое мы повторили для страниц услуг и страниц TexTerra Daily, и там тоже был сходный эффект. Можем сделать такую же оптимизацию сайта для вас – обращайтесь».

Passage ranking system (система ранжирования отрывков)

Алгоритм, который анализирует не саму страницу, а отдельные разделы или даже отрывки контента – это делает поиск еще качественнее.

Product reviews system (система отзывов о товарах)

Это система, которая делает, по сути, то же самое, что Helpful Content, – то есть «вычисляет» самую полезную информацию и дает ей приоритет – но «заточена» конкретно под товары. В остальном – то же самое: алгоритм оценивает отзыв как обычный контент, «рассматривая» в первую очередь экспертность и опыт автора.

RankBrain («ранжирующий интеллект»)

Алгоритм «изучает» значение слов, встреченных им впервые, причем делает это в связке с языком, на котором сделан запрос. Например, запрос banker от американца система поймет как «человек, работающий в банке», а вот для британца Google добавит в выдачу также результаты со значением «железнодорожный локомотив» (потому что это дополнительное значение слова banker в британском английском).

Reliable information systems (информационные системы, заслуживающие доверия)

Google очень следит за качеством информации, в том числе – быстро меняющейся. Когда алгоритмы не уверены в том, что конкретные данные являются достоверными, он дает рекомендации, как выполнить поиск другими способами – такими, которые приведут к надежным результатам.

Site diversity system (система разнообразной выдачи сайтов)

Как правило, Google не показывает более двух страниц с одного и того же сайта в лучших результатах, чтобы исключить возможность захвата выдачи. При этом здравый смысл все еще в приоритете – если несколько страниц одного сайта действительно наиболее релевантны запросу, чем все другие, то делается исключение.

Spam detection systems (системы обнаружения спама)

Интернет содержит огромное количество спама, который, если его не устранить, не позволит поисковику показывать самые полезные и релевантные результаты. Google использует целый ряд систем обнаружения спама. Спам, увы, постоянно совершенствуется – но и алгоритмы тоже.

Что еще важно в Google

Это не совсем алгоритмы в прямом понимании слова, но это важные факторы ранжирования Google:

Core Web Vitals. Этот набор метрик был представлен в 2021 году и фокусируется на оценке производительности веб-страниц. Core Web Vitals включает такие показатели, как скорость загрузки страницы, интерактивность и стабильность отображения контента.
Mobile-first indexing. С 2019 года Google начал использовать мобильный вариант сайта для индексации и ранжирования. Это означает, что поисковая система отдаёт приоритет мобильной версии сайта при определении его позиции в результатах поиска.
E-E-A-T (Expertise, Experience, Authoritativeness, Trustworthiness). Хотя это не алгоритм в традиционном смысле, E-E-A-T является важным фактором ранжирования в Google. Поисковая система оценивает качество и надёжность информации на сайте, а также авторитет и опыт автора.