В конце мая 2024 года в сеть утекли 2,5 тысячи страниц внутренней документации американской корпорации Google. В них подробно описывается, как на самом деле работает поисковый алгоритм Гугла. Также в документации описывается, какие именно данные собирает Google с веб-страниц, сайтов и из поисковых систем, дается описание анализа и ранжирования веб-страниц и какие факторы влияют на ранжирование небольших сайтов.
Мы заметили, что некоторая информация в этих документах противоречит тому, что заявлял Google. Но мы никогда не довольствовались голыми заявлениями корпорации, постоянно по долгу службы прощупывая поисковую систему и делая собственные заключения для улучшения продвижения и SEO, которые и представили в данной статье.
У Google есть несколько десятков систем (алгоритмов) ранжирования. Они каждый день оценивают миллиарды страниц, учитывая при этом сотни факторов – все, чтобы выдавать вам самые полезные результаты за долю секунды.
Вот как называются и за что отвечают эти системы.
Bidirectional Encoder Representations from Transformers (двунаправленный кодировщик представлений трансформера, чаще – просто BERT)
Это система искусственного интеллекта, которая «догадывается» о сути запроса примерно так же, как это делает наш мозг, и работает, скажем так, с пересечением сущностей.
Какое понятие находится на пересечении двух других понятий – «король» и «женщина»? Конечно, «королева»! Ваш мозг понял это за долю секунды, и алгоритмы такую простую модель тоже давно освоили. Теперь BERT похожим образом учится (и очень успешно!) на более сложных случаях понимать, что же на самом деле ищет человек, – даже если запрос не включает самых нужных и точных запросов.
Crisis information systems (кризисные информационные системы)
У Google есть отдельные системы, которые позволяют быстро найти информацию в кризисных ситуациях: личных, связанных с угрозой насилия или убийства, или стихийных бедствиях. Вторая представляет собой оповещения SOS и работает, чтобы показывать сообщения от властей. Они включают номера и сайты экстренных служб, переводы полезных фраз, карты и много другое – подробнее можно посмотреть в Справке Google.
Deduplication systems (системы дедупликации)
Алгоритм может найти тысячи или даже миллионы страниц с релевантным содержанием – но некоторые из них могут полностью дублировать контент друг друга. Это бесполезный результат для пользователя, поэтому по умолчанию Google скрывает дубли.
Exact match domain system (доменная система точного соответствия)
Система ранжирования Google учитывает слова, содержащиеся в домене – для нее это один из сигналов релевантности содержания. Но та же самая система понимает, что доменные имена вроде «лучшие места, где можно пообедать» созданы исключительно для захвата топа, и не учитывает их при формировании выдачи.
Freshness systems (системы свежести)
Свежий контент не всегда по определению качественнее вышедшего давно. Но алгоритмы Google понимают, когда фактор новизны может иметь большее значение, и поднимают недавние публикации выше в поиске. Например, если вышел обзор на новый фильм, то при запросе информации о фильме этот обзор будет выше, чем новость о запуске производства ленты, а новость о крупном землетрясении недалеко от вас – выше, чем статья из «Википедии».
Helpful content system (система полезного контента)
Этот алгоритм ориентирован на то, чтобы люди видели в результатах выдачи больше полезного контента, написанного людьми для людей. Недавно мы писали об этих системах Google подробнее.
Link analysis systems (системы анализа ссылок)
У Google есть системы, которые фокусируются на том, как страницы ссылаются друг на друга – благодаря этому они понимают, о чем страницы и какие из них могут быть наиболее полезными.
В 2016 году Google отключил тулбар PageRank – одного из самых знаменитых своих алгоритмов для анализа ссылок, причем о «смерти» системы SEO-специалисты писали еще в 2014 году. При этом никто достоверно не знает, работает ли сейчас этот алгоритм – например, западные оптимизаторы писали о его обновлении в 2018 году.
Local news systems (местные новостные системы)
Системы выдачи местного новостного контента работают в Google, как это утверждается в блоге компании, «когда это уместно».
Это не отключенный весной в России Google News, а один из быстрых результатов. Но, возможно, эти алгоритмы работают в связке: мы попытались проверить работу этого алгоритма на примерно десятке запросов – и не увидели ничего релевантного.
Multitask Unified Model (многозадачная унифицированная модель)
Это система искусственного интеллекта, способная как понимать, так и генерировать письменную речь. ИИ используется не для общего ранжирования в поиске, а только для некоторых «приложений», например, поиска информации о вакцине против COVID-19.
Neural matching (нейронное сопоставление)
Этот ИИ Google использует для понимания того, о чем говорится в запросах и на страницах – и сопоставления этих сущностей друг с другом.
Original content systems (системы оригинального контента)
Это алгоритмы, которые нацелены на приоритет в выдаче оригинального контента. Если контент по каким-то причинам дублируется на одном сайте, владелец может просто указать одну из страниц как каноническую – для этого Google предусмотрел специальную разметку.
Removal-based demotion systems (системы понижения сайтов в выдаче, основанные на фактах законного удаления контента)
Алгоритмы Google понижают в выдаче сайты, контент с которых удаляется по двум причинам:
- из-за нарушения авторских прав;
- из-за публикации личной информации.
По сути, сайт, попадая в такие конфликты, сигналит поисковой системе, что у него не все ок с контентной политикой – раз его контент удаляют на законном основании.
Page experience system (системы, завязанные на пользовательском опыте)
Этот алгоритм оценивает критерии, которые свидетельствуют о плохом или хорошем опыте взаимодействия со страницей: скорость загрузки, удобство для мобильных устройств, отсутствие навязчивых межстраничных объявлений, безопасность обслуживания. При прочих равных поисковик показывает выше те страницы, которые показывают лучшие результаты по перечисленным критериям.
Дарья Завьялова, выпускающий редактор TexTerra:
«Мы подняли трафик на сайте, просто перенеся контент двух (!) страниц на новый шаблон, который как раз учитывал page experience – подробнее можно почитать об этом в кейсе про рост трафика. Потом то же самое мы повторили для страниц услуг и страниц TexTerra Daily, и там тоже был сходный эффект. Можем сделать такую же оптимизацию сайта для вас – обращайтесь».
Passage ranking system (система ранжирования отрывков)
Алгоритм, который анализирует не саму страницу, а отдельные разделы или даже отрывки контента – это делает поиск еще качественнее.
Product reviews system (система отзывов о товарах)
Это система, которая делает, по сути, то же самое, что Helpful Content, – то есть «вычисляет» самую полезную информацию и дает ей приоритет – но «заточена» конкретно под товары. В остальном – то же самое: алгоритм оценивает отзыв как обычный контент, «рассматривая» в первую очередь экспертность и опыт автора.
RankBrain («ранжирующий интеллект»)
Алгоритм «изучает» значение слов, встреченных им впервые, причем делает это в связке с языком, на котором сделан запрос. Например, запрос banker от американца система поймет как «человек, работающий в банке», а вот для британца Google добавит в выдачу также результаты со значением «железнодорожный локомотив» (потому что это дополнительное значение слова banker в британском английском).
Reliable information systems (информационные системы, заслуживающие доверия)
Google очень следит за качеством информации, в том числе – быстро меняющейся. Когда алгоритмы не уверены в том, что конкретные данные являются достоверными, он дает рекомендации, как выполнить поиск другими способами – такими, которые приведут к надежным результатам.
Site diversity system (система разнообразной выдачи сайтов)
Как правило, Google не показывает более двух страниц с одного и того же сайта в лучших результатах, чтобы исключить возможность захвата выдачи. При этом здравый смысл все еще в приоритете – если несколько страниц одного сайта действительно наиболее релевантны запросу, чем все другие, то делается исключение.
Spam detection systems (системы обнаружения спама)
Интернет содержит огромное количество спама, который, если его не устранить, не позволит поисковику показывать самые полезные и релевантные результаты. Google использует целый ряд систем обнаружения спама. Спам, увы, постоянно совершенствуется – но и алгоритмы тоже.
Читайте также:
Декабрьский апдейт Google: контентным сайтам будет плохо
Продвижение сайта: 69 шагов, которые позволят вам выйти в топ