«Яндекс» подслушивает вас — что еще стало известно из утечки

31 Январь 2023

Время чтения: 13 минут

В слитом исходном коде «Яндекса» есть весьма неприятные для репутации компании моменты.

Сначала казалось, что эти файлы бесполезны и не несут угрозы для компании, но после анализа эксперты обнаружили несколько настораживающих моментов.

Утечка «Яндекса»

25 января неизвестные «хакеры» слили в сеть файлы из внутреннего репозитория «Яндекса» — это архивы общим объемом 44.7 гигабайт, которые содержат исходные коды и другие данные поисковика компании, а также 79 сервисов и проектов компании, включая «Яндекс Маркет», «Яндекс Такси» и «Яндекс Метрику».

Эти исходные коды до сих пор доступны на форуме BreachForums и найти вы их можете в том же Яндексе по запросу yandex git sources.

Компания достаточно быстро отреагировала на событие и уверила, что никаких персональных данных в попавшей в сеть части git-репозитория нет. При этом, по словам представителей «Яндекса», никакого взлома алгоритмов компании не было — утечка внутренних данных объясняется действиями недобросовестных бывших сотрудников техногиганта, которые выложили в сеть устарешие данные.

«Репозиторий – это один из инструментов для разработки внутри большинства компаний, который доступен их разработчикам. Репозитории нужны для работы с кодом и не предназначены для хранения персональных данных пользователей. Мы проводим внутреннее расследование о причинах попадания фрагментов исходного кода в открытый доступ, но не видим какой-либо угрозы для данных наших пользователей или работоспособности платформы», — сообщили представители «Яндекса» Хабру.

Эксперты, опрошенные Хабром, соглашаются, что предварительно никакой опасности для внутренних ресурсов компании и данных пользователей утечка исходного кода не несет — запустить «свой Яндекс» на компьютере вы не сможете просто потому, что в кодах лишь небольшая часть всей структуры. Зато, по словам специалистов, репозиторий может помочь другим специалистам заглянуть «за ширму» техногиганта, понять, как построены рабочие процессы в компании и перенять интересные вещи.

Что интересного в исходном коде «Яндекса»

Вот несколько моментов, которые IT-специалисты смогли вынести, анализируя репозиторий «Яндекса»:

«Яндекс» предпочитает писать алгоритмы с нуля даже там, где другие компании использовали бы доступные решения с открытым исходным кодом;
в исходниках нет даже намека на уязвимости, которыми могут воспользоваться хакеры, — большинство данных «подтягивается» из других мест;
вместо корпоративного Яндекс.Мессенджера в техногиганте используют Telegram;
в утекших данных есть интересная папка Security. По словам специалистов, имеющиеся там файлы показывают, что сервисы аутентификации и защиты информации в «Яндексе» очень продвинутые.

Как так получилось, что бывший сотрудник компании смог получить доступ и выложить в сеть исходный код «Яндекса»? Все дело в том, что в компании каждый разработчик имеет доступ к чтению исходного кода. Эта огромная библиотека внутри техногиганта называется «Аркадия» (видимо, по имени основателя компании Аркадия Воложа) и именно оттуда бывший сотрудник взял код, который затем слил в сеть.

По словам других бывших работников «Яндекса», такая схема, когда каждый имеет доступ ко всему исходному коду всех сервисов компании, очень удобна — она позволяет быстрее, эффективнее и гибче разрабатывать код, но при его утечке сделать с этой информацией хоть что-то злоумышленник просто не сможет. Все потому, что ключевые файлы, необходимые для работы всех сервисов, подгружаются из других мест, доступа к которым у рядовых разработчиков нет.

Валерий Филонов, руководитель отдела frontend- и backend-разработки TexTerra:

«Если это действительно исходный кода Яндекса, то проблемы как минимум с безопасностью сервисов».

Подслушивающая «Алиса» и другие секреты «Яндекса»

После инцидента «Яндекс» провел проверку не только самого утекшего кода, но и тех фрагментов внутренних алгоритмов, которые тем или иным образом могли попасть в сеть.

Оказалось, что некоторые сотрудники публиковали в интернете фрагменты алгоритмов, которые использовались внутри компании в рамках тестирования. Один из таких алгоритмов включал микрофон умной колонки «Алиса» на несколько секунд без голосовой команды пользователя. По словам представителей «Яндекса», эта функция нужна была «чтобы уменьшить количество ложных срабатываний во время тестирования сотрудниками и улучшить качества активации „Алисы“».

Также в итоге оказалось, что некоторые персональные данные в исходном коде все же были — например, попали в него контакты водителей «Яндекс. Такси».

Вот еще несколько интересных моментов, которые стали известны после изучения исходного кода «Яндекса»:

в сервисах «Яндекс.Такси» и «Яндекс.Еда» существовали группы пользователей, которым поддержка оказывалась в приоритетном порядке;
работу некоторых сервисов регулировали, изменяя параметры поиска по картинкам и видео. В частности, блокировали в выдаче фотографии Владимира Путина по мемным запросам;
в коде есть расистские высказывания, не связанные с работой сервисов компании.

Слитые факторы ранжирования «Яндекса»

Помимо всего прочего, энтузиасты нашли в исходном коде и реальный факторы ранжирования сайтов в поиске на 2022 год. Теперь у сеошников есть реальный список параметров, которые влияют на позиции сайта в поисковой выдаче:

PageRank (числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она «важнее»)
возраст ссылок;
трафик и процент органики;
возраст документа и его последнего обновления;
надежность хоста (тем выше, чем меньше ошибок 40x и 50x);
количество (/) в URL (чем больше, тем хуже);
цифры в URL (снижают позиции);
ключевые слова в URL (до 3 слов);
пессимизация;
средняя позиция домена по всем запросам;
уровень вложенности URL;
пользовательские факторы: CTR, last-click, добавление в закладки;
обратные ссылки (с главных страниц важнее всего);
баланс хороших и плохих ссылок;
анкоры обратных ссылок;
количество поисковых запросов;
трафик из Википедии;
наличие карт на странице;
встроенное видео на странице;
количество рекламы на странице;
качество текста.

Примечательно, что об этом прессе рассказал сам «Яндекс», не дожидаясь разоблачительных статей. С точки зрения пиара — это правильный ход и единственно верный выход из положения.

«Сейчас нам очень стыдно, и мы приносим извинения нашим пользователям и партнерам. Считаем необходимым рассказать, почему такое происходило и что в связи с этим мы намерены предпринимать», — заявили в «Яндексе».

В ближайшем будущем компания намерена сформировать стандарты и принципы техноэтики. Они будут опубликованы на сайте компании и станут частью общих политик «Яндекса». Также российский техногигант уверяет, что фрагменты кода, которые противоречат этим принципам, будут исправлены.

В TexTerra вы можете заказать разработку сайта на шаблоне или с нуля — наши специалисты сделают работу качественно и быстро.