Главная Блог Texterra Как миллионы виртуальных мигрантов обучают нейросети

Как миллионы виртуальных мигрантов обучают нейросети

Оказывается, почти треть людей, делающих поисковики, голосовых помощников типа «Алисы», Cortana или Siri, роботов Boston Dynamics, беспилотные автомобили и другие умные штуки – незаметная прислуга, о которой не принято вспоминать.

Мнение Нейросети

Владимир Иванов

Дата публикации: 20 янв 2025

15 минут

67 653

Это не программисты из Google, Amazon или «Яндекса» – под капотом ИИ вкалывают простые люди из Индии, Пакистана, Кении и других непроцветающих стран. Конечно, среди них есть и европейцы, и американцы, и наши соотечественники, но их намного меньше.

Миллионы виртуальных гастарбайтеров работают на конвейере подготовки данных без образования, за зарплату два-три доллара в день.

На кирпичной фабрике в г. Фатулла. Фото GMB Akash, Bangladesh

Оглавление:

Зачем нужны все эти люди

Армия бесплатных помощников

Механический турок Amazon

Что же там внутри

Сколько платят

История Кристи Милланд

Скандалы в прессе

Масштаб решаемых задач

Платформа «Яндекс.Толока»

Особенности российского «турка»

Сколько можно заработать

История Ильи Михайленко

Краудсорсинг – это большой бизнес

Платформа «Кликворкер»

Компания «Восьмая фигура»

«Майкрософт» UHRS

Что-то здесь не так

Люди хотят быть счастливыми

Нет социального контракта

Оглавление

Зачем нужны все эти люди

Армия бесплатных помощников

Механический турок Amazon

Что же там внутри

Сколько платят

История Кристи Милланд

Скандалы в прессе

Масштаб решаемых задач

Платформа «Яндекс.Толока»

Особенности российского «турка»

Сколько можно заработать

История Ильи Михайленко

Краудсорсинг – это большой бизнес

Платформа «Кликворкер»

Компания «Восьмая фигура»

«Майкрософт» UHRS

Что-то здесь не так

Люди хотят быть счастливыми

Нет социального контракта

Зачем нужны все эти люди

Сейчас не нужно писать тысячи строчек кода – есть много готовых библиотек и программы собирают из них, как из кубиков. Сложность в том, что каждый новый алгоритм для ИИ сначала нужно обучить. Логика его работы не похожа на обычные вычисления, а скорее напоминает действия человека.

К примеру, если требуется решить, сколько будет дважды два, нейронная сеть сначала должна узнать, что думают по этому поводу люди. Нужен не один, а сотни или тысячи ответов (часть из которых может быть неверными) – за истину принимается самый популярный. Он и будет использоваться в дальнейшем. Здесь главное не точность, а чтобы было из чего выбирать.

Вместо того, чтобы как арифмометр складывать нули и единицы, ИИ получает примеры того, как нужно, а дальше разбирается сам. Путь не из легких, но только так решают задачи, требующие мышления: распознавание изображений, анализ живого голоса или разбор текстов на естественном языке. Годятся и простые алгоритмы, но это медленно и не так эффективно.

В этом нет магии, но есть серьезная проблема с наборами структурированных данных. Чтобы обучить алгоритм и заставить решать какую-нибудь реальную проблему, нужно «скормить» ему сведения о сотнях тысяч или миллионах разных, но похожих вещей.

Например, для создания программы по уходу за коровами на ферме, в нейронную сеть придется загружать все их фото и записи с мычанием. Ну а если вы собрались фильтровать спам – постарайтесь не забыть про нигерийские письма.

Все это богатство нужно сначала приготовить: найти всех ваших коров на фотографиях и обвести по контуру чем-нибудь ярким – чтобы алгоритм понимал, где проходит их граница с фоном. А фразы со смыслом «срочно помогите получить миллион долларов» – отметить маркером или вроде того.

Без предварительной подготовки – разметки, данные мало кому интересны, кроме вас. Компьютер сам этого не умеет, ему нужны люди.

Найди и обведи 200 000 рыбок и черепах, чтобы научить компьютер

Армия бесплатных помощников

Когда кто-нибудь хочет отгадать капчу, ему предлагают найти на фотографиях десяток-другой перекрестков, светофоров или витрин. Для вас это дело 10 секунд, а Google в это время тренирует свой искусственный интеллект.

Так происходит не только со спамерами. Отмечая какое-нибудь интересное место на карте, оставляя лайк или ~~негативный~~ отзыв, разговаривая с голосовым помощником или просто переходя по ссылке, люди обучают алгоритмы.

Мы – армия добровольных помощников, помогающих создавать искусственный интеллект.

Помогите нашему беспилотному автомобилю, сами мы не местные

Как используют наши данные и что с ними происходит на самом деле, точно неизвестно – «корпорация добра» не любит делиться такими деталями. Интересующимся объясняют, как работает машинное обучение, почему без него не обойтись, но это немного о другом. В Google даже придумали слоган: «Если не получилось с первого раза – попробуйте еще миллион». Намекают, что нам всем придется потрудиться.

< class="readblogmore" data-img="/upload/img/16-07-2019/1/readblogmore1.png"> Что будет, если оставить искусственный интеллект без присмотра?

Когда не хватает простых людей и нужны специальные знания, к разметке привлекают специалистов, не всегда ученых – важнее экспертность. К примеру, в создании программы для диагностики рака помогали врачи-радиологи, а игрового бота Open AI Five натаскивали школьники. Но не обычные подростки, а чемпионы по Dota 2.

Механический турок Amazon

Хорошо, когда есть добровольцы, но не всем интересно искать спам, обводить коров на фото или делать что-нибудь еще, тем более бесплатно. Чтобы решить вопрос с кадрами для разметки данных, компания Amazon десять лет назад запустила краудсорсинговую платформу Mechanical Turk.

Название не без иронии. В 1770 году некий Вольфганг фон Кемпелен – изобретатель из Австрии, создал шахматный автомат в виде раскрашенной деревянной фигуры. Маэстро гастролировал по Европе и его «механический турок» обыграл многих известных людей, в том числе Бенджамина Франклина и короля Фридриха II.

Считают, что в ящике находился живой гроссмейстер. Но не факт – первая из мистификаций искусственного интеллекта до сих пор не раскрыта.

Механический турок Кемпелена – первая из мистификаций на тему искусственного интеллекта.

Что же там внутри

«Механический турок» Amazon не играет в шахматы. Платформа связывает заказчиков, которым нужны данные для машинного обучения, с исполнителями – обычными людьми, получающими за это скромную оплату.

Все устроено так, что работа разбивается на маленькие простые задачи, которые может решить любой человек. Они жестко формализованы, содержат понятные инструкции и называются Human Intelligence Task (сокр. HITs). Например:

разделить произвольные данные на категории;
найти и отметить объекты на фото или видео;
определить интонацию голосовых сообщений;
распознавать рукописные символы;
провести смысловой анализ текстов или изображений;
выбрать нежелательный контент, порнографию, спам.

Задание: ввести данные из штемпеля и почтовой марки

Время выполнения ограничено, оплата сдельная – за каждый выполненный HIT начисляется несколько центов, иногда чуть больше. Исполнитель всегда обезличен – если нужно, заказчик может к нему обратиться, но не по имени, а по идентификатору в системе.

Сколько платят

Считается, что туркеры неплохо зарабатывают. За самые простые задания, которые не связаны с машинным обучением, платят от нескольких центов до доллара. Разметка данных, которая требует больше опыта, стоит дороже.

Много заданий, привлекательные расценки. Включайся!

Никто не обманет – если делать все по инструкции, работу принимают быстро и платить не отказываются. Все финансовые потоки контролирует Amazon, деньги перечисляют на банковский счет в любой стране. Различие между гражданами США, России или Мозамбика в том, что американцу придется заплатить налог, а остальным – как повезет.

Для студента или мамы в декрете – совсем неплохо

Чтобы выполнять дорогие заказы, нужна квалификация, которую не так-то просто получить, но легко потерять – достаточно нарушить какую-нибудь из инструкций. Интересные задания обычно нарасхват, а оставшиеся – скучные и не такие выгодные.

Но главное лукавство в том, что работа выполняется медленнее, чем планируешь. Потому что не успеть, например, определить за минуту, какой из двух текстов логически следует из третьего. Чтобы все прочесть, осмыслить и принять решение, нужно время. Вроде бы несложно, но набить руку тоже не выйдет – мало одинаковых хитов.

Точно сказать, сколько можно заработать – сложно. Журналисты из агентства Pew Research утверждают, что 50 % туркеров получают от 3 до 5 долларов в час, а изредка бывают пруфы с суммами 500–700 $ в месяц.

Зарплата большинства туркеров не превышает 5 $ в час

Чаще встречается информация, что доллар в час – неплохой результат, особенно для начала.

История Кристи Милланд

Это история успеха женщины, которая творчески подошла к работе. Кристи Милланд из США применяла макросы для сортировки картинок. Например, кнопкой «п» она отправляла фото с попугаем в категорию «птицы», а «ж» – в группу «желтые».

Женщина получала по 0.03$ за каждую картинку и смогла зарабатывать по 20$ в час. Это помогло ей в период безденежья. Через два года, когда муж нашел новую работу, Кристи поступила в университет.

Она говорит, что больше не хочет повторять такой опыт.

Скандалы в прессе

Время от времени с Amazon случаются скандалы. Это не удивительно, ведь основатель компании Джефф Безос – самый богатый человек планеты.

Издание TechRepublic недавно рассказало, что полмиллиона людей получают копейки за обучение искусственного интеллекта, хотя по закону ни один работник в США не может зарабатывать меньше 7.25 $ в час. Но компания Amazon нашла кучу лазеек, чтобы обойти это ограничение.

Про скандал вскоре забыли – брат любовницы бизнесмена выложил в сеть его интимные фотографии.

Масштаб решаемых задач

Google открыл общий доступ к бесплатному набору данных для машинного зрения Open Images из 9 млн фотографий и репозиторию YouTube-8M из 8 млн видео. Чтобы отсортировать и пометить миллиард изображений и столько же роликов, потребовалось два года.

50 тысяч разметчиков данных для проекта были наняты через Mechanical Turk.

Ученые из Оксфордского университета считают, что это платформа контролирует примерно 7–10% мирового рынка онлайн-занятости – всех работающих удаленно. Доход «механического турка» за 2018 год – 1 млрд долларов.

< class="readblogmore" data-img="/upload/img/16-07-2019/1/readblogmore2.jpg"> «Маркетинговые» нейросети пришли в лингвистику и сочинение текстовой рекламы

Платформа «Яндекс.Толока»

В России тогда же появилась своя краудсорсинговая платформа «Яндекс.Толока», которая обеспечивала разметку данных для основных сервисов «Яндекса» и десятка проектов поменьше.

Особенности российского «турка»

«Толока», если не вдаваться в технические детали, мало чем отличается от американского «механического турка» – разве что поменьше масштаб и никакой иронии в названии. Все почти как на Amazon:

Заказчик – одна из команд «Яндекса» или внешний, размещает в системе несложное задание.
Исполнитель – любой человек, прошедший регистрацию и короткое обучение, получает доступ к опубликованным заданиям и выполняет работу за небольшую плату.

Считается, что для работы в «Толоке» не нужны специальные знания. Но может потребоваться установить мобильное приложение.

Сколько можно заработать

«Яндекс», как и Amazon, осторожен в рекламе и никогда не позиционировал краудсорсинг, как основной заработок. По словам создателей, «Толока» – это, первую очередь, добровольная помощь. Можно поучаствовать в свободное время, а за это еще и заплатят.

Возможно, но почему-то всех, особенно в провинции, интересует именно цена вопроса.

В отличие от «механического турка», истории успеха и пруфы со скриншотами от богатых толокеров – большая редкость. Скорее всего, у людей просто не хватает времени.

Общий доход 51.01 $, но непонятно за какой срок

Да, и конечно же «Толоку» не забывают «эксперты» по различным способам «быстрого заработка в интернете без вложений», особенно на сайтах отзывов – куда же без них. Большинство признает, что «работа очень легкая, платят в целом хорошо, но заработок небольшой».

История Ильи Михайленко

На презентации алгоритма «Королев» в августе 2017 года, символическим кубком-ракетой наградили 24-летнего жителя Челябинска Илью Михаленко – лучшего толокера «Яндекса» с самый высоким рейтингом.

Интервью Ильи Михайленко – лучшего толокера «Яндекса»

Парень, как он сам рассказал в интервью, занимается этим уже два года, использует несколько активных аккаунтов и стабильно зарабатывает «примерно среднюю зарплату в регионе». Сначала Илья совмещал разметку данных с работой в одном из местных SEO-агентств, но вскоре бросил продвижение и ушел в «Толоку» на полный день.

А что? Это мысль.

Краудсорсинг – это большой бизнес

Краудсорсинг, как оказалось, не только способ решить кадровые проблемы создателей ИИ, но и весьма выгодный бизнес. На фоне успеха «Механического турка» или «Толоки», другие не так заметны. Вот несколько известных игроков:

Платформа «Кликворкер»

Создана в 2005 году компанией Humangrid GmbH, с 2013 года Clickworker GmbH. Кроме разметки данных для ИИ, здесь можно заказать описания для товаров, платные опросы, ручной анализ настроений в соцсетях и переводы текстов носителями языка.

На Clickworker, по данным 2018 года, работает более миллиона исполнителей из 150 стран. Кроме сайта, можно использовать мобильные приложения для IOS и Android.

Компания «Восьмая фигура»

«Восьмая фигура» (в прошлом Dolores Lab, CrowdFlower) – основанная в 2007 году венчурная компания из Сан-Франциско с капиталом 58 млн долларов. Услугами Figure Eight часто пользуются Autodesk, Google, Facebook*, Twitter, Cisco Systems, GitHub, Mozilla, VMware, eBay, Etsy, Toyota и American Express.

Компания стала известна, после того как в ее краудсорсинговых проектах были трудоустроены тысячи сомалийских беженцев в Кении и людей, пострадавших от землетрясения на Гаити.

«Майкрософт» UHRS

В Microsoft выбрали немного другой путь – не открытую, как у Amazon или «Яндекс», а внутреннюю платформу. Она называется Universal Human Relevance System – UHRS и доступна в двадцати странах, включая Россию.

В сущности, UHRS – такой же краудсорсинг, как «Механический турок» или «Толока», но только для внутренних нужд Microsoft. Из отличий, есть тест по английскому и довольно сложное квалификационное задание, без которого не допустят к работе.

Платформа обрабатывает около 30 млн задач в месяц по разметке данных для поисковика Bing и других проектов Microsoft. Чтобы начать работать, нужна учетная запись на «Кликворкере» – они выступают посредником, а потом можно заходить напрямую, с помощью LiveID.

Что-то здесь не так

Да, я люблю фантастику. Книжки про то, как проморгали, что-то пошло не так и все почти пропало – об ошибках генной инженерии, вырвавшихся на волю вирусах, злобных мутантах и мыслящих компьютерах, которые захватят планету.

Люди хотят быть счастливыми

Пару лет назад на платформе «Коворкер» появилась петиция генеральному директору Microsoft, господину Сатья Наделла. Авторы потребовали справедливого обращения с работниками UHRS.

Главная мысль: «Просим прекратить относиться к нам, как к разовым работникам… Мы очень благодарны, но более счастливые работники означают более качественное выполнение работ и быструю отдачу».

Получается, что не очень счастливы?

< class="readblogmore" data-img="/upload/img/16-07-2019/1/readblogmore3.jpg"> Как нейросети меняют мир маркетинга и почему стоит об этом подумать

Можно работать прямо из дома, сидя в кафе или в баре, да хоть в притоне – где-нибудь в пригороде Манилы. Никто не спрашивает диплома, не тратятся годы на образование – трудись, когда есть время и желание, нет никаких жестких обязательств. Отличный путь выбраться из нищеты, для которого не нужны социальные навыки, образование или переезд в другую страну – только интернет и компьютер.

Люди хотят уверенности, которую дает постоянная работа.

Нет социального контракта

Краудсорсинг – не единственный способ обучать искусственный интеллект, но это эффективно. Пока выпускаешь чайники где-нибудь на заводе в Подмосковье, все идет по правилам – рабочие, конструкторы, управленцы, специалисты по логистике и маркетингу живут и работают по соседству. Это ограничивает свободу.

Делать разметку данных для «Яндекса» можно где угодно – за Уралом, на Чукотке, в Киргизии или Таджикистане, лишь бы понимали по-русски. У этого производства нет географической привязки, нет государственных границ – оно везде, где есть рабочая сила. Так ниже затраты, выше эффективность и меньше заботят локальные проблемы. И не так важно, что творится в каком-нибудь отдельном городе, области или в стране – главное, чтобы не мешали.

Общество дает бизнесу устойчивую экосистему, в которой он богатеет, а в ответ помогает людям жить лучше. Эти отношения называются «социальный контракт». Все общественные блага – дороги, линии электропередач и другие классные вещи, включая полицию, ограничение коррупции, стабильность и социальный порядок, используются для развития производства. А главное, работаем мы сами – культурные, образованные и квалифицированных люди.

В обмен на социальные блага, бизнес участвует в общественной жизни. Производители заинтересованы, поддерживают и развивают всю социальную экосистему, а не только платит налоги.

А если перевести всю работу в Нигерию, Пакистан, Индию или Камбоджу – туда, где у бизнеса нет и никогда не было социального контракта?

Там не нужно строить заводы, дороги, школы и больницы – это чужая территория, чужое общество и вообще чужие проблемы. Все что требуется – вовремя заплатить работникам. Социальные блага, которых в Бангладеш и так маловато, скоро закончатся, а остальное сделает коррупция. И нет гарантии, что искусственный интеллект поможет.

Но где мы, а где Бангладеш?

Нет, это грозит нам. Если ничего не менять, появится еще больше виртуальных мигрантов – новые миллионы рабов искусственного интеллекта, с нищенской оплатой труда, плохим образованием и своей, совсем не такой как у нас, культурой.

Так принято – в Европе, у нас или в Штатах, что все переселенцы обязаны на новом месте принять законы, этические нормы и традиции и научиться с ними жить. Это тоже часть социального контракта, которого нет у виртуальных мигрантов. И не факт, что мы сумеем договориться.