Оказывается, почти треть людей, делающих поисковики, голосовых помощников типа «Алисы», Cortana или Siri, роботов Boston Dynamics, беспилотные автомобили и другие умные штуки – незаметная прислуга, о которой не принято вспоминать.
Это не программисты из Google, Amazon или «Яндекса» – под капотом ИИ вкалывают простые люди из Индии, Пакистана, Кении и других непроцветающих стран. Конечно, среди них есть и европейцы, и американцы, и наши соотечественники, но их намного меньше.
Миллионы виртуальных гастарбайтеров работают на конвейере подготовки данных без образования, за зарплату два-три доллара в день.
Зачем нужны все эти люди
Сейчас не нужно писать тысячи строчек кода – есть много готовых библиотек и программы собирают из них, как из кубиков. Сложность в том, что каждый новый алгоритм для ИИ сначала нужно обучить. Логика его работы не похожа на обычные вычисления, а скорее напоминает действия человека.
К примеру, если требуется решить, сколько будет дважды два, нейронная сеть сначала должна узнать, что думают по этому поводу люди. Нужен не один, а сотни или тысячи ответов (часть из которых может быть неверными) – за истину принимается самый популярный. Он и будет использоваться в дальнейшем. Здесь главное не точность, а чтобы было из чего выбирать.
Вместо того, чтобы как арифмометр складывать нули и единицы, ИИ получает примеры того, как нужно, а дальше разбирается сам. Путь не из легких, но только так решают задачи, требующие мышления: распознавание изображений, анализ живого голоса или разбор текстов на естественном языке. Годятся и простые алгоритмы, но это медленно и не так эффективно.
В этом нет магии, но есть серьезная проблема с наборами структурированных данных. Чтобы обучить алгоритм и заставить решать какую-нибудь реальную проблему, нужно «скормить» ему сведения о сотнях тысяч или миллионах разных, но похожих вещей.
Например, для создания программы по уходу за коровами на ферме, в нейронную сеть придется загружать все их фото и записи с мычанием. Ну а если вы собрались фильтровать спам – постарайтесь не забыть про нигерийские письма.
Все это богатство нужно сначала приготовить: найти всех ваших коров на фотографиях и обвести по контуру чем-нибудь ярким – чтобы алгоритм понимал, где проходит их граница с фоном. А фразы со смыслом «срочно помогите получить миллион долларов» – отметить маркером или вроде того.
Без предварительной подготовки – разметки, данные мало кому интересны, кроме вас. Компьютер сам этого не умеет, ему нужны люди.
Армия бесплатных помощников
Когда кто-нибудь хочет отгадать капчу, ему предлагают найти на фотографиях десяток-другой перекрестков, светофоров или витрин. Для вас это дело 10 секунд, а Google в это время тренирует свой искусственный интеллект.
Так происходит не только со спамерами. Отмечая какое-нибудь интересное место на карте, оставляя лайк или негативный отзыв, разговаривая с голосовым помощником или просто переходя по ссылке, люди обучают алгоритмы.
Мы – армия добровольных помощников, помогающих создавать искусственный интеллект.
Как используют наши данные и что с ними происходит на самом деле, точно неизвестно – «корпорация добра» не любит делиться такими деталями. Интересующимся объясняют, как работает машинное обучение, почему без него не обойтись, но это немного о другом. В Google даже придумали слоган: «Если не получилось с первого раза – попробуйте еще миллион». Намекают, что нам всем придется потрудиться.
Что будет, если оставить искусственный интеллект без присмотра?Когда не хватает простых людей и нужны специальные знания, к разметке привлекают специалистов, не всегда ученых – важнее экспертность. К примеру, в создании программы для диагностики рака помогали врачи-радиологи, а игрового бота Open AI Five натаскивали школьники. Но не обычные подростки, а чемпионы по Dota 2.
Механический турок Amazon
Хорошо, когда есть добровольцы, но не всем интересно искать спам, обводить коров на фото или делать что-нибудь еще, тем более бесплатно. Чтобы решить вопрос с кадрами для разметки данных, компания Amazon десять лет назад запустила краудсорсинговую платформу Mechanical Turk.
Название не без иронии. В 1770 году некий Вольфганг фон Кемпелен – изобретатель из Австрии, создал шахматный автомат в виде раскрашенной деревянной фигуры. Маэстро гастролировал по Европе и его «механический турок» обыграл многих известных людей, в том числе Бенджамина Франклина и короля Фридриха II.
Считают, что в ящике находился живой гроссмейстер. Но не факт – первая из мистификаций искусственного интеллекта до сих пор не раскрыта.
Что же там внутри
«Механический турок» Amazon не играет в шахматы. Платформа связывает заказчиков, которым нужны данные для машинного обучения, с исполнителями – обычными людьми, получающими за это скромную оплату.
Все устроено так, что работа разбивается на маленькие простые задачи, которые может решить любой человек. Они жестко формализованы, содержат понятные инструкции и называются Human Intelligence Task (сокр. HITs). Например:
- разделить произвольные данные на категории;
- найти и отметить объекты на фото или видео;
- определить интонацию голосовых сообщений;
- распознавать рукописные символы;
- провести смысловой анализ текстов или изображений;
- выбрать нежелательный контент, порнографию, спам.
Время выполнения ограничено, оплата сдельная – за каждый выполненный HIT начисляется несколько центов, иногда чуть больше. Исполнитель всегда обезличен – если нужно, заказчик может к нему обратиться, но не по имени, а по идентификатору в системе.
Сколько платят
Считается, что туркеры неплохо зарабатывают. За самые простые задания, которые не связаны с машинным обучением, платят от нескольких центов до доллара. Разметка данных, которая требует больше опыта, стоит дороже.
Никто не обманет – если делать все по инструкции, работу принимают быстро и платить не отказываются. Все финансовые потоки контролирует Amazon, деньги перечисляют на банковский счет в любой стране. Различие между гражданами США, России или Мозамбика в том, что американцу придется заплатить налог, а остальным – как повезет.
Чтобы выполнять дорогие заказы, нужна квалификация, которую не так-то просто получить, но легко потерять – достаточно нарушить какую-нибудь из инструкций. Интересные задания обычно нарасхват, а оставшиеся – скучные и не такие выгодные.
Но главное лукавство в том, что работа выполняется медленнее, чем планируешь. Потому что не успеть, например, определить за минуту, какой из двух текстов логически следует из третьего. Чтобы все прочесть, осмыслить и принять решение, нужно время. Вроде бы несложно, но набить руку тоже не выйдет – мало одинаковых хитов.
Точно сказать, сколько можно заработать – сложно. Журналисты из агентства Pew Research утверждают, что 50 % туркеров получают от 3 до 5 долларов в час, а изредка бывают пруфы с суммами 500–700 $ в месяц.
Чаще встречается информация, что доллар в час – неплохой результат, особенно для начала.
История Кристи Милланд
Это история успеха женщины, которая творчески подошла к работе. Кристи Милланд из США применяла макросы для сортировки картинок. Например, кнопкой «п» она отправляла фото с попугаем в категорию «птицы», а «ж» – в группу «желтые».
Женщина получала по 0.03 $ за каждую картинку и смогла зарабатывать по 20 $ в час. Это помогло ей в период безденежья. Через два года, когда муж нашел новую работу, Кристи поступила в университет.
Она говорит, что больше не хочет повторять такой опыт.
Скандалы в прессе
Время от времени с Amazon случаются скандалы. Это не удивительно, ведь основатель компании Джефф Безос – самый богатый человек планеты.
Издание TechRepublic недавно рассказало, что полмиллиона людей получают копейки за обучение искусственного интеллекта, хотя по закону ни один работник в США не может зарабатывать меньше 7.25 $ в час. Но компания Amazon нашла кучу лазеек, чтобы обойти это ограничение.
Про скандал вскоре забыли – брат любовницы бизнесмена выложил в сеть его интимные фотографии.
Масштаб решаемых задач
В 2016 году Google открыл общий доступ к бесплатному набору данных для машинного зрения Open Images из 9 млн фотографий и репозиторию YouTube-8M из 8 млн видео. Чтобы отсортировать и пометить миллиард изображений и столько же роликов, потребовалось два года.
50 тысяч разметчиков данных для проекта были наняты через Mechanical Turk.
Ученые из Оксфордского университета считают, что это платформа контролирует примерно 7–10 % мирового рынка онлайн-занятости – всех работающих удаленно. Доход «механического турка» за 2018 год – 1 млрд долларов.
«Маркетинговые» нейросети пришли в лингвистику и сочинение текстовой рекламыПлатформа «Яндекс.Толока»
В 2014 году в России тоже появилась своя краудсорсинговая платформа «Яндекс.Толока», которая обеспечивает разметку данных для основных сервисов «Яндекса» и десятка проектов поменьше.
Особенности российского «турка»
«Толока», если не вдаваться в технические детали, мало чем отличается от американского «механического турка» – разве что поменьше масштаб и никакой иронии в названии. Все почти как на Amazon:
- Заказчик – одна из команд «Яндекса» или внешний, размещает в системе несложное задание.
- Исполнитель – любой человек, прошедший регистрацию и короткое обучение, получает доступ к опубликованным заданиям и выполняет работу за небольшую плату.
Считается, что для работы в «Толоке» не нужны специальные знания. Но может потребоваться установить мобильное приложение.
Сколько можно заработать
«Яндекс», как и Amazon, осторожен в рекламе и никогда не позиционировал краудсорсинг, как основной заработок. По словам создателей, «Толока» – это, первую очередь, добровольная помощь. Можно поучаствовать в свободное время, а за это еще и заплатят.
Возможно, но почему-то всех, особенно в провинции, интересует именно цена вопроса.
В отличие от «механического турка», истории успеха и пруфы со скриншотами от богатых толокеров – большая редкость. Скорее всего, у людей просто не хватает времени.
Да, и конечно же «Толоку» не забывают «эксперты» по различным способам «быстрого заработка в интернете без вложений», особенно на сайтах отзывов – куда же без них. Большинство признает, что «работа очень легкая, платят в целом хорошо, но заработок небольшой».
История Ильи Михайленко
На презентации алгоритма «Королев» в августе 2017 года, символическим кубком-ракетой наградили 24-летнего жителя Челябинска Илью Михаленко – лучшего толокера «Яндекса» с самый высоким рейтингом.
Интервью Ильи Михайленко – лучшего толокера «Яндекса»
Парень, как он сам рассказал в интервью, занимается этим уже два года, использует несколько активных аккаунтов и стабильно зарабатывает «примерно среднюю зарплату в регионе». Сначала Илья совмещал разметку данных с работой в одном из местных SEO-агентств, но вскоре бросил продвижение и ушел в «Толоку» на полный день.
А что? Это мысль.
Краудсорсинг – это большой бизнес
Краудсорсинг, как оказалось, не только способ решить кадровые проблемы создателей ИИ, но и весьма выгодный бизнес. На фоне успеха «Механического турка» или «Толоки», другие не так заметны, но точно не бедствуют. Вот несколько известных игроков:
Платформа «Кликворкер»
Создана в 2005 году компанией Humangrid GmbH, с 2013 года Clickworker GmbH. Кроме разметки данных для ИИ, здесь можно заказать описания для товаров, платные опросы, ручной анализ настроений в соцсетях и переводы текстов носителями языка.
На Clickworker, по данным 2018 года, работает более миллиона исполнителей из 150 стран. Кроме сайта, можно использовать мобильные приложения для IOS и Android.
Компания «Восьмая фигура»
«Восьмая фигура» (в прошлом Dolores Lab, CrowdFlower) – основанная в 2007 году венчурная компания из Сан-Франциско с капиталом 58 млн долларов. Услугами Figure Eight часто пользуются Autodesk, Google, Facebook, Twitter, Cisco Systems, GitHub, Mozilla, VMware, eBay, Etsy, Toyota и American Express.
Компания стала известна, после того как в ее краудсорсинговых проектах были трудоустроены тысячи сомалийских беженцев в Кении и людей, пострадавших от землетрясения на Гаити.
«Майкрософт» UHRS
В Microsoft выбрали немного другой путь – не открытую, как у Amazon или «Яндекс», а внутреннюю платформу. Она называется Universal Human Relevance System – UHRS и доступна в двадцати странах, включая Россию.
В сущности, UHRS – такой же краудсорсинг, как «Механический турок» или «Толока», но только для внутренних нужд Microsoft. Из отличий, есть тест по английскому и довольно сложное квалификационное задание, без которого не допустят к работе.
Платформа обрабатывает около 30 млн задач в месяц по разметке данных для поисковика Bing и других проектов Microsoft. Чтобы начать работать, нужна учетная запись на «Кликворкере» – они выступают посредником, а потом можно заходить напрямую, с помощью LiveID.
Что-то здесь не так
Да, я люблю фантастику. Книжки про то, как проморгали, что-то пошло не так и все почти пропало – об ошибках генной инженерии, вырвавшихся на волю вирусах, злобных мутантах и мыслящих компьютерах, которые захватят планету.
Люди хотят быть счастливыми
Пару лет назад на платформе «Коворкер» появилась петиция генеральному директору Microsoft, господину Сатья Наделла. Авторы потребовали справедливого обращения с работниками UHRS.
Главная мысль: «Просим прекратить относиться к нам, как к разовым работникам… Мы очень благодарны, но более счастливые работники означают более качественное выполнение работ и быструю отдачу».
Получается, что не очень счастливы?
Как нейросети меняют мир маркетинга и почему стоит об этом подуматьМожно работать прямо из дома, сидя в кафе или в баре, да хоть в притоне – где-нибудь в пригороде Манилы. Никто не спрашивает диплома, не тратятся годы на образование – трудись, когда есть время и желание, нет никаких жестких обязательств. Отличный путь выбраться из нищеты, для которого не нужны социальные навыки, образование или переезд в другую страну – только интернет и компьютер.
Люди хотят уверенности, которую дает постоянная работа.
Нет социального контракта
Краудсорсинг – не единственный способ обучать искусственный интеллект, но это эффективно. Пока выпускаешь чайники где-нибудь на заводе в Подмосковье, все идет по правилам – рабочие, конструкторы, управленцы, специалисты по логистике и маркетингу живут и работают по соседству. Это ограничивает свободу.
Делать разметку данных для «Яндекса» можно где угодно – за Уралом, на Чукотке, в Киргизии или Таджикистане, лишь бы понимали по-русски. У этого производства нет географической привязки, нет государственных границ – оно везде, где есть рабочая сила. Так ниже затраты, выше эффективность и меньше заботят локальные проблемы. И не так важно, что творится в каком-нибудь отдельном городе, области или в стране – главное, чтобы не мешали.
Общество дает бизнесу устойчивую экосистему, в которой он богатеет, а в ответ помогает людям жить лучше. Эти отношения называются «социальный контракт». Все общественные блага – дороги, линии электропередач и другие классные вещи, включая полицию, ограничение коррупции, стабильность и социальный порядок, используются для развития производства. А главное, работаем мы сами – культурные, образованные и квалифицированных люди.
В обмен на социальные блага, бизнес участвует в общественной жизни. Производители заинтересованы, поддерживают и развивают всю социальную экосистему, а не только платит налоги.
А если перевести всю работу в Нигерию, Пакистан, Индию или Камбоджу – туда, где у бизнеса нет и никогда не было социального контракта?
Там не нужно строить заводы, дороги, школы и больницы – это чужая территория, чужое общество и вообще чужие проблемы. Все что требуется – вовремя заплатить работникам. Социальные блага, которых в Бангладеш и так маловато, скоро закончатся, а остальное сделает коррупция. И нет гарантии, что искусственный интеллект поможет.
Но где мы, а где Бангладеш?
Нет, это грозит нам. Если ничего не менять, появится еще больше виртуальных мигрантов – новые миллионы рабов искусственного интеллекта, с нищенской оплатой труда, плохим образованием и своей, совсем не такой как у нас, культурой.
Так принято – в Европе, у нас или в Штатах, что все переселенцы обязаны на новом месте принять законы, этические нормы и традиции и научиться с ними жить. Это тоже часть социального контракта, которого нет у виртуальных мигрантов. И не факт, что мы сумеем договориться.
Только хорошее образование поможет не зависеть от «Яндекса», Google и любых проблем, связанных с искусственным интеллектом. Чтобы получить перспективную профессию и спокойно смотреть в будущее, приходите на онлайн-курсы от TeachLine.