За последние годы в открытом доступе накопилось столько данных, что понадобились специалисты, которые смогли бы из этого массива извлечь полезную информацию и представить ее в удобном виде. Этих специалистов стали называть дата-журналистами, а их направление работы – журналистикой данных. Разбираемся, что это такое и зачем нужно.
Что такое журналистика данных
Любой журналистский материал должен опираться на факты и доказательства: официальную статистику, финансовые отчеты, исследования, законодательство. Иначе он превратится в личное суждение автора, которое можно оспорить. Пользы от такого материала не будет.
Тем не менее, людей больше интересует не сам факт, а объяснение его значимости – как определенное событие повлияет на их жизнь. Они не хотят читать «сухие» отчеты госорганов, сравнивать прибыль компаний и самостоятельно разбираться в строительных нормативах. Аудитории нужен материал, где информация структурирована и написана на понятном языке. Для этого и существует data-журналистика.
Неважно, работает специалист с тысячами документов или с 20-30 источниками – любая работа с информацией считается журналистикой данных. А вот под журналистикой больших данных уже понимают обработку серьезных массивов информации.
Главное отличие от классической журналистики здесь в навыках, которые нужны специалисту, чтобы работать с большим объемом данных. Для сбора информации из тысяч документов потребуется знание языка программирования. Для сбора результатов в увлекательной форме без специальных сервисов тоже не обойтись.
Провести четкую границу между дата-журналистикой и классической журналистикой довольно сложно. Это не отдельная профессия, а набор дополнительных навыков для работы с данными. С развитием технологий ее выделили как отдельное направление, хотя по факту этим занимались и раньше, просто без автоматизации.
Обычно к сбору информации журналисты приступают, когда уже известна тема материала. Есть и обратный вариант, когда интересная идея рождается при изучении данных. Например, зная статистику по ДТП, можно сделать интерактивную карту города с обозначением наиболее аварийных участков дороги.
Само понятие «data-журналистика» как отдельное направление возникло в 2010 году на международной конференции в Амстердаме.
Издания работали с массивами данных и раньше. Например, британская газета Guardian еще в 1821 году опубликовала список школ в Манчестере, собранный по количеству учеников и стоимости обучения. Журналисты хотели определить, сколько детей получают бесплатное образование. Для этого опросили более 10 тыс. человек, а полученные результаты представили в формате таблицы.
Журналистикой данных занимаются не только новостные СМИ, но и редакции отраслевых журналов, корпоративных блогов, исследовательских бюро. В крупных изданиях над проектом работает целая команда data-журналистов. В компаниях поменьше сбором, анализом и визуализацией данных часто занимается 1 специалист.
Поясню на примере. Вы готовите материал на тему «10 самых посещаемых блогов рунета». Чтобы рейтинг был объективными, нужно собрать данные о посещаемости сайтов за определенный период. Затем их нужно проанализировать: отсечь переходы по контекстной рекламе, нецелевой трафик. Вам предстоит изучить аналитику по сотням сайтов, а результат свести в единую таблицу. Это простой пример. Есть сложнее.
Например, некое издание готовит материал про бизнес на Дальнем Востоке.
Во-первых, журналисту предстоит изучить направления для инвестиций с показателями, влияющими на прибыль.
Во-вторых, привести рынки сбыта продукции.
В-третьих, представить налоги, административные барьеры и программы господдержки бизнеса.
Не лишним будет еще показать успешные и провальные проекты, поговорив с предпринимателями.
Такой материал потребует изучения огромного массива данных: законов, статистики Росстата, географии, отчетов компаний, новостных сводок и многое другое. И все это задача дата-журналиста.
Спецпроект агентства «РИА Новости» про создание бизнеса на Дальнем Востоке
Что такое данные в журналистике
Под данными понимается любая исходная информация для журналистского материала: статистика Росстата, отчеты государственных органов, видеофайлы, показатели сервисов онлайн-аналитики, результаты опросов, финансовые отчеты компаний. С каждым днем данных становится все больше.
Данные – такой же источник информации для журналиста, как, например, интервью. Возможно, даже более ценный, чем любой другой вид экспертного контента.
Задача дата-журналистики – преобразовать данные в доступную для широкой аудитории информацию: обработать, обобщить и проинтерпретировать.
- Данные могут достаться журналисту уже готовыми. Компания SEMrush, например, использует данные о поведении интернет-пользователей, чтобы регулярно питчить журналистов. В результате чего получает по 6 тыс. контролируемых медиаупоминаний в год.
Онлайн-лекция Pressfeed и SEMrush об использовании приемов дата-журналистики
- Журналист может собрать данные самостоятельно. Например, вручную посчитав упоминания, заполнив таблицу на основе наблюдений и опросов и т.п.
- Есть данные, которые можно получить только с помощью IT. Если необходимо выгрузить информацию из соцсетей или собрать данные с сайтов, нужно писать автоматизированные запросы.
Данные – это вообще все. В дата-журналистике мы просто анализируем одинаковые свойства объектов и делаем какие-то выводы.
Например, есть джинсы. У джинсов есть карманы. Мы можем измерить их размеры и выпустить материал о том, что в женских джинсах карманы меньше, чем в мужских. Или, допустим, есть тексты. В текстах есть слова, и можно сравнить, сколько раз эти слова употреблялись в текстах. Например, Dekoder посчитали, как часто говорили на какие-то темы наши президенты.
Или гораздо более прозаично: можно взять в Росстате табличку с количеством транспортных средств России и узнать, как изменилось количество каждого из их видов. Правда, перед тем, как данные попали в табличку на Росстате, кто-то это все считал. Например, компании, которые продают автомобили, сложили все свои продажи, отправили в Росстат, а потом местные аналитики это все суммировали.
Объектов, которые мы будем анализировать, может быть вообще немного. Крайне некорректно говорить, что дата-журналисты работают с большими данными. В редких случаях к нам в руки попадают наборы данных с миллионами объектов. Их может быть даже несколько десятков. РБК, например, анализировали жанры групп, выступающих на митингах. Там чуть больше 20 концертов.
Данные могут быть числовыми, категориальными (это текстовые значения – мужчины и женщины, названия стран), логическими (есть ли в регионе губернатор, есть ли в школе компьютерный класс) или географическими (координаты объектов), а также датой и временем.
Порядок работы дата-журналиста над материалом выглядит следующим образом:
- сбор данных;
- их обработка и анализ;
- визуализация;
- публикация.
Вот примеры того, как выглядит готовый материал data-журналистов в российских и зарубежных изданиях.
Газета Financial Times посчитала количество погибших от COVID-19 в Великобритании за первые месяцы пандемии. Для этого журналисты изучили десятки тысяч медицинских заключений о причине смерти больных
«РБК» опубликовал рейтинг городов России по комфорту и доступности жилья. Журналисты сравнили статистику Росстата по средней зарплате, стоимости квартир, цене на бензин, количеству экологических катастроф и другим показателям за 2020 год
Один из спецпроектов «РИА Новости» посвящен производству и потреблению лапши быстрого приготовления. Авторы получили комментарии экспертов, собрали данные «Всемирной ассоциации лапши быстрого приготовления» и отчеты исследований, опросили людей
«Т–Ж» выявил основные причины разводов в России на основании официальной статистики и мнений специалистов
Исследование «Текстерры» об отношении россиян к нетрадиционной рекламе. Мы опросили 602 человека по всей России, а результаты представили в виде наглядных графиков
Сбор и анализ данных
В России действует закон об открытости данных: все государственные службы должны размещать свои отчеты в открытом доступе. Речь идет не только о налоговых декларациях чиновников. В свободном доступе находятся все реестры, указы, распределение бюджета, результаты анализов городской воды, тарифы на услуги ЖКХ и многое другое. Любой человек может узнать, например, сколько объектов недвижимости построила та или иная организация за последний год.
Вот некоторые источники данных госорганов:
- Росстат;
- госзакупки;
- ГИБДД;
- сведения о жилом фонде на сайте «Реформа ЖКХ»;
- статистика Минздрава;
- данные таможенной службы;
- данные Минкульта.
В крупных городах открытые данные загружены на специальные порталы. Такие порталы есть, например, в Москве и Екатеринбурге. Кроме этого, «Яндекс» собрал перечень полезных ресурсов для работы с данными.
Среди прочих источников данных – соцсети, поисковые запросы, сервисы интернет-аналитики, видеозаписи, опросы, анализ хештегов, комментарии. Массу интересного можно узнать, если проанализировать судебные решения.
Увы, не все данные находятся в открытом доступе или в машиночитаемом формате. Для некоторых проектов нужно знать язык программирования. Например, Python или JavaScript.
Данные можно получать по-разному. Есть открытые данные – это машиночитаемые датасеты. По сути, таблички, которые можно сразу использовать в анализе. Есть статистика, над расшифровкой которой приходится работать. Например, фотографии или сканы документов. Иногда данные можно запрашивать у компаний и государственных органов. Иногда – получать с каких-то сайтов при помощи скрейпинга или API.
Если у сайта есть API, программисты могут написать запросы определенной формы, чтобы получить с него данные. Например, API есть у социальной сети «ВКонтакте», и можно написать код, который выгрузит все сообщения, в которых содержится слово «собака», и которые были опубликованы в марте 2020 года. Далеко не все API бесплатны, а еще всегда ограничены по числу запросов. Не стоит питать иллюзий, что вы легко выгрузите всю социальную сеть, но сотни тысяч сообщений – вполне.
Если API нет, то сайты еще можно скрейпить. Для этого нужно написать скрипт, который будет заходить на каждую страницу сайта, как это делали бы вы, и забирать оттуда необходимую информацию. Слишком «подозрительные» скрипты сайты могут забанить, поэтому процесс скрейпинга обычно занимает часы и даже дни.
После сбора данных нужно провести их обработку и анализ. Например, из общей статистики налоговой службы выбрать только данные по конкретному региону или виду деятельности. Это удобно сделать с помощью обычных офисных редакторов.
В начале «нулевых» годов от журналистов ожидалось максимум умений: создание медиатекста, разработка дизайна, программирование и т.д. Сейчас, с усложнением технологий, я вижу это как тупиковый путь развития, поскольку невозможно одинаково хорошо делать всю работу. Многие СМИ постепенно переходят от штатной организации работы к проектной, когда часть задач передается фрилансерам – специалистам в определенной области. К примеру, графическим дизайнерам.
Для дата-журналистики самым передовым опытом является использование искусственного интеллекта, который может обрабатывать значительные массивы информации, находить в них закономерности, перепроверять результаты и т.д. Сегодня ряд западных СМИ, например, Associated Press, отдали на откуп ИИ создание около 20 % всех своих медиатекстов.
Однако, ИИ – это нечто большее, чем просто программирование. Здесь нужны специалисты по коммуникации между всеми участниками процесса. Именно эту роль «переводчиков» и должны взять на себя журналисты. Они должны понимать, что нужно их читателям / зрителям, и чего хочет редакция. При это, чтобы говорить на одном языке с разработчиками ИИ, без знания современных IT-технологий не обойтись.
Визуализация данных
Визуализация – наглядное представление данных в удобном для читателя виде. Она должна быть понятна любому человеку, который впервые ее увидел. С помощью визуализации читатель сможет сразу извлечь нужную информацию, не вдаваясь в расчеты, сравнение показателей, анализ данных. Другими словами, визуализация в data-журналистике – это упаковка готового материала.
Вот некоторые способы визуализации:
- графики, диаграммы, гистограммы;
- инфографика;
- схемы;
- интерактивные карты;
- сторителлинг;
- 3D-визуализация;
- матрицы;
- дашборды;
- игры и тесты.
Спецпроект «РИА Новости» про источники питьевой воды в Москве. Инфографика воспринимается легче, чем лонгрид со скучными картинками
Публикация газеты «Аргументы и факты». Такая карта понятна любому читателю
Атлас газификации в России в спецпроекте «Новой Газеты»
Визуализацию можно сделать c помощью специальных программ: MS Excel, Google Data Studio, Tableau, Flourish, RawGraphs, Google Docs и другие. Некоторые дата-журналисты с нуля программируют визуализацию, используя JavaScript или Python.
Есть определенное количество наборов данных, с которыми можно работать без программирования, и выпускать на основе этой работы материалы. Но все-таки неумение программировать сильно сужает спектр возможностей: не получится работать с большими объемами данных, делать анализ текстов. Не всякий сайт можно скрейпить без программирования.
В общем, желательно, чтобы в команде был хотя бы один человек, который умеет кодить. Если такой человек есть, остальные могут обойтись без программирования.
Например, платформа Tableau позволяет работать с большим объемом данных, представляя результат в интерактивном формате. Данные собираются с облачных или файловых систем. Над одним проектом могут работать сразу несколько специалистов.
Где учиться на дата-журналиста
По мнению «РБК», профессия data-журналиста входит в топ самых востребованных в ближайшие годы. При этом в государственных вузах специальных программ по дата-журналистике нет. В НИУ «Высшая школа экономики» есть магистерская программа продолжительностью 2 года. О том, как работать с данными для материала, частично учат на журфаке.
Кроме вузов получить профессию дата-журналиста можно в онлайн-школах, хотя и здесь найти подходящий курс будет непросто. Они есть, например, в «Нетологии» и «Стрелке».
Раньше, когда информация была в дефиците, она ценилась сама по себе. Сейчас информации, наоборот, слишком много, поэтому ценится умение правильно ее анализировать, структурировать и представлять аудитории.
Потенциал для создания материалов, основанных на данных, практически неограничен. Поэтому очень нужны люди, которые умеют с этим работать: разбираются в методах обработки и анализа, программировании и графическом дизайне. Надо или журналистов учить работать с данными, или искать специалистов по данным, которые умеют рассказывать истории. И то, и другое – задачи не из легких.
Специалисты по работе с данными (они же «сенсмейкеры», «визуальные аналитики», «инфомейкеры») нужны не только в СМИ, но и в других сферах. В производстве дата-контента заинтересованы госструктуры, вузы, финансовый сектор, рекламные и маркетинговые агентства и т.д. Каждый бизнес располагает огромным объемом данных. Важно уметь эти данные извлекать. В России на профессиональном рынке таких специалистов очень мало. Зайти в эту профессию сейчас очень просто: можно «сделать имя», пока конкуренции практически нет.
Дата-журналистика – это в первую очередь набор навыков, а не отдельная профессия. От классической журналистики она принципиально отличается тем, что работа над материалом опирается не на отдельные документы, а на большие массивы информации.
В мире каждую секунду генерируется огромное количество информации. Если раньше журналисту достаточно было изучить 2-3 источника, то теперь их могут быть тысячи. Чтобы обрабатывать эти массивы, журналист должен владеть специальными инструментами (как минимум, Microsoft Excel и Python). Также ему нужно уметь использовать различные средства визуализации – графические редакторы и программы для создания анимации. Для их освоения придется потратить десятки, если не сотни часов.