С исследованиями/отчетами, как правило, проблем нет – везде указан месяц и год. Легко узнать дату публикации, когда она указана на самой странице, предусмотрена функционалом сайта.
Другое дело, если нигде не указано, когда страница была создана/обновлена. Разбираемся, как тогда можно узнать дату/возраст, на примере facebook.com/business/instagram/stories-ads
Технический анализ страницы
Сначала о способах проверки даты создания/републикации, которые работают на основе ответа сервера, HTML-кода или карты сайта. Дисклеймер: они работают, но без гарантий (сайт может переехать или обновить XML-файл, тогда дата обновится, но не будет соответствовать реальному возрасту информации).
«Site:» в Google и перебор дат. Если просто использовать этот оператор в поиске, то никакой даты у FB-страницы не видно (первый скриншот ниже иллюстрирует). Чудеса случаются, когда пользователь начинает перебирать отдельные периоды. Выбираем от 01.01.2018 по 01.01.2019, вуаля – получаем 28 сентября 2019 года.
Важно: эта дата не обязательно будет датой первого сканирования, как в случае с показателем «Яндекса» (о нем позже). Google может устанавливать новые цифры, когда заметит обновление страницы. В блоге вебмастеров сообщается, что система определяет дату, опираясь на множество факторов. Включая данные, указанные на странице и предоставленные через разметку, но не ограничиваясь ими.
Дата из sitemap. Это специальный файл – карта сайта, список ссылок для поисковых систем. По нему можно также подсмотреть дату. Но в нашем случае поисковик ничего не находит через «site:» и «filetype:xml».
Важно: sitemap генерируется автоматически, то есть <lastmod> может не соответствовать реальному возрасту страницы.
«Информация о странице» в Firefox. В нашем случае в метатегах ничего нет, а «Последнее изменение» показывает «дату и время, когда, по мнению удаленного сервера, запрашиваемый ресурс был изменен». Весь ресурс, не обязательно этот раздел на сайте. Следовательно, для таких больших сайтов как Facebook дата/время последнего изменения будут почти всегда равняться дате/времени вашего посещения.
Дата публикации картинок. Не везде картинки открыты для индексации или включают в URL день загрузки. К тому же на странице может быть контент с других разделов или даже сайтов, в таком случае данные совсем бесполезные.
И вот сохраненная копия страниц – откровенно плохой метод проверки даты публикации. Потому что в Google, например, страница сохраняется, когда ее в последний раз сканировал робот. То есть у больших посещаемых сайтов эта дата ненамного будет отличаться от сегодняшней. В «Яндексе» так вообще может быть устаревшая копия, не соответствующая проиндексированной странице.
Аналитика «следов», истории страницы
Теперь о методах, опирающихся на «следы», которые страница оставляет в интернете. Как правило, они менее точные, но более надежные.
Первое сканирование Wayback Machine. Это сервис некоммерческой организации «Архив Интернета» (web.archive.org), который собирает копии веб-страниц. Само собой, он не обходит сайты каждый день, поэтому таким образом можно узнать дату публикации только примерно. Но в некоторых ситуациях даже плюс-минус несколько месяцев не имеют существенного значения.
Дата первой индексации в «Яндексе». Когда отечественный поисковик впервые посетил страницу, можно узнать через тест «Яндекс.XML». В поле «& query =» надо прописать «url:site.ru/page». В теге <modtime> мы увидим нужную дату в формате ГГГГДДММ.
Если сервис ругается на IP-адрес, меняем его в настройках. А для тех, кто не дружит с «Яндекс.XML», проверить индексацию можно с помощью бесплатных инструментов Pixel Tools или Be1.
Кстати, этим методом можно проверять даже дату создания страницы в VK. Правда, информация будет неточной, если пользователь менял адрес. Чтобы определить точный возраст страницы, нужно открыть исходный код https://vk.com/foaf.php?id=1111111, где вместо единиц надо поставить искомый ID «ВКонтакте». Дата будет записана в теге с «created»:
Комментарии на странице. Если есть комментарии, хорошо – у них есть даты. Также по содержанию сообщений и всплескам активности можно предположить, сколько раз статья обновлялась. Минус, конечно, в том, что не везде есть комментарии даже под статьями.
Ссылки на страницу. Суть способа: перейти на ссылающиеся материалы, а там уже поискать даты (вышеперечисленными методами) и постараться верифицировать информацию (если она цитируется в тексте). Конечно, ссылки могут говорить о возрасте и актуальности данных только косвенно. В нашем случае этот вариант никак не помог.
Что в итоге
Нет идеального способа проверки даты, но можно комбинировать их – в комплексе все усиливается.
На примере со страницей FB получилось, что дата Google наиболее ранняя и правдивая, хотя с «Яндексом» разница всего неделя. (В нашем случае это не особо критично.) Предполагаем теперь, что статистика по Instagram Stories, которая нам интересна, тоже от сентября–октября 2018 года.
Кажется, что Wayback Machine бесполезен, так как, по сути, занизил возраст страницы? Но нет – с помощью этого инструмента мы можем точно узнать, не менялась ли с тех пор информация:
- Открываем скриншот Архива от 16 декабря 2018 – видим какую-то дичь с версткой и все почему-то на немецком.
- Это не должно нас останавливать – открываем «Просмотр кода страницы» (Ctrl + U) и ищем там цифры, актуальность которых нас интересует.
- Видим эти самые 50 и 96 % – значит наша гипотеза оказалась верна.
Ищете исполнителей с таким же скрупулезным подходом к цифрам, фактам, качеству? TexTerra предлагает создание и распространение контента на разовой и ежемесячной основе, а также в рамках комплексного продвижения.
Еще по теме: