Рассылка по интернет-маркетингу:
Нажимая на кнопку, вы даете согласие на обработку своих персональных данных

Как узнать дату публикации / возраст веб-страницы, если нигде не написано

30 Ноября 2019 Редакция «Текстерры»
Время чтения: 6 минут Нет времени читать? Нет времени? 0 комментариев
Отправим материал вам на:
Нажимая на кнопку, вы даете согласие на обработку своих персональных данных
Как узнать дату публикации / возраст веб-страницы, если нигде не написано Редакция «Текстерры»
Редакция «Текстерры»

Когда редактор готовит статью к публикации, проверяет не только работоспособность и релевантность ссылок, но и актуальность информации на внешнем сайте.

С исследованиями/отчетами, как правило, проблем нет – везде указан месяц и год. Легко узнать дату публикации, когда она указана на самой странице, предусмотрена функционалом сайта.

Как в блоге TexTerra, например

Другое дело, если нигде не указано, когда страница была создана/обновлена. Разбираемся, как тогда можно узнать дату/возраст, на примере facebook.com/business/instagram/stories-ads

Редактор решил проверить актуальность этой информации, и понеслось

Технический анализ страницы

Сначала о способах проверки даты создания/републикации, которые работают на основе ответа сервера, HTML-кода или карты сайта. Дисклеймер: они работают, но без гарантий (сайт может переехать или обновить XML-файл, тогда дата обновится, но не будет соответствовать реальному возрасту информации).

«Site:» в Google и перебор дат. Если просто использовать этот оператор в поиске, то никакой даты у FB-страницы не видно (первый скриншот ниже иллюстрирует). Чудеса случаются, когда пользователь начинает перебирать отдельные периоды. Выбираем от 01.01.2018 по 01.01.2019, вуаля – получаем 28 сентября 2019 года.

Процесс «брутфорса» Google (вместо site: можно использовать allinurl: или даже вообще обойтись без операторов – просто вбить адрес в строку поиска)
Процесс «брутфорса» Google (вместо site: можно использовать allinurl: или даже вообще обойтись без операторов – просто вбить адрес в строку поиска)

Процесс «брутфорса» Google (вместо site: можно использовать allinurl: или даже вообще обойтись без операторов – просто вбить адрес в строку поиска)

Важно: эта дата не обязательно будет датой первого сканирования, как в случае с показателем «Яндекса» (о нем позже). Google может устанавливать новые цифры, когда заметит обновление страницы. В блоге вебмастеров сообщается, что система определяет дату, опираясь на множество факторов. Включая данные, указанные на странице и предоставленные через разметку, но не ограничиваясь ими.

Дата из Sitemap. Это специальный файл – карта сайта, список ссылок для поисковых систем. По нему можно также подсмотреть дату. Но в нашем случае поисковик ничего не находит через «site:» и «filetype:xml».

Не видно сайтмапов, такие дела
А у TexTerra, к примеру, XML-файлов очень много, замучаешься искать, где там день публикации

Важно: sitemap генерируется автоматически, то есть <lastmod> может не соответствовать реальному возрасту страницы.

«Информация о странице» в Firefox. В нашем случае в метатегах ничего нет, а «Последнее изменение» показывает «дату и время, когда, по мнению удаленного сервера, запрашиваемый ресурс был изменен». Весь ресурс, не обязательно этот раздел на сайте. Следовательно, для таких больших сайтов как Facebook дата/время последнего изменения будут почти всегда равняться дате/времени вашего посещения.

Можно подумать, что только что изменили страницу, ан нет
А в случае с этой страницей информация Firefox оказалась более актуальной, чем из поиска Google – там до сих пор показывался 2017 год

Дата публикации картинок. Не везде картинки открыты для индексации или включают в URL день загрузки. К тому же на странице может быть контент с других разделов или даже сайтов, в таком случае данные совсем бесполезные.

У блога TexTerra в адресе картинок зашита дата публикации, но так не везде

И вот сохраненная копия страниц – откровенно плохой метод проверки даты публикации. Потому что в Google, например, страница сохраняется, когда ее в последний раз сканировал робот. То есть у больших посещаемых сайтов эта дата ненамного будет отличаться от сегодняшней. В «Яндексе» так вообще может быть устаревшая копия, не соответствующая проиндексированной странице.

Как видите, дата копии нашей любимой страницы FB не имеет ничего общего с возрастом, который показывает «site:» в Google

Аналитика «следов», истории страницы

Теперь о методах, опирающихся на «следы», которые страница оставляет в интернете. Как правило, они менее точные, но более надежные.

Первое сканирование Wayback Machine. Это сервис некоммерческой организации «Архив Интернета» (web.archive.org), который собирает копии веб-страниц. Само собой, он не обходит сайты каждый день, поэтому таким образом можно узнать дату публикации только примерно. Но в некоторых ситуациях даже плюс-минус несколько месяцев не имеют существенного значения.

Первое сканирование искомой страницы состоялось 16 декабря 2018 года (важно: количество сохранений ≠ количество обновлений)

Дата первой индексации в «Яндексе». Когда отечественный поисковик впервые посетил страницу, можно узнать через тест «Яндекс.XML». В поле «& query =» надо прописать «url:site.ru/page». В теге <modtime> мы увидим нужную дату в формате ГГГГДДММ.

В нашем примере дата первой индексации – 05 октября 2018 года

Если сервис ругается на IP-адрес, меняем его в настройках. А для тех, кто не дружит с «Яндекс.XML», проверить индексацию можно с помощью бесплатных инструментов Pixel Tools или Be1.

Кстати, этим методом можно проверять даже дату создания страницы в VK. Правда, информация будет неточной, если пользователь менял адрес. Чтобы определить точный возраст страницы, нужно открыть исходный код https://vk.com/foaf.php?id=1111111, где вместо единиц надо поставить искомый ID «ВКонтакте». Дата будет записана в теге с «created»:

Фрагмент кода в файле FOAF

Комментарии на странице. Если есть комментарии, хорошо – у них есть даты. Также по содержанию сообщений и всплескам активности можно предположить, сколько раз статья обновлялась. Минус, конечно, в том, что не везде есть комментарии даже под статьями.

А Disqus показывает не только дату, но и время комментирования

Ссылки на страницу. Суть способа: перейти на ссылающиеся материалы, а там уже поискать даты (вышеперечисленными методами) и постараться верифицировать информацию (если она цитируется в тексте). Конечно, ссылки могут говорить о возрасте и актуальности данных только косвенно. В нашем случае этот вариант никак не помог.

Ищем ссылки на страницу FB через Ahrefs → выясняем, что почти все материалы – перепечатки статьи Hootsuite от мая 2019 → тексты не упоминают статистику, которую мы проверяем
Ищем ссылки на страницу FB через Ahrefs → выясняем, что почти все материалы – перепечатки статьи Hootsuite от мая 2019 → тексты не упоминают статистику, которую мы проверяем

Ищем ссылки на страницу FB через Ahrefs → выясняем, что почти все материалы – перепечатки статьи Hootsuite от мая 2019 → тексты не упоминают статистику, которую мы проверяем

Что в итоге

Нет идеального способа проверки даты, но можно комбинировать их – в комплексе все усиливается.

На примере со страницей FB получилось, что дата Google наиболее ранняя и правдивая, хотя с «Яндексом» разница всего неделя. (В нашем случае это не особо критично.) Предполагаем теперь, что статистика по Instagram Stories, которая нам интересна, тоже от сентября–октября 2018 года.

Кажется, что Wayback Machine бесполезен, так как, по сути, занизил возраст страницы? Но нет – с помощью этого инструмента мы можем точно узнать, не менялась ли с тех пор информация:

  1. Открываем скриншот Архива от 16 декабря 2018 – видим какую-то дичь с версткой и все почему-то на немецком.
Первый скрин страницы Wayback Machine
  1. Это не должно нас останавливать – открываем «Просмотр кода страницы» (Ctrl + U) и ищем там цифры, актуальность которых нас интересует.
  2. Видим эти самые 50 и 96 % – значит наша гипотеза оказалась верна.
Проверяемые данные есть в исходном коде

Ищете исполнителей с таким же скрупулезным подходом к цифрам, фактам, качеству? TexTerra предлагает создание и распространение контента на разовой и ежемесячной основе, а также в рамках комплексного продвижения.

Еще по теме:

© «TexTerra», при полном или частичном копировании материала ссылка на первоисточник обязательна.
Нашли ошибку в тексте? Выделите нужный фрагмент и нажмите ctrl + enter.
Оцените материал:
До старта онлайн-курса
«Интернет-маркетолог» осталось:
00:00:00
Записаться
До старта онлайн-интенсива
«Продвижение в Instagram» осталось:
00:00:00
Записаться
При заказе SMM до 31 октября дарим
3 варианта оформления сообщества!
Подробнее
Чертовски низкие цены на все онлайн-курсы от
TexTerra с 29 по 31 октября
Подробнее
Готовая база знаний
для начинающего
SMM-специалиста
Такую информацию продают за деньги,
а мы отдаем БЕСПЛАТНО!

Я согласен на обработку моих персональных данных

Спасибо, база направлена на вашу почту!
Texterra – продвижение в интернете x
Заказать звонок:
Нажимая на кнопку, вы даете согласие на обработку своих персональных данных
Texterra – продвижение в интернете x
Заказать услугу:
Нажимая на кнопку, вы даете согласие на обработку своих персональных данных