счетчик Яндекс.Метрики

Реклама в ПромоСтраницах – запустим быстро!

Заказать звонок
Телефон отдела продаж:
8 (800) 775-16-41
Наш e-mail:
mail@texterra.ru
Заказать услугу
Как узнать дату публикации / возраст веб-страницы, если нигде не написано Редакция «Текстерры»
Редакция «Текстерры»

С исследованиями/отчетами, как правило, проблем нет – везде указан месяц и год. Легко узнать дату публикации, когда она указана на самой странице, предусмотрена функционалом сайта.

Как в блоге TexTerra, например

Другое дело, если нигде не указано, когда страница была создана/обновлена. Разбираемся, как тогда можно узнать дату/возраст, на примере facebook.com/business/instagram/stories-ads

Редактор решил проверить актуальность этой информации, и понеслось

Технический анализ страницы

Сначала о способах проверки даты создания/републикации, которые работают на основе ответа сервера, HTML-кода или карты сайта. Дисклеймер: они работают, но без гарантий (сайт может переехать или обновить XML-файл, тогда дата обновится, но не будет соответствовать реальному возрасту информации).

«Site:» в Google и перебор дат. Если просто использовать этот оператор в поиске, то никакой даты у FB-страницы не видно (первый скриншот ниже иллюстрирует). Чудеса случаются, когда пользователь начинает перебирать отдельные периоды. Выбираем от 01.01.2018 по 01.01.2019, вуаля – получаем 28 сентября 2019 года.

Процесс «брутфорса» Google (вместо site: можно использовать allinurl: или даже вообще обойтись без операторов – просто вбить адрес в строку поиска)Процесс «брутфорса» Google (вместо site: можно использовать allinurl: или даже вообще обойтись без операторов – просто вбить адрес в строку поиска)

Важно: эта дата не обязательно будет датой первого сканирования, как в случае с показателем «Яндекса» (о нем позже). Google может устанавливать новые цифры, когда заметит обновление страницы. В блоге вебмастеров сообщается, что система определяет дату, опираясь на множество факторов. Включая данные, указанные на странице и предоставленные через разметку, но не ограничиваясь ими.

Дата из sitemap. Это специальный файл – карта сайта, список ссылок для поисковых систем. По нему можно также подсмотреть дату. Но в нашем случае поисковик ничего не находит через «site:» и «filetype:xml».

Не видно сайтмапов, такие делаА у TexTerra, к примеру, XML-файлов очень много, замучаешься искать, где там день публикации

Важно: sitemap генерируется автоматически, то есть <lastmod> может не соответствовать реальному возрасту страницы.

«Информация о странице» в Firefox. В нашем случае в метатегах ничего нет, а «Последнее изменение» показывает «дату и время, когда, по мнению удаленного сервера, запрашиваемый ресурс был изменен». Весь ресурс, не обязательно этот раздел на сайте. Следовательно, для таких больших сайтов как Facebook* дата/время последнего изменения будут почти всегда равняться дате/времени вашего посещения.

Можно подумать, что только что изменили страницу, ан нетА в случае с этой страницей информация Firefox оказалась более актуальной, чем из поиска Google – там до сих пор показывался 2017 год

Дата публикации картинок. Не везде картинки открыты для индексации или включают в URL день загрузки. К тому же на странице может быть контент с других разделов или даже сайтов, в таком случае данные совсем бесполезные.

У блога TexTerra в адресе картинок зашита дата публикации, но так не везде
И вот сохраненная копия страниц – откровенно плохой метод проверки даты публикации. Потому что в Google, например, страница сохраняется, когда ее в последний раз сканировал робот. То есть у больших посещаемых сайтов эта дата ненамного будет отличаться от сегодняшней. В «Яндексе» так вообще может быть устаревшая копия, не соответствующая проиндексированной странице.
Как видите, дата копии нашей любимой страницы FB не имеет ничего общего с возрастом, который показывает «site:» в Google
Делаем блоги для бизнеса и бренд-медиа
Подробнее

Аналитика «следов», истории страницы

Теперь о методах, опирающихся на «следы», которые страница оставляет в интернете. Как правило, они менее точные, но более надежные.

Первое сканирование Wayback Machine. Это сервис некоммерческой организации «Архив Интернета» (web.archive.org), который собирает копии веб-страниц. Само собой, он не обходит сайты каждый день, поэтому таким образом можно узнать дату публикации только примерно. Но в некоторых ситуациях даже плюс-минус несколько месяцев не имеют существенного значения.

Первое сканирование искомой страницы состоялось 16 декабря 2018 года (важно: количество сохранений ≠ количество обновлений)

Дата первой индексации в «Яндексе». Когда отечественный поисковик впервые посетил страницу, можно узнать через тест «Яндекс.XML». В поле «& query =» надо прописать «url:site.ru/page». В теге <modtime> мы увидим нужную дату в формате ГГГГДДММ.

В нашем примере дата первой индексации – 05 октября 2018 года

Если сервис ругается на IP-адрес, меняем его в настройках. А для тех, кто не дружит с «Яндекс.XML», проверить индексацию можно с помощью бесплатных инструментов Pixel Tools или Be1.

Кстати, этим методом можно проверять даже дату создания страницы в VK. Правда, информация будет неточной, если пользователь менял адрес. Чтобы определить точный возраст страницы, нужно открыть исходный код https://vk.com/foaf.php?id=1111111, где вместо единиц надо поставить искомый ID «ВКонтакте». Дата будет записана в теге с «created»:
Фрагмент кода в файле FOAF

Комментарии на странице. Если есть комментарии, хорошо – у них есть даты. Также по содержанию сообщений и всплескам активности можно предположить, сколько раз статья обновлялась. Минус, конечно, в том, что не везде есть комментарии даже под статьями.

А Disqus показывает не только дату, но и время комментирования

Ссылки на страницу. Суть способа: перейти на ссылающиеся материалы, а там уже поискать даты (вышеперечисленными методами) и постараться верифицировать информацию (если она цитируется в тексте). Конечно, ссылки могут говорить о возрасте и актуальности данных только косвенно. В нашем случае этот вариант никак не помог.

Ищем ссылки на страницу FB через Ahrefs → выясняем, что почти все материалы – перепечатки статьи Hootsuite от мая 2019 → тексты не упоминают статистику, которую мы проверяемИщем ссылки на страницу FB через Ahrefs → выясняем, что почти все материалы – перепечатки статьи Hootsuite от мая 2019 → тексты не упоминают статистику, которую мы проверяем

Что в итоге

Нет идеального способа проверки даты, но можно комбинировать их – в комплексе все усиливается.

На примере со страницей FB получилось, что дата Google наиболее ранняя и правдивая, хотя с «Яндексом» разница всего неделя. (В нашем случае это не особо критично.) Предполагаем теперь, что статистика по Instagram* Stories, которая нам интересна, тоже от сентября–октября 2018 года.

Кажется, что Wayback Machine бесполезен, так как, по сути, занизил возраст страницы? Но нет – с помощью этого инструмента мы можем точно узнать, не менялась ли с тех пор информация:

  1. Открываем скриншот Архива от 16 декабря 2018 – видим какую-то дичь с версткой и все почему-то на немецком.
Первый скрин страницы Wayback Machine
  1. Это не должно нас останавливать – открываем «Просмотр кода страницы» (Ctrl + U) и ищем там цифры, актуальность которых нас интересует.
  2. Видим эти самые 50 и 96 % – значит наша гипотеза оказалась верна.
Проверяемые данные есть в исходном коде
Ищете исполнителей с таким же скрупулезным подходом к цифрам, фактам, качеству? TexTerra предлагает создание и распространение контента на разовой и ежемесячной основе, а также в рамках комплексного продвижения.

Еще по теме:



*Instagram и Facebook принадлежат Meta, которая признана экстремистской организацией и запрещена на территории РФ
Напишем вам тексты

для сайтов, блогов, соцсетей

Подробнее
Поделиться статьей:

У вас есть деловой запрос? Давайте обсудим!

Оставьте свои контакты, мы свяжемся с вами в ближайшее время.

Нажимая на кнопку «Оставить заявку», вы подтверждаете свое согласие на обработку пользовательских данных