Top.Mail.Ru
Заказать звонок
Телефон отдела продаж:
8 (800) 775-16-41
Наш e-mail:
mail@texterra.ru
Заказать услугу
Как узнать дату публикации / возраст веб-страницы, если нигде не написано Редакция «Текстерры»
Редакция «Текстерры»

С исследованиями/отчетами, как правило, проблем нет – везде указан месяц и год. Легко узнать дату публикации, когда она указана на самой странице, предусмотрена функционалом сайта.

Как в блоге TexTerra, например

Другое дело, если нигде не указано, когда страница была создана/обновлена. Разбираемся, как тогда можно узнать дату/возраст, на примере facebook.com/business/instagram/stories-ads

Редактор решил проверить актуальность этой информации, и понеслось

Технический анализ страницы

Сначала о способах проверки даты создания/републикации, которые работают на основе ответа сервера, HTML-кода или карты сайта. Дисклеймер: они работают, но без гарантий (сайт может переехать или обновить XML-файл, тогда дата обновится, но не будет соответствовать реальному возрасту информации).

«Site:» в Google и перебор дат. Если просто использовать этот оператор в поиске, то никакой даты у FB-страницы не видно (первый скриншот ниже иллюстрирует). Чудеса случаются, когда пользователь начинает перебирать отдельные периоды. Выбираем от 01.01.2018 по 01.01.2019, вуаля – получаем 28 сентября 2019 года.

Процесс «брутфорса» Google (вместо site: можно использовать allinurl: или даже вообще обойтись без операторов – просто вбить адрес в строку поиска) Процесс «брутфорса» Google (вместо site: можно использовать allinurl: или даже вообще обойтись без операторов – просто вбить адрес в строку поиска)

Важно: эта дата не обязательно будет датой первого сканирования, как в случае с показателем «Яндекса» (о нем позже). Google может устанавливать новые цифры, когда заметит обновление страницы. В блоге вебмастеров сообщается, что система определяет дату, опираясь на множество факторов. Включая данные, указанные на странице и предоставленные через разметку, но не ограничиваясь ими.

Дата из sitemap. Это специальный файл – карта сайта, список ссылок для поисковых систем. По нему можно также подсмотреть дату. Но в нашем случае поисковик ничего не находит через «site:» и «filetype:xml».

Не видно сайтмапов, такие дела А у TexTerra, к примеру, XML-файлов очень много, замучаешься искать, где там день публикации

Важно: sitemap генерируется автоматически, то есть <lastmod> может не соответствовать реальному возрасту страницы.

«Информация о странице» в Firefox. В нашем случае в метатегах ничего нет, а «Последнее изменение» показывает «дату и время, когда, по мнению удаленного сервера, запрашиваемый ресурс был изменен». Весь ресурс, не обязательно этот раздел на сайте. Следовательно, для таких больших сайтов как Facebook дата/время последнего изменения будут почти всегда равняться дате/времени вашего посещения.

Можно подумать, что только что изменили страницу, ан нет А в случае с этой страницей информация Firefox оказалась более актуальной, чем из поиска Google – там до сих пор показывался 2017 год

Дата публикации картинок. Не везде картинки открыты для индексации или включают в URL день загрузки. К тому же на странице может быть контент с других разделов или даже сайтов, в таком случае данные совсем бесполезные.

У блога TexTerra в адресе картинок зашита дата публикации, но так не везде
И вот сохраненная копия страниц – откровенно плохой метод проверки даты публикации. Потому что в Google, например, страница сохраняется, когда ее в последний раз сканировал робот. То есть у больших посещаемых сайтов эта дата ненамного будет отличаться от сегодняшней. В «Яндексе» так вообще может быть устаревшая копия, не соответствующая проиндексированной странице.
Как видите, дата копии нашей любимой страницы FB не имеет ничего общего с возрастом, который показывает «site:» в Google
Делаем блоги для бизнеса и бренд-медиа
Подробнее

Аналитика «следов», истории страницы

Теперь о методах, опирающихся на «следы», которые страница оставляет в интернете. Как правило, они менее точные, но более надежные.

Первое сканирование Wayback Machine. Это сервис некоммерческой организации «Архив Интернета» (web.archive.org), который собирает копии веб-страниц. Само собой, он не обходит сайты каждый день, поэтому таким образом можно узнать дату публикации только примерно. Но в некоторых ситуациях даже плюс-минус несколько месяцев не имеют существенного значения.

Первое сканирование искомой страницы состоялось 16 декабря 2018 года (важно: количество сохранений ≠ количество обновлений)

Дата первой индексации в «Яндексе». Когда отечественный поисковик впервые посетил страницу, можно узнать через тест «Яндекс.XML». В поле «& query =» надо прописать «url:site.ru/page». В теге <modtime> мы увидим нужную дату в формате ГГГГДДММ.

В нашем примере дата первой индексации – 05 октября 2018 года

Если сервис ругается на IP-адрес, меняем его в настройках. А для тех, кто не дружит с «Яндекс.XML», проверить индексацию можно с помощью бесплатных инструментов Pixel Tools или Be1.

Кстати, этим методом можно проверять даже дату создания страницы в VK. Правда, информация будет неточной, если пользователь менял адрес. Чтобы определить точный возраст страницы, нужно открыть исходный код https://vk.com/foaf.php?id=1111111, где вместо единиц надо поставить искомый ID «ВКонтакте». Дата будет записана в теге с «created»:
Фрагмент кода в файле FOAF

Комментарии на странице. Если есть комментарии, хорошо – у них есть даты. Также по содержанию сообщений и всплескам активности можно предположить, сколько раз статья обновлялась. Минус, конечно, в том, что не везде есть комментарии даже под статьями.

А Disqus показывает не только дату, но и время комментирования

Ссылки на страницу. Суть способа: перейти на ссылающиеся материалы, а там уже поискать даты (вышеперечисленными методами) и постараться верифицировать информацию (если она цитируется в тексте). Конечно, ссылки могут говорить о возрасте и актуальности данных только косвенно. В нашем случае этот вариант никак не помог.

Ищем ссылки на страницу FB через Ahrefs → выясняем, что почти все материалы – перепечатки статьи Hootsuite от мая 2019 → тексты не упоминают статистику, которую мы проверяем Ищем ссылки на страницу FB через Ahrefs → выясняем, что почти все материалы – перепечатки статьи Hootsuite от мая 2019 → тексты не упоминают статистику, которую мы проверяем

Что в итоге

Нет идеального способа проверки даты, но можно комбинировать их – в комплексе все усиливается.

На примере со страницей FB получилось, что дата Google наиболее ранняя и правдивая, хотя с «Яндексом» разница всего неделя. (В нашем случае это не особо критично.) Предполагаем теперь, что статистика по Instagram Stories, которая нам интересна, тоже от сентября–октября 2018 года.

Кажется, что Wayback Machine бесполезен, так как, по сути, занизил возраст страницы? Но нет – с помощью этого инструмента мы можем точно узнать, не менялась ли с тех пор информация:

  1. Открываем скриншот Архива от 16 декабря 2018 – видим какую-то дичь с версткой и все почему-то на немецком.
Первый скрин страницы Wayback Machine
  1. Это не должно нас останавливать – открываем «Просмотр кода страницы» (Ctrl + U) и ищем там цифры, актуальность которых нас интересует.
  2. Видим эти самые 50 и 96 % – значит наша гипотеза оказалась верна.
Проверяемые данные есть в исходном коде
Ищете исполнителей с таким же скрупулезным подходом к цифрам, фактам, качеству? TexTerra предлагает создание и распространение контента на разовой и ежемесячной основе, а также в рамках комплексного продвижения.

Еще по теме:

Напишем вам тексты

для сайтов, блогов, соцсетей

Подробнее
Поделиться статьей:

Новое на сайте

28 мар 2024
176
Правила сетикета – какие они и почему важны для вашей компании

В виртуальном мире существуют особые правила общения, не соблюдая которые легко навредить своему бизнесу.

28 мар 2024
4 032
Миф про многозадачность: мозг не умеет так работать

Так что работодатели зря пишут про этот навык на HeadHunter. Но способы всё успевать – есть.

Смотреть все статьи

У вас есть деловой запрос? Давайте обсудим!

Оставьте свои контакты, мы свяжемся с вами в ближайшее время.

Нажимая на кнопку «Оставить заявку», вы подтверждаете свое согласие на обработку пользовательских данных

Спасибо!

Ваша заявка принята. Мы свяжемся с вами в ближайшее время.

Наш подход бустит продажи. Вы платите за результат!