Различение роботов: роботы запрещены, кроме робота Google

Больше сайтов блокируют их индексацию поисковыми системами Baidu и Yandex, чем Google. Могут ли предпочтения веб-мастеров к Google стать одной из причин, почему многие считают, что у Google «лучшие результаты поиска», чем у конкурентов?

На приведенной ниже гистограмме показано количество веб-сайтов из списка 1 млн. Alexa, которые блокируют сканирование определенной поисковой системой. Цвета бара указывают на основной рынок гусеничного хода.

< <

Универсальный столбец «Другие» относится к политике по умолчанию, применяемой к сканерам, которые не были специально упомянуты по имени (User-agent: *). Китайская поисковая система Sogou и чешская поисковая система Seznam, обнаружившиеся так близко к категории «Другие», показывают, что лишь немногие веб-сайты удосужились исключить их специально.

Приведенные выше цифры были получены путем сбора файлов протокола исключения роботов с 1 миллиона лучших сайтов Alexa и выяснения того, каким «роботам» был предоставлен доступ к сайту. Это очень маленький размер выборки из более чем 1 миллиарда активных веб-сайтов. Я подозреваю, что менее популярные веб-сайты были бы более склонны блокировать роботов и сканеры, таким образом теряя трафик с поисковых систем и не попадая в топ-миллион. Получение и обработка обновленного списка из миллиарда доменов оказалось трудным делом, поэтому я решил использовать один миллион лучших доменов. Примечательно, что субдомены, на которые многие веб-сайты отправляют большие части своего контента, могут иметь отдельные файлы роботов, и они не были включены.

Я начал изучать это после того, как мне стало досадно, что я не могу найти некоторые вещи в Bing и Yandex. Сначала я был раздражен поисковыми системами за то, что они не нашли некоторые конкретные страницы, которые, как я знал, существуют, и которые я действительно мог найти с помощью Google. Однако через некоторое время я просто из любопытства начал просматривать файлы роботов для этих сайтов. И вот, я часто обнаруживаю, что веб-сайты специально предоставляют доступ к Google при настройке политики по умолчанию, запрещающей.

Типы веб-сайтов, на которые я захожу, могли бы повлиять на это, поскольку это часто случалось бы с очень техническими веб-сайтами, такими как узлы кода и средства отслеживания ошибок. Похоже, что большинство технологов отдают предпочтение Google, поэтому эта категория веб-сайтов с большей вероятностью отдает предпочтение Google, вероятно, не будет сюрпризом.

Я беспокоюсь, что веб-мастера потеряют robots.txt как инструмент для управления роботами. Новый поисковый движок, который экспериментирует с собственной технологией поиска, например, новичок DuckDuckGo или французский Qwant.com, никогда не сможет конкурировать с подобными Google, если их исключат из индексации значительной части сети. Я рад сообщить, что ни один веб-сайт не заблокировал ни одного из этих двух конкретно их пользовательскими агентами, но их правила запрета по умолчанию по-прежнему эффективно ограничивали бы их возможности индексации.

Даже игроки, хорошо зарекомендовавшие себя на своих рынках, таких как Baidu и Yandex, должны серьезно подумать о том, чтобы либо не учитывать весь файл исключений роботов. Или, по крайней мере, начать толковать «робот Google» как «поисковую систему общего назначения».

Applebot и AppleNewsBot уже приняли этот подход. Цитата из Apple документация : «Если в инструкциях роботов не упоминается Applebot, но упоминается робот Google, робот Apple будет следовать инструкциям робота Google».

Этот подход также сопровождается несколькими сервисами интеллектуального анализа данных, которые подчиняются исключению роботов, только если специально указан их пользователь-агент. В отрасли, где все больше данных является ключом к успеху, игнорирование политики запрета по умолчанию является лишь здравым смыслом для поддержания роста их набора данных.

Вышеуказанная сетка показывает процент сайтов, которые блокируют поисковые системы по оси Y, но разрешают поисковые системы по оси X. Исходя из этого, мы видим, что робот Googlebot получает льготные условия на многих веб-сайтах, которые не разрешают некоторые или все другие сканеры. Мы также видим, что многие сайты блокируют Baidu и Internet Archive, в то же время разрешая всем другим сканерам.

В настоящее время Google контролирует более 91% мирового рынка поиска. Есть много причин, которые позволяют Google занять такое доминирующее положение. Они отлично подходит для многоязычных пользователей они являются поисковыми системами по умолчанию во многих браузерах и системах, и у них есть отличная поисковая система. Тем не менее, 91+% становится очень близким к глобальной монополии.

Исследуя это, я нашел много рецептов в блогах и в других местах в Интернете для создания файлов robots.txt, которые устанавливают политику по умолчанию, запрещающую при предоставлении горстке (или просто роботу Google) доступа сканерам. Я не уверен, почему так много сайтов блокируют всех, кроме Google, но у меня есть несколько теорий о мотивации веб-мастеров.

«Но мои пользователи не в России и не в Китае! Зачем мне разрешать их сканерам? ». И Baidu, и Яндекс предлагают ссылки на машинно-переведенные версии результатов поиска на английском языке (без рекламы на веб-сайте). Это открывает ваш контент для двух очень больших рынков потенциальных пользователей. Для многих сайтов глазные яблоки - это глазные яблоки. Возможность привлечь новых пользователей должна быть более чем достаточной мотивацией для всех сканеров.

«Все мои клиенты находятся в одном регионе со мной!» Конечно. В этом случае блокировка доступа к поисковым системам становится скорее бизнес-решением. Однако кто скажет, что американцы не используют Яндекс? или Baidu? Экспаты могут доверять своим региональным поисковым системам больше, чем Google, или просто придерживаться предпочтительной поисковой системы по привычке. Если они ищут ваш бизнес, не должно иметь значения, какой инструмент они используют, чтобы найти вас.

«Мой веб-сайт не может обрабатывать несколько дополнительных запросов в минуту». Трафик сканера от всех крупных поисковых систем будет автоматически замедляться, если они заметят, что время отклика веб-сайта увеличивается при его сканировании. Это может создать эффект, когда веб-сайты замечают высокие нагрузки от сканеров, которые не посещали их ранее и изучали приемлемую частоту сканирования. Тем не менее, это обычно не должно быть проблемой, если сервер не находится под напряжением или неправильно настроен. Сканер редко является достаточно большой проблемой, чтобы это даже вызывало беспокойство.

К моему удивлению, я не смог найти других писем на эту тему, кроме « Монополия Googlebot: Пожалуйста, не блокируйте все, кроме Googlebot в robots.txt Дэн Луу с прошлого года. Он поднял проблему со старыми веб-сайтами, которые отключаются, но запрещают Интернет-архиву сохранять их копии для дальнейшего использования.

Интернет-архив не является поисковой системой, как другие сканеры, упомянутые в этой статье. Он хранит копии старых веб-страниц, чтобы сохранить их на будущее. Их робот был включен в набор данных из-за того, сколько веб-сайтов выделяют их в своем файле исключений роботов.

Общий размер выборки составляет всего 918 439 из 1 миллиона лучших сайтов Alexa. Веб-сайты без файла robots.txt по умолчанию разрешены для каждого робота. Остальные либо столкнулись с проблемами на сервере, либо полностью вернули файл другого типа, либо имели настолько серьезные ошибки синтаксического анализа, что сканеры могли игнорировать этот файл. Также обратите внимание, что в верхних доменах не учитываются потенциальные субдомены, богатые контентом, такие как «блоги», «ошибки», «новости» и т. Д.

Веб-сайты были протестированы как разрешающие или запрещающие индексацию общего назначения в зависимости от того, позволит ли их файл роботов сделать запрос для пути, состоящего из уникальной строки под их корнем. Для извлечения файла роботов использовался универсальный пользовательский агент, подобный веб-браузеру, который затем анализировался и обрабатывался по отношению к пользовательским агентам известных поисковых роботов. Протестированными именами роботов были Googlebot, Bingbot, Yandex и YandexBot, SeznamBot, HoaSouSpider и 360Spider, Baiduspider, Sogouspider, Yeti (Naver) и ia_archiver (интернет-архив). Поисковые системы, которые не имеют своих собственных сканеров, но полагаются на результаты поиска, предоставленные другими, не включены.

Я признаю, что данные в лучшем случае неполные и учитывают только то, что находится в файле /robots.txt. Брандмауэры приложений и политики безопасности на неизвестном проценте протестированных серверов будут напрямую блокировать агентов пользователя и IP-адреса, используемые некоторыми ботами. Это не учитывалось вообще в этой статье.

Обновление (2016-06-21): данные о Bing отключены примерно на 2000 веб-сайтах. Bing был протестирован только с новым гусеничным именем Bingbot. Однако Bingbot также уважает устаревшее имя «msnbot» в файлах robots.txt.

Могут ли предпочтения веб-мастеров к Google стать одной из причин, почему многие считают, что у Google «лучшие результаты поиска», чем у конкурентов?
Зачем мне разрешать их сканерам?
Однако кто скажет, что американцы не используют Яндекс?
Или Baidu?