Различение роботов: роботы запрещены, кроме робота Google

Больше сайтов блокируют их индексацию поисковыми системами Baidu и Yandex, чем Google. Могут ли предпочтения веб-мастеров к Google стать одной из причин, почему многие считают, что у Google «лучшие результаты поиска», чем у конкурентов?

На приведенной ниже гистограмме показано количество веб-сайтов из списка 1 млн. Alexa, которые блокируют сканирование определенной поисковой системой. Цвета бара указывают на основной рынок гусеничного хода.

< <

Универсальный столбец «Другие» относится к политике по умолчанию, применяемой к сканерам, которые не были специально упомянуты по имени (User-agent: *). Китайская поисковая система Sogou и чешская поисковая система Seznam, обнаружившиеся так близко к категории «Другие», показывают, что лишь немногие веб-сайты удосужились исключить их специально.

Приведенные выше цифры были получены путем сбора файлов протокола исключения роботов с 1 миллиона лучших сайтов Alexa и выяснения того, каким «роботам» был предоставлен доступ к сайту. Это очень маленький размер выборки из более чем 1 миллиарда активных веб-сайтов. Я подозреваю, что менее популярные веб-сайты были бы более склонны блокировать роботов и сканеры, таким образом теряя трафик с поисковых систем и не попадая в топ-миллион. Получение и обработка обновленного списка из миллиарда доменов оказалось трудным делом, поэтому я решил использовать один миллион лучших доменов. Примечательно, что субдомены, на которые многие веб-сайты отправляют большие части своего контента, могут иметь отдельные файлы роботов, и они не были включены.

Я начал изучать это после того, как мне стало досадно, что я не могу найти некоторые вещи в Bing и Yandex. Сначала я был раздражен поисковыми системами за то, что они не нашли некоторые конкретные страницы, которые, как я знал, существуют, и которые я действительно мог найти с помощью Google. Однако через некоторое время я просто из любопытства начал просматривать файлы роботов для этих сайтов. И вот, я часто обнаруживаю, что веб-сайты специально предоставляют доступ к Google при настройке политики по умолчанию, запрещающей.

Типы веб-сайтов, на которые я захожу, могли бы повлиять на это, поскольку это часто случалось бы с очень техническими веб-сайтами, такими как узлы кода и средства отслеживания ошибок. Похоже, что большинство технологов отдают предпочтение Google, поэтому эта категория веб-сайтов с большей вероятностью отдает предпочтение Google, вероятно, не будет сюрпризом.

Я беспокоюсь, что веб-мастера потеряют robots.txt как инструмент для управления роботами. Новый поисковый движок, который экспериментирует с собственной технологией поиска, например, новичок DuckDuckGo или французский Qwant.com, никогда не сможет конкурировать с подобными Google, если их исключат из индексации значительной части сети. Я рад сообщить, что ни один веб-сайт не заблокировал ни одного из этих двух конкретно их пользовательскими агентами, но их правила запрета по умолчанию по-прежнему эффективно ограничивали бы их возможности индексации.

Даже игроки, хорошо зарекомендовавшие себя на своих рынках, таких как Baidu и Yandex, должны серьезно подумать о том, чтобы либо не учитывать весь файл исключений роботов. Или, по крайней мере, начать толковать «робот Google» как «поисковую систему общего назначения».

Applebot и AppleNewsBot уже приняли этот подход. Цитата из Apple документация : «Если в инструкциях роботов не упоминается Applebot, но упоминается робот Google, робот Apple будет следовать инструкциям робота Google».

Этот подход также сопровождается несколькими сервисами интеллектуального анализа данных, которые подчиняются исключению роботов, только если специально указан их пользователь-агент. В отрасли, где все больше данных является ключом к успеху, игнорирование политики запрета по умолчанию является лишь здравым смыслом для поддержания роста их набора данных.

Вышеуказанная сетка показывает процент сайтов, которые блокируют поисковые системы по оси Y, но разрешают поисковые системы по оси X. Исходя из этого, мы видим, что робот Googlebot получает льготные условия на многих веб-сайтах, которые не разрешают некоторые или все другие сканеры. Мы также видим, что многие сайты блокируют Baidu и Internet Archive, в то же время разрешая всем другим сканерам.

В настоящее время Google контролирует более 91% мирового рынка поиска. Есть много причин, которые позволяют Google занять такое доминирующее положение. Они отлично подходит для многоязычных пользователей они являются поисковыми системами по умолчанию во многих браузерах и системах, и у них есть отличная поисковая система. Тем не менее, 91+% становится очень близким к глобальной монополии.

Исследуя это, я нашел много рецептов в блогах и в других местах в Интернете для создания файлов robots.txt, которые устанавливают политику по умолчанию, запрещающую при предоставлении горстке (или просто роботу Google) доступа сканерам. Я не уверен, почему так много сайтов блокируют всех, кроме Google, но у меня есть несколько теорий о мотивации веб-мастеров.

«Но мои пользователи не в России и не в Китае! Зачем мне разрешать их сканерам? ». И Baidu, и Яндекс предлагают ссылки на машинно-переведенные версии результатов поиска на английском языке (без рекламы на веб-сайте). Это открывает ваш контент для двух очень больших рынков потенциальных пользователей. Для многих сайтов глазные яблоки - это глазные яблоки. Возможность привлечь новых пользователей должна быть более чем достаточной мотивацией для всех сканеров.

«Все мои клиенты находятся в одном регионе со мной!» Конечно. В этом случае блокировка доступа к поисковым системам становится скорее бизнес-решением. Однако кто скажет, что американцы не используют Яндекс? или Baidu? Экспаты могут доверять своим региональным поисковым системам больше, чем Google, или просто придерживаться предпочтительной поисковой системы по привычке. Если они ищут ваш бизнес, не должно иметь значения, какой инструмент они используют, чтобы найти вас.

«Мой веб-сайт не может обрабатывать несколько дополнительных запросов в минуту». Трафик сканера от всех крупных поисковых систем будет автоматически замедляться, если они заметят, что время отклика веб-сайта увеличивается при его сканировании. Это может создать эффект, когда веб-сайты замечают высокие нагрузки от сканеров, которые не посещали их ранее и изучали приемлемую частоту сканирования. Тем не менее, это обычно не должно быть проблемой, если сервер не находится под напряжением или неправильно настроен. Сканер редко является достаточно большой проблемой, чтобы это даже вызывало беспокойство.

К моему удивлению, я не смог найти других писем на эту тему, кроме « Монополия Googlebot: Пожалуйста, не блокируйте все, кроме Googlebot в robots.txt Дэн Луу с прошлого года. Он поднял проблему со старыми веб-сайтами, которые отключаются, но запрещают Интернет-архиву сохранять их копии для дальнейшего использования.

Интернет-архив не является поисковой системой, как другие сканеры, упомянутые в этой статье. Он хранит копии старых веб-страниц, чтобы сохранить их на будущее. Их робот был включен в набор данных из-за того, сколько веб-сайтов выделяют их в своем файле исключений роботов.

Общий размер выборки составляет всего 918 439 из 1 миллиона лучших сайтов Alexa. Веб-сайты без файла robots.txt по умолчанию разрешены для каждого робота. Остальные либо столкнулись с проблемами на сервере, либо полностью вернули файл другого типа, либо имели настолько серьезные ошибки синтаксического анализа, что сканеры могли игнорировать этот файл. Также обратите внимание, что в верхних доменах не учитываются потенциальные субдомены, богатые контентом, такие как «блоги», «ошибки», «новости» и т. Д.

Веб-сайты были протестированы как разрешающие или запрещающие индексацию общего назначения в зависимости от того, позволит ли их файл роботов сделать запрос для пути, состоящего из уникальной строки под их корнем. Для извлечения файла роботов использовался универсальный пользовательский агент, подобный веб-браузеру, который затем анализировался и обрабатывался по отношению к пользовательским агентам известных поисковых роботов. Протестированными именами роботов были Googlebot, Bingbot, Yandex и YandexBot, SeznamBot, HoaSouSpider и 360Spider, Baiduspider, Sogouspider, Yeti (Naver) и ia_archiver (интернет-архив). Поисковые системы, которые не имеют своих собственных сканеров, но полагаются на результаты поиска, предоставленные другими, не включены.

Я признаю, что данные в лучшем случае неполные и учитывают только то, что находится в файле /robots.txt. Брандмауэры приложений и политики безопасности на неизвестном проценте протестированных серверов будут напрямую блокировать агентов пользователя и IP-адреса, используемые некоторыми ботами. Это не учитывалось вообще в этой статье.

Обновление (2016-06-21): данные о Bing отключены примерно на 2000 веб-сайтах. Bing был протестирован только с новым гусеничным именем Bingbot. Однако Bingbot также уважает устаревшее имя «msnbot» в файлах robots.txt.

Похожие

Новые настройки, представленные в Chrome для Windows, защищают пользователей от хищенных настроек, неж...
Новые настройки, представленные в Chrome для Windows, защищают пользователей от хищенных настроек, нежелательного программного обеспечения и изменений, которые могут повлиять на работу пользователя. У пользователей Chrome для Windows есть три новые антивирусные функции для более безопасного просмотра, компания объявила в Сообщение блога Понедельник. Опираясь на существующие параметры
Навигация по Google Maps: легко и просто
Впечатляющая особенность нового Google Android 2.0 Операционная система мобильного устройства - Google Maps Navigation, это не только
5 простых исправлений для распространенных проблем магазина Google Play
Реклама Когда происходит сбой магазина Google Play, иногда выдается код ошибки. Хотя поиск в Интернете для каждого кода помогает, часто это не нужно. Большинство проблем Play Store требуют одного из пяти основных исправлений. Основы решения проблем магазина Google Play Существует пять различных исправлений для исправления большинства ошибок Play Store. Вам не нужно использовать все это; попробуйте первый и посмотрите, решит ли он проблему. Если это не так,
Как удалить резервные копии Android из вашей учетной записи Google
Ваша учетная запись Google выполняет резервное копирование синхронизированных устройств с Android. Копии содержат, например, настройки и данные приложения. Как можно удалить такие копии из вашей учетной записи Google? Где именно они? Когда вы используете
Как заставить Google перестать отслеживать вас
... Google идет. Согласно недавнему отчету Google продолжает отслеживать ваше мобильное устройство, даже если вы отказались от его услуг отслеживания; История местоположений Google продолжает хранить данные о местоположении. Если вы хотите отключить возможность Google видеть, где вы находитесь, вот несколько шагов, которые вы можете предпринять. Когда у вас включены службы определения
Сообщается, что FACEBOOK предоставил «частную» информацию российской версии Google, несмотря на сооб...
Сообщается, что FACEBOOK предоставил «частную» информацию российской версии Google, несмотря на сообщения о том, что организация связана с кремлевскими шпионами. Российскому веб-гиганту Яндекс якобы была предоставлена ​​специальная информация, доступ к которой другим приложениям запрещен - по соображениям конфиденциальности.
Как использовать Google Roboto Font везде
Шрифт Roboto - это шрифт без засечек, созданный Google со времен Android 4.0 (Ice Cream Sandwich). Это элегантный шрифт, который хорошо отображается на экранах с высоким разрешением, таких как телефоны Android. Roboto содержит полный набор веса шрифта (включая обычные, полужирные, курсивные и полужирные курсивные значения) и используется в основном для системных приложений и всех приложений Google. Если вы любите шрифт и хотите использовать его на Windows, Mac, Linux или
Вы заметили, что поисковая система Google Image работает не так, как сегодня?
Несколько полезных функций исчезли из поиска фотографий Google. Мы не будем включать просмотр фотографий в полном разрешении, который защитит фотографии от кражи. Если вы сегодня искали графику в Поиске Google, вы могли заметить, что она работает немного иначе, чем раньше. Только вчера, после выбора данного эскиза, мы увидели его расширение и несколько возможностей. Вариант, который я использовал чаще всего, был «показать картинку». Теперь
Как отслеживать YouTube с помощью Google Analytics
YouTube является одним из самых посещаемых сайтов. Платформа для обмена видео в настоящее время привлекает более миллиарда пользователей - около трети всех пользователей Интернета, которые все вместе генерируют миллиарды просмотров. Широко узнаваемый формат YouTube и присутствие в Интернете делают его мощным активом любой маркетинговой
Как заблокировать рекламу в Chrome и Firefox?
... google-chrome.softonic.pl/"> хром который блокирует показ рекламы. Adblock Plus отключает рекламу в виде анимированных баннеров, всплывающих окон и видеофильмов, которые являются слишком навязчивыми и не имеют прямого отношения к просматриваемому веб-сайту. Это также устраняет графическую рекламу на Facebook или Youtube, что улучшает читаемость обоих сайтов. Интересно, что приложение Adblock Plus блокирует
Почему Яндекс запустил Android-телефон "Google Free"?
Русская поисковая компания Яндекс ( NASDAQ: YNDX ) недавно выпустила свой первый смартфон, Android-устройство начального уровня, называемое просто Яндекс-телефон. Он оснащен 5,65-дюймовым экраном с разрешением 2160 x 1080, процессором Snapdragon 630, 4 ГБ ОЗУ, 64 ГБ памяти, двумя 16-мегапиксельными и 5-мегапиксельными задними камерами и 5-мегапиксельной фронтальной камерой. Сначала Яндекс продаст телефон за
Могут ли предпочтения веб-мастеров к Google стать одной из причин, почему многие считают, что у Google «лучшие результаты поиска», чем у конкурентов?
Зачем мне разрешать их сканерам?
Однако кто скажет, что американцы не используют Яндекс?
Или Baidu?
Как можно удалить такие копии из вашей учетной записи Google?
Где именно они?