Поисковые боты.

Поисковой робот или краулер (от англ. crawler) – программа, являющаяся составной частью поисковой системы, которая обходит страницы Интернета, скачивает ее и заносит в базу поисковика. По своей сути краулер больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Глубина проникновения поискового робота внутрь сайта обычно ограничена.

Роботы Яндекса


Yandex/1.01.001 (compatible; Win16; I) -
основной индексирующий робот Яндекса
Yandex/1.01.001 (compatible; Win16; P) -
собирает картинки
Yandex/1.01.001 (compatible; Win16; H) –
ищет зеркала
Yandex/1.02.000 (compatible; Win16; F) –
собирает иконки с сайтов (favicon.ico). Да, есть и такой :)
Yandex/1.03.003 (compatible; Win16; D) –
робот вызывается из формы addurl
Yandex/1.01.001 (compatible; Win16; m) –
cобирает мультимедиа
Yandex/1.03.000 (compatible; Win16; M) –
то-же собирает мультимедиа-файлы. Есть прикольная идея, что m собирает маленькие, а M – большие файлы :)
YaDirectBot/1.0 (compatible; Win16; I) –
собирает страницы из рекламной сети Яндекса
YandexBlog/0.00.101 (compatible; DOS3.3;Mozilla/5.0; robot) –
шарится по блогам


Простукивалки Яндекса (Дятлы)

Yandex/2.01.000 (compatible; Win16; Dyatel; C) - проверяет каталог Яндекса на живучесть сайтов из него. При повтороной недоступности херит сайт из каталога.
Yandex/2.01.000 (compatible; Win16; Dyatel; Я) –
проверяет закладки Яндекса. При недоступности сайта по закладке он показывается серым
Yandex/2.01.000 (compatible; Win16; Dyatel; N) –
Яндекс новости

Новые User-Agent ботов Яндекса:

В течение июня 2010 года Яндекс собирается заменить названия своим роботам (источник – блог Яндекса).
Mozilla/5.0 (compatible; YandexBot/3.0) – основной индексирующий робот.
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector) – робот, определяющий зеркала сайтов.
Mozilla/5.0 (compatible; YandexImages/3.0) - индексатор Яндекс.Картинок.
Mozilla/5.0 (compatible; YandexVideo/3.0) - индексатор Яндекс.Видео.
Mozilla/5.0 (compatible; YandexMedia/3.0) - робот, индексирующий мультимедийные данные.
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot) – робот поиска по блогам, индексирующий комментарии постов.
Mozilla/5.0 (compatible; YandexAddurl/2.0) – робот, обращающийся к странице при добавлении ее через форму «Добавить URL».


Mozilla/5.0 (compatible; YandexFavicons/1.0) - робот, индексирующий пиктограммы сайтов (favicons).
Mozilla/5.0 (compatible; YandexDirect/3.0) – робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса.
Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel) – «простукивалка» Яндекс.Директа.
Mozilla/5.0 (compatible; YandexMetrika/2.0) - робот Яндекс.Метрики.
Mozilla/5.0 (compatible; YandexCatalog/3.0; Dyatel) – «простукивалка» Яндекс.Каталога.
Mozilla/5.0 (compatible; YandexNews/3.0) – индексатор Яндекс.Новостей.

Связано это с необходимостью представления всех роботов к единому виду и необходимостью сделать представления роботов более информативными

Поисковые роботы Google (Гугл)

User-agent для Гугла: Googlebot

- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) – робот Google, понимающий протокол HTTP 1.1. основной гуглоробот
- Mediapartners-Google – поисковой роботы для AdSens
- Googlebot-Image (Google) Googlebot-Image/1.0 – Индексатор картинок
- Google Search Appliance (Google) gsa-crawler – поисковой робот аппаратного поисковика Search Appliance

Googlebot-Mobile – гребёт мобильный контент
Adsbot-Google – проверяет качество объявлений для Adwords и вообще живучесть ссылки в объявлении

Теоретически наличие материалов на сайте для двух последних ботов ускоряют индексирование сайта в гугле.

Поисковые роботы Rambler (Рамблер)

User-agent для Рамблера: StackRambler

Поисковая система Рамблер имеет только робота, Ip-адрес которого может лежать в пределах интервала 81.19.64.0 – 81.19.66.255

- StackRambler/2.0 (MSIE incompatible)
- StackRambler/2.0
Поисковые роботы Yahoo

User-agent для Yahoo: Slurp или Yahoo! Slurp

- Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) – стандартный поисковой робот.
- Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) – новый поисковой робот Yahoo 3-го поколения, работает также как и предыдущий.

Поисковые роботы MSN

User-agent для MSN: MSNBot

- msnbot/1.1 (+http://search.msn.com/msnbot.htm) – основной индексирующий робот MSN.
- msnbot-media/1.0 (+http://search.msn.com/msnbot.htm) – робот поиска по изображениям.
- msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) – робот поиска по изображениям.
- msnbot-news (+http://search.msn.com/msnbot.htm) – новостной робот.

Поисковые роботы Alexa

User-agent для Alexa: ia_archiver

- ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com) – индексирующий робот Alexa, ему же мы обязаны попаданием в web.archive.org