Как поисковые роботы. Роботы Google. Роботы других поисковых систем

Прежде чем понять, что такое роботы пауки поисковых систем и как это работает, нужно разобраться в том, что такое современная поисковая система. Свою популярность интернет начал набирать в 90е на территории стран СНГ.

Поисковая система того времени искала точные слова или словосочетания в тексте. Это доставляло массу неудобств, так как русский язык имеет занятную особенность. Одно и то же понятие можно сформулировать в 10-20 вариантах и получится одно и то же.

Все люди разные и мышление у каждого свое. Разработчик сайта не мог на то время прописывать по 20-30 точных фраз на странице, которые возможно моги бы использоваться для поиска данного материала.

Соответственно пользователь часто не мог найти интересующий его материал только потому, что его формулировка проблемы не совпадала с формулировкой в тексте.

Следует отметить, что тогда не было такой жесткой конкуренции и сайт продвигались совсем иначе. сайтов занималось очень мало людей, тогда эта область еще не была поставлена на конвейер, которым он является сейчас.

Это было просто не нужно, очень мало людей имело домашний компьютер и еще меньшее число позаботилось о подключении интернета. Любой в сети был больше похож на объявление, приклеенное на столб, чем на то, что мы видим сейчас в интернете.

Все это очень тормозило развитие поисковых систем и всей кибер индустрии. К слову сказать, тогда уже были роботы поисковых машин и индексация. Вы уже понимаете, что выводилось в результатах поискового запроса.

Теперь следует объяснить, как именно были устроены первые самые простейшие поисковые роботы.

Для того чтобы просканировать текст нужно время. Сейчас это кажется смешным, текст стал настолько легким и незначительным в глазах современных компьютеров, что сложно представить себе машину, которая бы работала над ним несколько минут.

Однако так и работали компьютеры той эпохи. Значит, сканировать все тексты и материалы по запросу невыгодно по времени. В индекс заносились только заглавные названия и названия страниц.

Вот и объяснение, почему нельзя было разместить 20-30 вариантов с формулировками запроса. Так вот, задачей поискового робота являлась сканирование по запросу заглавных названий и названий страниц.

Сейчас поисковые роботы и индексация запущены в постоянную работу на мощнейших серверах, тогда же все работало по принципу «каждый сам за себя». Любой поиск совершался силами персонального компьютера, на котором был сделан запрос.

Пожалуй, в заключение рассказа о первых поисковых роботах можно добавить только то, что сайт глазами поискового робота выглядел как 2 строчки печатного текста.

Тогда поиск был не таким распространенным, сайты искали на досках объявлений, и по , а так же по рекомендации друзей и знакомых.

Каталоги сайтов - это один из тех реликтов, которые существую и сейчас, они заслуживают более подробного писания, позднее вы поймете, почему они больше не актуальны. Поисковые запросы того времени выглядели следующим образом:

«бесплатная игра»
«общение и знакомства»
«грустный стих»
«последние новости»

Поисковой робот Google

Приблизительно в 2003 году начал активно набирать обороты проект Google. То, на что сегодня молятся практически все люди, работающие в сфере . Можно сказать, что если бы не Google, то не было бы никакого SEO, но об этом позднее.

Итак, в 2003 году уже существовали поисковые системы, которые гораздо более тщательно обрабатывали информацию и предлагали пользователю качественный поиск не только по названия страниц и заголовкам, а по самому тексту.

Тогда алгоритмы поиска работали, настолько криво, что никому и в голову не приходило пытаться их обмануть. На тот момент персональный компьютер уже не был роскошью, однако до современной популярности интернета было еще очень далеко.

Объем интернет аудитории рос с каждым днем, и многие предприимчивые люди сделали ставку на интернет бизнес.

Поиск текста в то время все еще работал по принципу точного вхождения, тогда незаметная компания Google начала свое восхождение на Олимп.

Этот сервис предлагал пользователю поиск информации по фразе, однако при поиске не учитывался падеж, в котором стояли слова. Код поискового робота Google для сайтов анализировал слова по значению и не учитывал падежи.

Такой тип поиска сразу же принес популярность этой поисковой системе. Чуть позже разработчики переделали алгоритм работы поискового робота так, что он начал использовать синонимизацию, стараясь найти наиболее подходящие тексты для пользователя.

На этом этапе развития, компания Google, уже была мировым лидером в сфере поиска. Случилось это из-за того, что в итоге пользователь, использовав любую формулировку, получал нужную ему информацию.

В то время началось изменение стандартной формулировки поисковых фраз.

Они начинали приобретать сегодняшний вид:

«бесплатные онлайн игры»
«сайт знакомств»
«грустные стихи»
«новости»

Можно наглядно проследить изменения в формулировке. Учитывая, что такие формулировки не очень характерны для описаний, поисковый робот Google, прекрасно справлялся с поставленной задачей.

В то время разгорался костер поисковой , люди начали зарабатывать на сайтах. Конечно, всегда были специалисты, которые занимались интернет ресурсов, однако тогда начиналось более-менее массовое движение.

Люли стали интересоваться, как именно происходит ранжирование в поисковой выдаче, приходил ли поисковый робот на их сайт и это породило целый пласт науки о SEO. Эта область занималась изучением того, как роботы поисковых систем выполняют индексацию.

С тех пор о науке SEO продвижения написано большое количество материала, созданы специализированные сервисы и программы для улучшения влияния на поисковых роботов, которые можно скачать в интернете.

Задачей изучений было определение наиболее короткого пути к вершине списка поисковой выдачи. Уже тогда пользователи в первую очередь обращали внимание на верх страницы и первые результаты. Началась борьба за «топ».

Это была лишь тень сегодняшнего соперничества интернет ресурсов.

Поисковой робот Яндекс

На примере этой замечательной поисковой системы можно объяснить, что происходило с алгоритмами поиска в более позднее время. Яндекс занимал неплохие позиции и быстро вырос. Одним из самых популярных поисковых систем до эпохи Google, был такой сервис, как Рамблер.

Он был корифеем поиска, на его глазах поднялись Гугл и Яндекс. Когда то владельцам Рамблер было предложено купить за смешную сумму маленький интернет проект, но они отказались. Тем маленьким проектом был Яндекс.

Буквально за несколько лет эти два гиганта перегнали Рамблер, оставив его далеко позади. Возникает логический вопрос, почему же Гугл не вытеснила поисковый робот Яндекс, что же в нем особенного, как узнать как видит сайт поисковый робот, какими глазами, видят ли роботы iframe, где найти статистику заходов робота на сайт? Следует отметить, что размер этих двух поисковиков нельзя сравнивать, корпорация Google намного больше Яндекса. Однако на территории СНГ эти два конкурента почти на равных.

Яндекс вовремя понял, что универсальность - это не их конек. Попытки занять рынки других стран не увенчались успехом. В критический момент было принято решение развиваться в России и странах СНГ. Поисковый робот Яндекс делал упор на поиске в заданных регионах.

Яндекс ищет по поисковому индексу — базе данных, где для всех слов, которые есть на известных поиску сайтах, указано их местонахождение — адрес страницы и место на ней.

В интернете существует много видов поисковых запросов, однако весомую долю среди них занимают те, которые актуальны для определенной области или региона. Именно на это определение и был заточен поисковый робот Яндекс.

Это и сделало его таким популярным на территории России.

Приведем пример того, какие бывают региональные запросы:

покупка чего-либо;
заказ услуг;
общение и знакомства;
доски объявлений;
новостные ресурсы.

Это далеко не все запросы, которые имеют актуальность только в определенном регионе. Яндекс сделал русский сегмент интернета непохожим на другие. Россия - это самая большая страна в мире, она разделена на регионы и имеет довольно большие территории.

Все это сделало возможным и их только в определенных областях, так как в других местах страны некоторые материалы неактуальны. Во многом на это повлияла система Яндекс, разделив интернет по участкам.

Почему же такая система не работает в других странах, почему там популярен Гугл? Эта система так же умеет определять местонахождения человека, отправившего запрос, его IP адрес, однако он не настолько много уделяет внимания местоположению.

Еще один пример, во Франции поисковые запросы совершаются на французском, а не английском, это преобладающий язык. А значит, язык в других странах является определяющим для поиска, вряд ли кто-то будет пользоваться поиском на Французском языке в Англии или же наоборот.

Если такое случиться, то пользователь сможет просмотреть сайты, которые относятся к стране с наибольшей популярностью языка.

Так и происходит поиск в других странах. Российский интернет является исключением, так как по языковому критерию невозможно разбить по регионам актуальные сайты.

Так что пока Яндекс более актуален для России, чем гугл, возможно, когда то этот гигант вытеснит всех конкурентов, но пока что не стоит бояться такого.

Роботы поисковых систем очень изменились за то время, в них добавилось много интересных нюансов в алгоритме поиска.

Вот список основных навыков поисковых роботов за последующие несколько лет:

анализ ;
проверка информативности текста;
выделение ключевых слов по их количеству;
вычисление «веса» страниц;
обработка показателей отказа.

Эти показатели работали на то, чтобы максимально эффективно вычислить вычислить поисковому роботу как часто пользователь видит и читает текст, какова его информативность. Однако, все это не работало так, как было задумано. В то время поисковые системы попали в эру роботизированных текстов.

Это значит, что практически все популярные запросы выдавали не полезную информацию, а технически правильно написанный материал. Самое интересное, что такой текст очень редко был информативным и полезным.

С этим нужно было что-то делать, в разное время вводились некоторые изменения. Например, поисковый робот Google, была интегрирована система вычисления и подсчета показателей отказа.

Это значит, что поисковая система начала производить ранжирование с учетом того, насколько долго человек проводил времени на конкретной странице. Этот показатель вычисляется и сейчас.

Самым серьезным нововведением того времени было введение систем и , от Google и Яндекс соответственно. Смысл этого значения состоял в том, чтобы вычислить вес страниц по принципу цитируемости.

Яндекс объясняет введение этой системы тем, что в научном сообществе существует показатель, который определяет актуальность научной работы. Называется этот показатель «Индекс цитируемости».

В зависимости от того, насколько много в различных работах ссылаются на данный текст, вычисляется их актуальность. Так роботы поисковых систем научились вычислять вес страниц путем сканирования входящих ссылок.

Это перевернуло мир SEO и поставило понятие раскрутки сайта в новую параллель. Теперь контента было недостаточно, чтобы вывести сайт в топ. Ему требовались внешние ссылки и грамотная система внутренней перелинковки.

Внутренняя перелинковка позволяла перебросить вес с одних страниц, на другие. Это стало очень удобным инструментом при управлении своего сайта.

Современные поисковые роботы и индексация

Как мы видим, поисковой робот, который работал по этим алгоритмам, выдавал по запросу технические тексты, которые были не интересны пользователю.

Но аналога поисковой системы Google не было, она не теряла своей популярности, и ее разработчики поступили очень грамотно, переделав алгоритм поиска под нужды пользователя. На данный момент все существовавшие тогда уловки для работы с текстом, стали недействительными.

На данный момент поисковый робот Google для сайтов намного меньше уделяет вниманию . Все усилия поисковика направлены на отсеивание технического материала, который создавался под поисковых роботов.

Анализируется много пунктов, не все они известны на данный момент, так как поисковые системы предпочитают держать такую информацию в тайне. Это нужно, чтобы не возникало подобных кризисов.

Такое развитие повлекло за собой множество изменений в SEO бизнесе. Во время кризиса роботизированных текстов все усилия оптимизаторов были направлены на то, чтоб сделать текст максимально комфортным для робота.

На данный же момент, алгоритмы поиска таковы, что больше нет смысла рассчитывать текст на робота. Гораздо больше результатов приносит материал, который интересен пользователю.

Достаточно провести минимальную оптимизацию, вводя в текст ключевые слова и сделать текст уникальным. Этого достаточно для поисковой системы, эти способы нужны скорее не для того, чтоб обмануть робота, а с той целью, чтоб облегчить ему задачу индексирования.

Следует отметить, что поисковый робот Google для сайтов, и сейчас учитывает «вес страниц» при ранжировании. Это один из самых основных показателей, который зарекомендовал себя за годы службы, нет причин думать, что он станет неактуальным.

Многие показатели анализа текста перестали учитываться или же им стало уделяться минимум внимания. Еще один интересный момент в работе поисковика Google.

Как уже говорилось выше, учитывается показатель отказов, это немного нарушает права пользователя об информационной анонимности, но такой способ позволяет реально определить качество сайта и данной страницы в частности.

Вот пример нескольких моментов, которые могут привести к повышению показателя отказов :

неактуальность материала;
технические проблемы с работой сервера;
большое количество ;
слишком яркий , который буквально «выжигает» глаза.

За время работы поисковых систем, оптимизаторы пытались приручить роботов. Однако, только начав приручать, он снова менялся и уже не хотел работать со старым материалом. Такие попытки были всегда, и наблюдать их можно будет, пока существует интернет.

Все из-за того, что понять робота можно, его анализ, запросы и требования к материалу гораздо проще, чем у человека. Их всегда будут пытаться разгадать. Однако всегда будут люди, которые будут создавать сайты для пользователей и в итоге они получат свое признание.

Хоть этот путь долг и тернист, а развитие ресурса таким путем очень долгое, но оно в любом случае будет долгосрочным, так как роботы поисковых систем всегда будут искать именно такой материал. Следует отметить, что такая конкуренция это хорошо.

Если бы поисковик сдал позиции, то мы бы не получали нужной информации через него. А если бы оптимизаторы сложили руки, то интернет перестал бы быть такой большой бизнес площадкой, и в нем бы не было многих материалов, так как на добровольной основе ресурсы развивались бы намного медленнее.

С уважением, Настя Чехова
Удаление сайта целиком

Чтобы удалить сайт из поисковых систем и запретить всем роботам в дальнейшем его сканировать, разместите в корневом каталоге сервера файл robots.txt следующего содержания:

User-agent: *
Disallow: /

Чтобы удалить сайт только из Google и запретить поисковому роботу Google в дальнейшем его сканировать, разместите в корневом каталоге сервера файл robots.txt со следующим содержанием:

User-agent: Googlebot
Disallow: /

Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть следующим образом.

Для протокола http (http://yourserver.com/robots.txt ):

User-agent: *
Allow: /

Для протокола https (https://yourserver.com/robots.txt ):

User-agent: *
Disallow: /

Если файл robots.txt останется в корневом каталоге веб-сервера, в дальнейшем Google не будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу сервера, можно поместить файл robots.txt на одном уровне с теми файлами, которые требуется удалить. После того как Вы это сделаете и воспользуетесь системой автоматического удаления URL, сайт будет временно, на 180 дней, удален из индекса Google независимо от того, будет ли удален файл robots.txt после обработки запроса. (Если оставить файл robots.txt на том же уровне, URL потребуется удалять с помощью автоматической системы каждые 180 дней.)

Удаление части сайта

Вариант 1. Robots.txt

Чтобы удалить каталоги или отдельные страницы сайта, можно поместить файл robots.txt в корневом каталоге сервера. О том, как создать файл robots.txt, рассказывается в Стандарт исключений для роботов. Создавая файл robots.txt, учитывайте следующие моменты. Принимая решение о том, какие страницы сканировать на том или ином хосте, поисковый робот Google действует в соответствии с первой записью в файле robots.txt, где параметр User-agent начинается со слова "Googlebot". Если такой записи нет, выполняется первое правило, в котором User-agent – «*». Кроме того, Google позволяет использовать файл robots.txt более гибко за счет применения звездочек. В шаблонах запрета символ «*» может означать любую последовательность символов. Шаблон может оканчиваться символом «$», который обозначает конец имени.

Чтобы удалить все страницы того или иного каталога (например, "lemurs"), добавьте в файл robots.txt такую запись:

User-agent: Googlebot
Disallow: /lemurs

Чтобы удалить все файлы определенного типа (например, .gif), добавьте в файл robots.txt такую запись:

User-agent: Googlebot
Disallow: /*.gif$

Чтобы удалить динамически создаваемые страницы, добавьте в файл robots.txt такую запись:

User-agent: Googlebot
Disallow: /*?

Вариант 2. Мета-теги

Другой стандарт, более удобный для работы со страницами, предусматривает использование на странице формата HTML мета-тега, запрещающего роботам индексировать страницу. Этот стандарт описан на странице .

Чтобы запретить всем роботам индексировать страницу сайта, добавьте в раздел этой страницы следующий мета-тег:

Чтобы запретить индексировать страницу только роботам Google, а остальным разрешить, используйте следующий тег:

Чтобы разрешить роботам индексировать страницу, но запретить переходить по внешним ссылкам, используйте следующий тег:

Примечание. Если Ваш запрос срочный и ждать следующего сканирования Google невозможно, воспользуйтесь автоматической системой удаления URL.. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала вставить в код страницы HTML соответствующие метатеги. После этого каталоги будут временно, на 180 дней, удалены из индекса Google независимо от того, удалите ли Вы файл robots.txt или метатеги после обработки запроса.

Удаление фрагментов (сниппетов)

Фрагмент (сниппет) – это текст, который показывается под названием страницы в списке результатов поиска и описывает содержание страницы.

Чтобы запретить Google выводить фрагменты с Вашей страницы, добавьте в раздел следующий тег:

Примечание. При удалении фрагментов удаляются также и сохраненные в кэше страницы.

Удаление сохраненных в кэше страниц

Google автоматически создает и архивирует снимок каждой сканируемой страницы. Наличие таких сохраненных в кэше версий позволяет конечным пользователям находить страницы, даже если они недоступны (из-за временной неполадки на сервере, где размещена страница). Пользователи видят сохраненные в кэше страницы в том виде, в каком они были в момент сканирования роботом Google. Вверху страницы выводится сообщение о том, что это сохраненная в кэше версия. Чтобы получить доступ к такой странице, пользователь должен выбрать ссылку «Сохранено в кэше» на странице результатов поиска.

Чтобы запретить всем поисковым системам выводить эту ссылку на Ваш сайт, добавьте в раздел следующий тег:

Примечание. Если Ваш запрос срочный и дождаться следующего сеанса сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического удаления URL. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала вставить в код HTML страницы соответствующие метатеги.

Удаление картинки из системы поиска картинок Google

Чтобы удалить картинку из индекса картинок Google, разместите в корневом каталоге сервера файл robots.txt. (Если это невозможно, поместите его на уровне каталога).

Пример: Если требуется удалить из индекса Google изображение sobaki.jpg, размещенное на Вашем сайте по адресу www.vash-sajt.ru/kartinki/sobaki.jpg, создайте страницу www.vash-sajt.ru/robots.txt и добавьте на нее следующий текст:

User-agent: Googlebot-Image
Disallow: /images/sobaki.jpg

Чтобы удалить из индекса все имеющиеся на сайте картинки, разместите в корневом каталоге сервера файл robots.txt со следующим содержанием:

User-agent: Googlebot-Image
Disallow: /

Это стандартный протокол, который соблюдает большинство сканеров; он позволяет удалить из индекса сервер или каталог. Дополнительная информация о robots.txt представлена на странице

Кроме того, Google позволяет использовать файл robots.txt более гибко за счет использования звездочек. В шаблонах запрета символ «*» может означать любую последовательность символов. Шаблон может оканчиваться символом «$», который обозначает конец имени. Чтобы удалить все файлы определенного типа (например, чтобы оставить картинки в формате.jpg, а в формате.gif удалить), добавьте в файл robots.txt такую запись:

User-agent: Googlebot-Image
Disallow: /*.gif$

Примечание. Если Ваш запрос срочный и дождаться следующего сеанса сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического удаления URL. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала создать файл robots.txt и поместить его на соответствующем сайте.

Если файл robots.txt останется в корневом каталоге веб-сервера, Google и в дальнейшем не будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу сервера, можно поместить файл robots.txt на одном уровне с теми файлами, которые требуется удалить. После того как Вы это сделаете и воспользуетесь системой автоматического удаления URL, временно, на 180 дней, будут удалены каталоги, указанные в файле robots.txt, из индекса Google независимо от того, удалите ли Вы файл robots.txt после обработки запроса. (Если оставить файл robots.txt на том же уровне, URL потребуется удалять с помощью автоматической системы каждые 180 дней.)

Вопреки расхожему мнению, робот непосредственно не занимается какой-либо обработкой сканируемых документов. Он их только считывает и сохраняет, дальше их обработку осуществляют другие программы. Наглядное подтверждение можно получить, анализируя логи сайта, который индексируется в первый раз. При первом визите бот сначала запрашивает файл robots.txt, затем главную страницу сайта. То есть идет по единственной известной ему ссылке. На этом первый визит бота всегда и заканчивается. Через некоторое время (обычно на следующий день) бот запрашивает следующие страницы - по ссылкам, которые найдены на уже считанной странице. Дальше процесс продолжается в том же порядке: запрос страниц, ссылки на которые уже найдены - пауза на обработку считанных документов - следующий сеанс с запросом найденных ссылок.

Разбор страниц «на лету» означал бы значительно бо льшую ресурсоемкость робота и потери времени. Каждый сервер сканирования запускает множество процессов-ботов параллельно. Они должны действовать максимально быстро, чтобы успеть считывать новые страницы и повторно перечитывать уже известные. Поэтому боты только считывают и сохраняют документы. Все, что они сохраняют, ставится в очередь на обработку (разборку кода). Найденные при обработке страниц ссылки ставятся в очередь заданий для ботов. Так и идет непрерывное сканирование всей сети. Единственное, что бот может и должен анализировать «на лету» - это файл robots.txt, чтобы не запрашивать адреса, которые в нем запрещены. При каждом сеансе сканирования сайта робот в первую очередь запрашивает этот файл, а уже после него - все стоящие в очереди на сканирование страницы.

Виды поисковых роботов

У каждой поисковой системы есть свой набор роботов для различных целей.
В основном они различаются по функциональному назначению, хотя границы очень условны, и каждый поисковик понимает их по-своему. Системам только для полнотекстового поиска вполне достаточно одного робота на все случаи жизни. У тех поисковиков, которые заняты не только текстом, боты разделяются как минимум на две категории: для текстов и рисунков. Существуют также отдельные боты, занятые специфическими видами контента - мобильным, блоговым, новостным, видео и т.д.

Роботы Google

Все роботы Google носят общее название Googlebot. Основной робот-индексатор «представляется» так:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Этот бот занят сканированием HTML -страниц и прочих документов для основного поиска Google. Он же изредка считывает файлы CSS и JS - в основном это можно заметить на ранней стадии индексирования сайта, пока бот обходит сайт впервые. Принимаемые типы контента - все (Accept: */*).

Второй из основных ботов занят сканированием изображений с сайта. Он «представляется» просто:
Googlebot-Image/1.0
Еще в логах замечены как минимум три бота, занятых сбором контента для мобильной версии поиска. Поле User-agent всех трех оканчивается строкой:
(compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
Перед этой строкой - модель мобильного телефона, с которой этот бот совместим. У замеченных ботов это модели телефонов Nokia, Samsung и iPhone. Принимаемые типы контента - все, но с указанием приоритетов:
Accept: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Роботы Яндекса

Из поисковиков, активно действующих в Рунете, самая большая коллекция ботов у Яндекса. В разделе помощи для вебмастеров можно найти официальный список всего паучьего личного состава. Приводить его здесь полностью нет смысла, поскольку в этом списке периодически происходят изменения.
Тем не менее, о самых важных для нас роботах Яндекса нужно упомянуть отдельно.
Основной индексирующий робот на текущий момент зовется
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
Ранее представлялся как
Yandex/1.01.001 (compatible; Win16; I)
Считывает HTML -страницы сайта и другие документы для индексирования. Список принимаемых медиатипов ранее был ограничен:
Accept: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1
С 31 июля 2009 года в этом списке было замечено существенное расширение (число типов почти удвоилось), а с 10 ноября 2009 года список укоротился до */* (все типы).
Этого робота живо интересует вполне определенный набор языков: русский, несколько менее украинский и белорусский, еще чуть меньше английский и совсем мало - все остальные языки.
Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01
Робот-сканер изображений несет в поле User-agent строку:
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)
Занимается сканированием графики разных форматов для поиска в картинках.

В отличие от Google, у Яндекса есть отдельные боты для обслуживания некоторых специальных функций общего поиска.
Робот-«зеркальщик»
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)
Ничего особенно сложного не делает - периодически появляется и проверяет, совпадает ли главная страница сайта при обращении к домену с www. и без. Также проверяет параллельные домены-«зеркала» на совпадение. По-видимому, зеркалами и канонической формой доменов в Яндексе занимается отдельный программный комплекс, не связанный напрямую с индексированием. Иначе решительно нечем объяснить существование для этой цели отдельного бота.

Сборщик иконок favicon.ico
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)
Периодически появляется и запрашивает иконку favicon.ico, которая потом появляется в поисковой выдаче рядом со ссылкой на сайт. По каким причинам эту обязанность не совмещает сборщик картинок, неизвестно. По-видимому, также имеет место отдельный программный комплекс.

Проверочный бот для новых сайтов, работает при добавлении в форму AddURL
Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)
Этот бот проверяет отклик сайта, посылая запрос HEAD к корневому URL . Таким образом проверяется существование главной страницы в домене и анализируются HTTP -заголовки этой страницы. Также бот запрашивает файл robots.txt в корне сайта. Таким образом после подачи ссылки в AddURL определяется, что сайт существует и ни в robots.txt, ни в HTTP -заголовках не запрещен доступ к главной странице.

Робот Рамблера

В настоящее время уже не работает , поскольку Рамблер сейчас использует поиск Яндекса
Робота-индексатора Рамблера легко опознать в логах по полю User-agent
StackRambler/2.0 (MSIE incompatible)
По сравнению с «коллегами» из других поисковых систем этот бот кажется совсем простым: не указывает список медиатипов (соответственно, получает запрошенный документ любого типа), поле Accept-Language в запросе отсутствует, в запросах бота не встречено также поле If-Modified-since.

Робот Mail.Ru

Об этом роботе пока известно немного. Разработку собственного поиска портал Mail.Ru ведет уже давно, но все никак не соберется этот поиск запустить. Поэтому достоверно известно только наименование бота в User-agent - Mail.Ru/2.0 (ранее - Mail.Ru/1.0). Наименование бота для директив файла robors.txt нигде не публиковалось, есть предположение, что бота так и следует звать Mail.Ru.

Прочие роботы

Поиск в интернете, конечно, не ограничивается двумя поисковыми системами. Поэтому существуют и другие роботы - например робот Bing - поисковой системы от Microsoft и другие роботы. Так, в частности, в Китае есть национальная поисковая система Baidu - но ее робот вряд ли долетит до середины реки дойдет до русского сайта .

Кроме того, в последнее время расплодилось много сервисов - в частности solomono - которые хоть и не являются поисковыми системами, но тоже сканирует сайты. Часто ценность передачи информации о сайте таким системам сомнительна, и поэтому их роботов можно запретить в
Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Как функционируют роботы поисковых систем

Поисковый робот (паук, бот) представляет собой небольшую программу, способную без участия оператора посещать миллионы web-сайтов и сканировать гигабайты текстов. Считывание страниц и сохранение их текстовых копий – это первая стадия индексации новых документов. Следует отметить, что роботы поисковых систем не осуществляют какую-либо обработку полученных данных. В их задачу входит только сохранение текстовой информации.

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA

Список поисковых роботов

Из всех поисковиков, занимающихся сканированием Рунета, самой большой коллекцией ботов располагает Яндекс. За индексацию отвечают следующие боты:

главный индексирующий робот, собирающий данные со страниц web-сайтов;

бот, способный распознавать зеркала;

поисковый робот Яндекс, осуществляющий индексацию картинок;

паук, просматривающий страницы сайтов, принятых в РСЯ;

робот, сканирующий иконки favicon;

несколько пауков, определяющих доступность страниц сайта.

Главный поисковый робот Google занимается сбором текстовой информации. В основном он просматривает html-файлы, с определенной периодичностью анализирует JS и CSS. Способен воспринимать любые типы контента, разрешенные к индексации. ПС Гугл располагает пауком, контролирующим индексацию изображений. Есть также поисковый робот – программа, поддерживающая функционирование мобильной версии поиска.

Увидеть сайт глазами поискового робота

Чтобы исправить погрешности кода и прочие недочеты, вебмастер может узнать, как видит сайт поисковый робот. Эту возможность предоставляет ПС Google. Потребуется перейти в инструменты для вебмастеров, а затем кликнуть на вкладку «сканирование». В открывшемся окне нужно выбрать строчку «просмотреть как Googlebot». Далее нужно завести адрес исследуемой страницы в поисковую форму (без указания домена и протокола http://).

Выбрав команду «получить и отобразить», вебмастер сможет визуально оценить состояние страницы сайта. Для этого понадобится кликнуть по галочке «запрос на отображение». Откроется окно с двумя версиями web-документа. Вебмастер узнает, как видит страницу обычный посетитель, и в каком виде она доступна для поискового паука.
Совет!Если анализируемый web-документ еще не проиндексирован, то можно воспользоваться командой «добавить в индекс» >> «сканировать только этот URL». Паук проанализирует документ через несколько минут, в ближайшем времени web-страница появится в выдаче. Месячный лимит запросов на индексацию составляет 500 документов.

Как повлиять на скорость индексирования

Выяснив, как работают поисковые роботы, вебмастер сможет гораздо результативнее продвигать свой сайт. Одной из основных проблем многих молодых web-проектов является плохая индексация. Роботы поисковых систем неохотно посещают неавторитетные интернет ресурсы.
Установлено, что скорость индексации напрямую зависит от того, с какой интенсивностью обновляется сайт. Регулярное добавление уникальных текстовых материалов позволит привлечь внимание поисковика.

Для ускорения индексации можно воспользоваться соцзакладками и сервисом twitter. Рекомендуется сформировать карту сайта Sitemap и загрузить ее в корневую директорию web-проекта.

Для сканирования веб-сайтов поисковые системы используют роботов (пауков, краулеров) - программы для индексации страниц и занесения полученной информации в базу данных. Принцип действия паука похож на работу браузера: он оценивает содержимое страницы, сохраняет ее на сервере поисковика и переходит по гиперссылкам в другие разделы.

Разработчики поисковых систем могут ограничивать максимальный объем сканируемого текста и глубину проникновения робота внутрь ресурса. Поэтому для эффективной раскрутки сайта эти параметры корректируют в соответствии с особенностями индексации страниц различными пауками.

Частота визитов, порядок обхода сайтов и критерии определения релевантности информации запросам пользователей задаются поисковыми алгоритмами. Если на продвигаемый ресурс ведет хотя бы одна ссылка с другого веб-сайта, роботы со временем его проиндексируют (чем больше вес линка, тем быстрее). В обратном случае для ускорения раскрутки сайта его URL добавляют в базу данных поисковых систем вручную.

Виды пауков

В зависимости от назначения различают следующие виды поисковых роботов.

национальные, или главные. Собирают информацию с одного национального домена, например, .ru или.su, и принятых к индексации сайтов;

глобальные. Осуществляют сбор данных со всех национальных сайтов;

индексаторы картинок, аудио и видео файлов;

зеркальщики. Определяют зеркала ресурсов;

ссылочные. Подсчитывают число ссылок на сайте;

подсветчики. Оформляют результаты поисковых систем, например, выделяют в тексте запрашиваемые словосочетания;

проверяющие. Контролируют наличие ресурса в базе данных поисковика и число проиндексированных документов;

стукачи (или дятлы). Периодически определяют доступность сайта, страницы или документа, на который ведет ссылка;

шпионы. Выполняют поиск ссылок на ресурсы, еще не проиндексированные поисковыми системами;

смотрители. Запускаются в ручном режиме и перепроверяют полученные результаты;

исследователи. Используются для отладки поисковых алгоритмов и изучения отдельных сайтов;

быстрые роботы. В автоматическом режиме проверяют дату последнего обновления и оперативно индексируют новую информацию.

Обозначения

При поисковой оптимизации сайта часть контента закрывают от индексации роботами (личную переписку посетителей, корзины заказов, страницы с профилями зарегистрированных пользователей и т.д.). Для этого в файле robots.txt в поле User-agent прописывают имена роботов: для поисковой системы Яндекс — Yandex, для Google - Googlebot, для Rambler - StackRambler, для Yahoo - Yahoo! Slurp или Slurp, для MSN - MSNBot, для Alexa - ia_archiver и т.д.