Всё о поисковых системах
Объем доступной для конкретного пользователя информации в Интернете во многом ограничивается возможностями поисковых систем.
Поэтому очень важно иметь представление о том, как работают поисковые
системы, как много страниц они "видят", и насколько актуальна
предоставляемая ими информация.
Каждая поисковая система состоит из двух частей - поискового HTTP-робота
и модуля обработки запроса пользователя. HTTP-робот - это программа,
которая собирает доступную в виде текста информацию. Вся собранная
информация записывается в index-файл. Поиск осуществляется другой программой, которая извлекает запрашиваемую пользователем информацию из index-файла.
Качество работы отдельно взятой поисковой системы сильно зависит от качества работы обоих программных модулей системы.
Для того чтобы оценить работу HTTP-роботов различных
поисковых систем, на одном из Рунетовских сайтов с объемом страниц выше
среднего, была установлена специальная система, отслеживающая все
характерные для индексирующих роботов обращения.
Ниже представлена таблица, составленная на основе
показаний нашей системы в период с середины лета 2000 года по конец
декабря 2000 года:
Поисковая система |
HTTP-Робот |
Глубина индексации |
Частота индексации |
http://www.alltheweb.com |
FAST-WebCrawler |
127,04% |
раз в месяц |
http://www.google.com |
Googlebot |
114,25% |
раз в три дня |
http://www.inktomi.com |
Slurp |
100,9% |
ежедневно |
http://www.yandex.ru |
Yandex |
95,13% |
раз в два дня |
http://www.northernlight.com |
Gulliver |
64,74% |
раз в 24 дня |
http://www.altavista.com |
Scooter/Mercator |
44,92% |
раз в три дня |
http://www.lycos.com |
Lycos_Spider_(T-Rex) |
8,68% |
раз в неделю |
http://www.webtop.com/ |
MuscatFerret |
7,62% |
раз в месяц |
http://www.aport.ru |
Aport |
2,41% |
раз в неделю |
http://www.euroseek.com |
Arachnoidea |
1,82% |
один раз |
http://www.rambler.ru |
StackRambler |
0,27% |
раз в месяц |
http://www.links2go.com/ |
Links2Go Similarity Engine |
0,19% |
раз в месяц |
http://www.excite.com |
ArchitextSpider |
0,11% |
раз в 17 дней |
|
Глубина индексации определена следующим
образом. За 100% взята вся доступная на подопытном сайте текстовая
информация по ссылкам от головного файла. Значения выше 100% означают,
что данный робот получил доступ к файлам не доступным по ссылкам с
домашней страницы сайта или же закачал не текстовые, а мультимедийные
или бинарные файлы, как это делает "FAST-WebCrawler".
Частота индексации показывает, как часто
HTTP-робот возвращается, чтобы отследить и зафиксировать изменения или
обновления произошедшие на отдельном сайте. Чаще всего HTTP-роботы
запрашивают заглавный файл отдельного сайта. Исключением является робот
системы NorthernLight - "Gulliver", который чаще обращался к файлам находящимся ниже заглавного документа.
Многолетние наблюдения за индексирующими роботами
выявили характерные особенности в их "поведении". Наиболее стабильным
себя показал робот системы Lycos - "Lycos_Spider_(T-Rex)". Однако поисковая система Lycos дает весьма поверхностный охват Интернета, несмотря на грозное название своего HTTP-робота.
Относительно новые поисковые системы Google и AllTheWeb действительно дают нам возможность искать в Интернете, а не в какой-то его части. Робот системы AllTheWeb
- "FAST-WebCrawler" замечен нами относительно недавно, однако по многим
показателям он превосходит своих конкурентов. HTTP-робот системы Google - "Googlebot" замечен много раньше, да и сложно было бы его не заметить поскольку это один из самых активных роботов.
Очень хорошо зарекомендовала себя система
...
Читать дальше »