Всё о поисковых системах
Объем доступной для конкретного пользователя информации в Интернете во многом ограничивается возможностями поисковых систем.
Поэтому очень важно иметь представление о том, как работают поисковые
системы, как много страниц они "видят", и насколько актуальна
предоставляемая ими информация.
Каждая поисковая система состоит из двух частей - поискового HTTP-робота
и модуля обработки запроса пользователя. HTTP-робот - это программа,
которая собирает доступную в виде текста информацию. Вся собранная
информация записывается в index-файл. Поиск осуществляется другой программой, которая извлекает запрашиваемую пользователем информацию из index-файла.
Качество работы отдельно взятой поисковой системы сильно зависит от качества работы обоих программных модулей системы.
Для того чтобы оценить работу HTTP-роботов различных
поисковых систем, на одном из Рунетовских сайтов с объемом страниц выше
среднего, была установлена специальная система, отслеживающая все
характерные для индексирующих роботов обращения.
Ниже представлена таблица, составленная на основе
показаний нашей системы в период с середины лета 2000 года по конец
декабря 2000 года:
Поисковая система |
HTTP-Робот |
Глубина индексации |
Частота индексации |
http://www.alltheweb.com |
FAST-WebCrawler |
127,04% |
раз в месяц |
http://www.google.com |
Googlebot |
114,25% |
раз в три дня |
http://www.inktomi.com |
Slurp |
100,9% |
ежедневно |
http://www.yandex.ru |
Yandex |
95,13% |
раз в два дня |
http://www.northernlight.com |
Gulliver |
64,74% |
раз в 24 дня |
http://www.altavista.com |
Scooter/Mercator |
44,92% |
раз в три дня |
http://www.lycos.com |
Lycos_Spider_(T-Rex) |
8,68% |
раз в неделю |
http://www.webtop.com/ |
MuscatFerret |
7,62% |
раз в месяц |
http://www.aport.ru |
Aport |
2,41% |
раз в неделю |
http://www.euroseek.com |
Arachnoidea |
1,82% |
один раз |
http://www.rambler.ru |
StackRambler |
0,27% |
раз в месяц |
http://www.links2go.com/ |
Links2Go Similarity Engine |
0,19% |
раз в месяц |
http://www.excite.com |
ArchitextSpider |
0,11% |
раз в 17 дней |
|
Глубина индексации определена следующим
образом. За 100% взята вся доступная на подопытном сайте текстовая
информация по ссылкам от головного файла. Значения выше 100% означают,
что данный робот получил доступ к файлам не доступным по ссылкам с
домашней страницы сайта или же закачал не текстовые, а мультимедийные
или бинарные файлы, как это делает "FAST-WebCrawler".
Частота индексации показывает, как часто
HTTP-робот возвращается, чтобы отследить и зафиксировать изменения или
обновления произошедшие на отдельном сайте. Чаще всего HTTP-роботы
запрашивают заглавный файл отдельного сайта. Исключением является робот
системы NorthernLight - "Gulliver", который чаще обращался к файлам находящимся ниже заглавного документа.
Многолетние наблюдения за индексирующими роботами
выявили характерные особенности в их "поведении". Наиболее стабильным
себя показал робот системы Lycos - "Lycos_Spider_(T-Rex)". Однако поисковая система Lycos дает весьма поверхностный охват Интернета, несмотря на грозное название своего HTTP-робота.
Относительно новые поисковые системы Google и AllTheWeb действительно дают нам возможность искать в Интернете, а не в какой-то его части. Робот системы AllTheWeb
- "FAST-WebCrawler" замечен нами относительно недавно, однако по многим
показателям он превосходит своих конкурентов. HTTP-робот системы Google - "Googlebot" замечен много раньше, да и сложно было бы его не заметить поскольку это один из самых активных роботов.
Очень хорошо зарекомендовала себя система NorthernLight. Один из самых больших индекс-файлов Интернета, подкреплен отличным поисковым модулем с расширенным синтаксисом запросов.
Робот корпорации Inktomi - "Slurp" используется несколькими поисковыми системами. Самая заметная из них http://www.hotbot.com/. "Slurp" - самый активный робот в Интернете.
AltaVista судя по всему обладает самым грамотным программным обеспечением, однако уступает в мощности, например, системе Google. К сожалению, компания AltaVista закрыла свой, на наш взгляд, наиболее удачный поисковый проект http://www.raging.com.
Поисковая система Яндекс по многим показателям зарекомендовала себя, как система мирового уровня. Яндекс
действительно обладает конкурентоспособным программным обеспечением.
Однако система "заточена" под кириллицу и индексирует преимущественно
сайты в зоне RU. Поэтому мы относим Яндекс к системе третьего(локального) класса.
Возможности поискового робота системы Rambler, значительно уступают возможностям HTTP-робота системы Яндекс. Однако Rambler активно использует информацию, введенную пользователями вручную через формы регистрации. За счет этого Rambler нередко выдает более актуальную информацию, чем Яндекс.
Наша профессиональная оценка "ценности" поисковых систем приведена в следующей таблице:
В этой таблице мы представили результаты сравнения
компонентов одной поисковой системы с компонентами другой. Три звездочки
- высшая оценка, указывают на то, что в данном компоненте система ни в
чем не уступает конкурентам. Две звездочки соответственно указывают, на
относительное отставание системы в конкретном компоненте.
Синтаксисом системы мы называем возможности
языка запросов поискового модуля системы. Оценивая этот важнейший
компонент, мы учитывали также качество реализации заявленного системой
синтаксиса запросов.
Корректность робота - параметр, указывающий на
то, с какой интенсивностью HTTP-робот запрашивает документы отдельного
сайта. Оценку в две звездочки мы поставили HTTP-роботам, которые могут
вызывать загрузку сервера из-за слишком интенсивного обращения.
Замечено, что роботы Rambler'а и Яндекс'а
могут вызывать загрузку серверов. Справедливости ради стоит заметить,
что тесты проводились на российских серверах, поэтому большая
интенсивность обращений HTTP-роботов ведущих российских систем вполне
оправдана.
Поисковые системы мы разделили на пять классов.
К первому классу причислены системы с наибольшим объемом индекс файла,
обеспечивающим наиболее обширный охват Интернета. Ко второму классу
причислены системы индексирующие Интернет выборочно, т.е. прежде всего
основные документы отдельно взятого сайта. К третьему классу причислены
локальные системы, т.е. системы осуществляющие поиск в заданных рамках.
Например, Яндекс - ограничивается Рунетом, а EuroSeek
изначально ориентирован на индексирование европейской части Интернета. К
четвертому классу мы причислили локальные системы, со схемой выборочной
индексации, похожей на схему индексации систем второго класса. И,
наконец, к пятому классу мы причислили тематические поисковые системы. Типичный пример системы пятого класса поисковая система Referat.cc.
Из зафиксированных, но не вошедших в таблицы поисковых роботов также отметим - DirectHit, http://tela.dux.ru/ (HTTP-робот MOMSpider) и http://www.fireball.de/ (HTTP-робот "KIT-Fireball").
Помимо упомянутых HTTP-роботов, в просторах Интернета
замечено еще несколько десятков индексирующих и не индексирующих
роботов. Хороший пример нетрадиционного использования собранной таким
образом информации - http://www.findsame.com/ (HTTP-робот "DIIbot") - система, предназначенная для поиска сходных документов.
Подавляющее большинство не вошедших в наш обзор
поисковых систем либо не имеют своего индексирующего робота, либо
являются системами 2-го, 3-го, 4-го или 5-го класса.
Системы, не имеющие своего HTTP-робота, как правило,
используют возможности других поисковых систем. Такие системы либо
используют HTTP-роботы, описанные выше, либо являются мета-поисковыми системами.
Классическим вариантом мета-поисковой системы, является система MetaBot.Ru.
Эта система одновременно опрашивает несколько ведущих поисковых систем и
выдает пользователю компактный, предварительно отсортированный и
тщательно проанализированный список результатов.
На данный момент, наиболее распространены поисковые системы, использующие технологии трех компаний - "Fast Search & Transfer" (AllTheWeb), "Inktomi" и "Google".
Наблюдается также интеграция технологий между разными поисковыми системами.
HotBot использует симбиоз технологий Inktomi и DirectHit. DirectHit
- технология, отслеживающая выбор пользователя для каждого конкретного
запроса. Собранная таким образом информация влияет на позиции ссылок в
результатах поиска.
Lycos, помимо своих собственных технологий, частично использует технологии "Fast Search & Transfer".
Подводя итог, особо отметим системы AltaVista, Google, Яндекс и MetaBot.Ru.
По оценкам наших специалистов AltaVista на голову превосходит всех конкурентов по некоторым важнейшим показателям. Google, пожалуй, самая дружелюбная и понятная пользователю поисковая система. Недаром популярный каталог Yahoo использует технологию Google. Мы рекомендуем пользоваться также поисковой системой по серверам новостей - Google Groups. В группах новостей можно найти ответ практически на любой вопрос. Яндекс, по мнению как специалистов так и пользователей, наиболее мощная и грамотная российская поисковая система.
Мета-поисковая система MetaBot.Ru,
была создана нами по итогам масштабных исследований и призвана
объединить лучшие качества лучших поисковых систем в единый поисковый
проект с общим интерфейсом и общим синтаксисом запросов. Мы постарались
минимизировать недостатки мета-поисковой технологии и максимально
использовали ее преимущества.
Автор статьи Константин Айги.
При использовании материалов статьи, ссылка на автора и проект MetaBot.Ru обязательна. Поисковые системы!
Rambler.ru - с англ. "скиталец, странник, бродяга". 26 сентября 1996 года был
зарегистрирован домен www.rambler.ru,
а 8 октября была активизирована система. В 1997 году появляется Rambler Top100 уникальный
рейтинг-классификатор, он оценивает популярность российских ресурсов на
основе объективных данных и позволяет попасть на них одним
"кликом". Множество поектов: статистика рунета, поиск
среди картинок, система онлайн платежей,
каталог
прайс-листов российских компаний, интернет-газета, игры,
фото,
открытки,
почта,
знакомства,
Rambler-ICQ, карты,
словари,
мобильная версия Ramblera, и др.
Nigma.ru - российская интеллектуальная метапоисковая система, первая кластеризующая
поисковая система в Рунете. Проект создан при поддержке факультетов ВМиК и психологии МГУ, а также Стэнфордского
университета. Основана 12 апреля 2005 года.
Aport.ru - первый интернет каталог
России. При поиске учитываются особенности русского языка. Официальная
презентация Апорта состоялась 11 ноября 1997 года.
Metabot.ru - российская мульти мета
поисковая система. Для публичного тестирования metabot.ru
был открыт 1 января 2001-го года.
Turtle.ru - информационно поисковая
система. Запущена в эксплуатацию 27 июня 2002
года.
КМ.RU - мультипортал
Кирилл и Мефодий. 20 октября 1998 г. компания
"Кирилл и Мефодий" открыла
информационно-энциклопедический ресурс в Интернете - сайт www.KM.RU, основой сайта www.KM.RU
стала мегаэнциклопедия, представляющая собой онлайн-коллекцию популярных мультимедиа-энциклопедий
"Кирилла и Мефодия".
gogo.ru - от корпорации mail.ru расширенный поиск по интернету.
ZoneRu - этот сайт посвященный Российскому
интернету.
Au – запущен на платформе системы
Апорт проект AU.RU, позволяющий быстро и эффективно искать информацию в
Интернете. На странице присутствуют только необходимые для поиска элементы:
строка запроса и кнопка. Для удобства пользователей при наборе запроса в
поисковой строке разработана система «подсказок». Наиболее популярные слова
и словосочетания отображаются в окне «предсказаний» непосредственно в
процессе набора поискового запроса пользователем. В качестве «подсказок»
используются накопленные поисковые запросы, которые были набраны
пользователями при обращении к Апорту в прошлом.
www.ru - каталог ресурсов о России в интернете
Улитка - каталог ресурсов интернет,
богатая коллекция тематических ссылок.
Iван Sусанин - Сервер
"Иван Сусанин" - это полноценный каталог аннотированных ссылок. Каталог
«Иван
Сусанин»
создан для того, чтобы максимально облегчить поиск в Сети нужной
информации.
Разработчики
каталога старались сделать его достаточно детальным и разветвленным, чтобы
любой
ресурс мог занять в нем свое специфическое место. Задача решена при помощи
многоуровневой
иерархической организации структуры каталога.
Поиск.Ru - универсальная поисковая
система. Здесь собраны поисковые формы популярных поисковиков. Удобна для тех кто при поиске использует различные поисковые
системы.
Liveinternet - Основная идея проста до
гениальности - воспользоваться тем, что счётчик LiveInternet стоит на огромном числе страниц
в Рунете, и строить индекс не разбирая текст документа, а на основе
информации, по каким словам был переход на данный ресурс. Да, есть проблемы
с полнотой (мало ли на что кликают, далеко не
везде стоит счетчик LiveInternet), и точностью, но в целом довольно оригинально. К
технологическим плюсам можно добавить простоту сервиса и низкую стоимость
владения - вместо гигантского индекса документов этому поисковику нужен
лишь индекс по словам, по которым осуществляется
переход. В особенности сервис может быть полезен для всякого рода SEO, поскольку предоставляет
несколько модных поисковых "фишек": тематический кластер,
уточняющие запросы и статистику переходов по времени и по различным
поисковым системам.
Igde - коммерческая поисковая
система. Официальный старт 27.12.2007 года. В основу "Игде”
положен поисковый алгоритм, с помощью которого пользователь получает
подборку качественных коммерческих ресурсов. Отсутствие графической рекламы, строгие
критерии отбора ресурсов делают поиск удобнее и эффективнее. Дополнительные
сервисы: пока только поиск
для мобильных устройств.
Webalta - Сервис был запущен в конце
2005 года. Компанией было сделано немало громких зявлений,
однако по настоящему соствить
сколько нибудь заметную конкуренцию ни Яндексу, ни Рамблеру, ни Google у Вебальты пока не получается.
nol9.ru – новая русская мета”поисковая”
система. Поиск базируется на основе опроса основных поисковиков, объединяет
лучшие результаты поиска yahoo.com, bing.com, my.webalta.ru,
gogo.ru, gigablast.com, answers.com. То есть
nol9.ru шарит по другим поисковикам. У этого "поисковика” есть
неплохой свой каталог
FASQu - . экспертная сеть социального
поиска информации в Интернете. Ответы на поисковые запросы находятся, или
людьми, или традиционным способом, в следствии
чего у поисковика наблюдается неплохая релевантность.
RAGY – "поисковик” интересен тем что можно смотреть выдачу разных поисковых систем на
одной странице. Довольно неплохой инструмент, для анализа выдачи.
Yodex - юридическая поисковая система. осуществляющая поиск по
сайтам и форумам правовой направленности. Законы, комментарии,
законопроекты, обсуждения, разборы конкретных юридических дел и правовых
случаев. Присутствует алфавитный справочник (словарь) юридических терминов.
В разделе "статьи" регулярно публикуются новости, статьи,
комментарии российского законодательсва.
Book Archive.RU - поисковик по свежим электронным книгам и журналам. Электронная
библиотека содержит архивы, учебники, журналы, книги. Справочники,
энциклопедии, новинки книжного рынка, журналы, аудиокниги, программы для
чтения, техническая литература, фантастика, детективы, мемуары,
приключенческая литература, научно-образовательная литература,
отечественная и зарубежная проза, детская литература и многое другое.
Дается подробное описание книг.
FasQu – поисковая система в которой
ответы на поисковые запросы готовят не поисковые роботы, а люди. Каждый из
вас может зарегистрироваться в системе и начать добавлять и описывать
сайты, и привязывать их к поисковым запросам. FASQu, представляет из себя систему социального экспертного
поиска. Пользователи сети так и называются - экспертами. Они добавляют
описания сайтов и отдельных страниц, и проверяют описания, которые были
добавлены другими экспертами. Действия экспертов учитываются
и вычисляется их рейтинг. Но самым важным отличаем от обычных закладок
является то, что эксперты связывают описание с поисковыми запросами,
гарантируя при этом 100% релевантность.
поиск без спама
Яndex
Расширенный поиск | Синтаксис | 20? | Афиша | ТВ программа Alt+Я быстрый переход к Яndex, Alt+G - Google, Alt+R - Rambler
Поиск по России Top100 рейтинг
Google Лучший Поиск в мире
Каталог | Картинки | Расширенный поиск | Настройки
гламурненький поисковичок для женщин
Википедия Свободная многоязычная энциклопедия
Find.ru быстрый поиск без рекламы
Апорт Поиск по России Каталог | Справка
Yahoo! Поиск по всему миру Расширенный поиск | Помощь, Советы по поиску
MSN Search Поиск по всему миру Расширенный поиск | Настройки
|