Вконтакте Facebook Twitter Лента RSS

Концептуализация на основе интерпретации текстовой информации. Анализ данных на основе "плотного" описания — концептуализация. Смотреть что такое "концептуализация" в других словарях

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google» , «Yahoo» , «MSN» . В русском Интернете это – «Яндекс» , «Рамблер» , «Апорт» .

Опишем основные характеристики поисковых систем:

    Полнота

Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

    Точность

Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

    Актуальность

Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

    Скорость поиска

Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

    Наглядность

Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.одробные пояснения по странице результатов поиска, например у «Яндекса» можно посмотреть по ссылке http://help.yandex.ru/search/?id=481937 .

4. Краткая история развития поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.

В настоящее время существуют три основные международные поисковые системы – Google, Yahoo и MSN, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

5. Состав и принципы работы поисковой системы

В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

    URL страницы

    дата, когда страница была скачана

    http-заголовок ответа сервера

    тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

    Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).

    Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.

    В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).

    Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.

    Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

Ни одна поисковая система не охватывает все ресурсы Интернет.

Каждая поисковая система собирает сведения о ресурсах Интернет, применяя свои уникальные методы, и формирует собственную периодически обновляемую базу данных. Доступ к этой базе предоставляется пользователю.

Поисковые системы реализуют два способа поиска ресурса:

    Поиск по тематическим каталогам - информация представляется в виде иерархической структуры. На верхнем уровне - общие категории (“Интернет”, “Бизнес”, “Искусство”, “Образование” и т.д.), на следующем уровне категории делятся на разделы и т.д. Самый нижний уровень - ссылки на конкретные веб-страницы или другие информационные ресурсы.

    Поиск по ключевым словам (индексный поиск или детальный) - пользователь отправляет поисковой системе запрос , состоящий из ключевых слов. Система возвращает пользователю перечень найденных по запросу ресурсов.

Большинство поисковых систем сочетают оба способа поиска.

Поисковые системы могут быть локальными, глобальными, региональными и специализированными.

В русской части Интернет (Рунет) наиболее популярны сейчас поисковые системы общего назначения Rambler (www.rambler.ru), Яндекс (www.yandex.ru), Апорт (www.aport.ru), Гугл (www.google.ru).

Большинство поисковых систем реализовано в виде порталов.

Портал (от англ. portal - главный вход, ворота) -это веб-сайт, который интегрирует различные сервисы Интернет: средства поиска, почту, новости, словари и т.д.

Порталы могут быть специализированными (как, www . museum . ru ) и общими (например, www . km . ru ).

Поиск по ключевым словам

Набор ключевых слов, по которым ведется поиск, называют также критерием поиска или темой поиска.

Запрос может состоять как из одного слова, так и из сочетания слов, объединенных операторами - символами, по которым система определяет, какое действие ей нужно произвести. Например: запрос “Москва Питер” содержит оператор И (так воспринимается пробел), который указывает, что надо искать документы, в которых есть оба слова - и Москва, и Питер.

Для того, чтобы поиск был релевантным (от англ. relevant -уместный, относящийся к делу), следует учитывать несколько общих правил:

    Независимо от того, в какой форме употреблено слово в запросе, поиск учитывает все его словоформы по правилам русского языка. Например, по запросу “билет” будут найдены и слова “билетом”, “билету” и т.д.

    Заглавные буквы следует использовать только в именах собственных, чтобы не просматривать лишние ссылки. По запросу “кузнецов”, например, будут найдены документы, где говорится и о кузнецах, и о Кузнецовых.

    Желательно сужать круг поиска, используя несколько ключевых слов.

    Если нужного адреса нет среди первой двадцатки найденных адресов, следует изменить запрос.

Каждая поисковая система использует свой язык запросов. Для знакомства с ним, пользуйтесь встроенной справкой поисковой системы

Крупные сайты могут иметь встроенные системы поиска информации в пределах своих веб-страниц.

Запросы в подобных системах поиска, как правило, строятся по тем же правилам, что и в глобальных поисковых системах, однако знакомство со справкой и здесь не будет лишним.

Расширенный поиск

Поисковые системы могут предоставлять в распоряжение пользователя механизм, позволяющий формировать сложный запрос. Переход по ссылке Расширенный поиск дает возможность редактировать параметры поиска, указывать дополнительные параметры и выбирать наиболее удобную форму показа результатов поиска. Ниже описаны параметры, которые могут быть заданы при расширенном поиске в системах Япс1ех и Rambler.

Описание параметра

Название в Яндекс

Название в Rambler

Где искать ключевые слова (заголовок документа, основной текст и т.д.)

Словарный фильтр

Поиск по тексту...

Какие слова должны или не должны присутствовать в документе и насколько точным должно быть совпадение

Словарный фильтр

Искать слова запроса... Исключить документы, содержащие следующие слова...

На каком расстоянии друг от друга должны располагаться ключевые слова

Словарный фильтр

Расстояние между словами запроса...

Ограничение на дату документа

Дата документа...

Ограничение поиска пределами одного или нескольких сайтов

Сайт/Вершина

Искать документы только на следующих сайтах...

Ограничение поиска по языку документа

Язык документа...

Поиск документов, содержащих картинку с определенным именем или подписью

Изображение

Поиск страниц, содержащих объекты

Специальные объекты

Форма представления результатов поиска

Формат выдачи

Вывод результатов поиска

Некоторые поисковые системы (например, Яндекс) позволяют вводить запросы на естественном языке. Вы пишите, что нужно найти (например: заказ билетов на поезд из Москвы в Питер). Система анализирует запрос и выдает результат. Если он Вас не устраивает, переходите на язык запросов.

Уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.

Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обрабатки запросов пользователей, о том, из чего эти системы состоят и как функционируют…

Данный мастер-класс призван дать ответ на вопрос о том, как работают поисковые системы. Однако, Вы не найдете здесь факторов, влияющих на ранжирование документов. И тем более не стоит рассчитывать на подробное объяснение алгоритма работы Яндекса. Его, по словам Ильи Сегаловича, - директора по технологиям и разработке поисковой машины «Яндекс», можно узнать, лишь «под пыткой» самого Ильи Сегаловича…

2. Понятие и функции поисковой системы

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google» , «Yahoo» , «MSN» . В русском Интернете это – «Яндекс» , «Рамблер» , «Апорт» .

Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Архангельске»)

Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.

Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?

Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

3. Основные характеристики поисковой системы

Опишем основные характеристики поисковых систем:

  • Полнота

    Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

  • Точность

    Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

  • Актуальность

    Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

  • Скорость поиска

    Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

  • Наглядность

4. Краткая история развития поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.

В настоящее время существуют три основные поисковые системы (международные) – Google, Yahoo и , имеющие собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

5. Состав и принципы работы поисковой системы

В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

  • URL страницы
  • дата, когда страница была скачана
  • http-заголовок ответа сервера
  • тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

  • Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде , то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
  • Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
  • В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
  • Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
  • Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

6. Заключение

Теперь подытожим все вышесказанное.

  • Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.
  • Основные характеристики поисковых систем:
    1. Полнота
    2. Точность
    3. Актуальность
    4. Скорость поиска
    5. Наглядность
  • Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.
  • В состав поисковой системы входят компоненты:
    1. Модуль индексирования
    2. База данных
    3. Поисковый сервер

Надеемся, наш мастер-класс позволит Вам поближе ознакомиться с понятием ПС, лучше узнать основные функции, характеристики и принцип работы поисковых систем.

Наиболее популярным веб сервисом современности является именно поисковая система. Тут всё объяснимо, ведь те времена, когда представители первых пользователей интернета могли наблюдать новинки в сети уже давным-давно ушли.

Информации появляется и скапливается так много, что человеку стало очень трудно найти именно ту, которая ему была бы необходима. Представьте, как бы обстоял бы поиск в интернете, если бы рядовому пользователю пришлось бы искать информацию не пойми где. Именно не пойми где, потому как ручным поиском много информации не найдёшь.

Поисковая система, что это такое?

Хорошо если пользователю уже известны сайты, на которых возможно есть нужная информация, но что делать в противном случае? Для того, чтобы облегчить жизнь человеку в поиске нужной информации в интернете и были придуманы поисковые системы или просто поисковики. Поисковая система выполняет одну очень важную функцию, без которой интернет был бы не таким как мы его привыкли видеть - это поиск информации в сети.

Поисковая система - это специальный веб узел или по-другому сайт, который предоставляет пользователям по их запросам гиперссылки на страницы, сайтов, отвечающие на заданный поисковой запрос.

Если быть немного точнее, то поиск информации в интернете, осуществляющийся благодаря программно-аппаратному функциональному набору и веб интерфейсу для взаимодействия с пользователями.

Для взаимодействия человека с поисковой системой и был создан веб интерфейс, то есть видимая и понятная оболочка. Данный подход разработчиков поисковиков облегчает поиск многим людям. Как правило, именно в интернете осуществляется поиск при помощи поисковых систем, но также существуют системы поиска для FTP-серверов, отдельных видов товаров во всемирной паутине, либо новостной информации или же другие поисковые направления.

Поиск может осуществляться не только по текстовому наполнению сайтов, но и по другим типам информации, которые человек может искать: изображения, видео, звуковые файлы и т.д.

Как осуществляется поиск поисковой системой?

Сам поиск в интернете, ровно так же как просмотр веб сайтов возможен при помощи интернет обозревателя - браузера . Только после того, как пользователь задал свой запрос в строке поиска, осуществляется непосредственно и сам поиск.

Любая поисковая система содержит программную часть, на которой основан весь поисковой механизм, его называют поисковым движком - это программный комплекс и обеспечивающий возможность поиска информации. После обращению к поисковику, формирования человеком поискового запроса и ввода его в строку поиска, поисковая система генерирует страницу со списком результатов поиска, наиболее релевантные, по мнению поисковика тут располагаются выше.

Релевантность поиска - поиск наиболее отвечающих запросу пользователя материалов и расположение на них гиперссылок на странице выдачи с более точными результатами выше других. Само распределениерезультатов называется ранжированием сайтов.

Так как же поисковик подготавливает для выдачи свои материалы и как происходит поиск информации самим поисковиком? Сбору информации в сети способствует уникальный для каждой поисковой системы робот или по-другому бот, обладающий так же рядом других синонимов как краулер или паук, а саму работу системы поиска можно разделить на три этапа:

К первому этапу работы поисковой системы можно отнести сканирование сайтов в глобальной сети и сбор на свои собственные серверы копий веб страниц. Это образует огромное количество пока ещё не обработанной и не пригодной информации для поисковой выдачи.

Второй этап работы поисковика сводится к приведению в порядок полученной ранее, на первом этапе информации от сайтов. Производится такая сортировка, которая за наименьшее время будет благоприятствовать тому самому качественному поиску, которого собственно и ждут пользователи от поисковой системы. Этап называют индексацией, это значит, что страницы уже являются подготовленными к выдаче, а актуальная база будет считаться индексом.

Как раз третий этап и обуславливает поисковую выдачу, после приёма запроса от своего клиента, опираясь на ключевые или около ключевые слова, указанные в запросе. Это способствует отбору наиболее соответствующей запросу информации, и последующей её выдачи. Так как информации, очень и очень много, поисковая система выполняет ранжирование в соответствие со своими алгоритмами.
Лучшей поисковой системой считается та, которая сможет предоставить наиболее корректно отвечающий на запрос пользователя материал. Но и тут могут встречаться результаты, на которые повлияли люди, заинтересованные в продвижение своего сайта, такие сайты хоть и не всегда, но зачастую появляются в результатах поиска, но не на долго.

Хоть мировые лидеры уже во многих регионах определены, поисковые системы продолжаются развивать свой качественный, поиск. Чем качественней поиск они смогут предоставить, тем больше людей будут им пользоваться.

Как пользоваться поисковой системой?

Что такое поисковая система и как она работает уже понятно, но как ей правильно пользоваться? На большинстве сайтов всегда присутствует строка поиска, а рядом с ней находится кнопка Найти или Поиск. В поисковую строку вводится запрос, после чего нужно нажать кнопку поиска или же как это чаще бывает, нажать клавишу Enter на клавиатуре и за считанные секунды вы получаете результат запроса в виде списка.

А вот получить правильный ответ на запрос поиска, с первого раза удаётся не всегда. Для того, чтобы поиски желаемого не становились мучительными, необходимо правильно составлять поисковый запрос и следовать нижеописанным рекомендациям.

Составляем поисковый запрос правильно

Далее будут указаны советы по использованию поисковой системы. Следование некоторым хитростям и правилам при осуществлении поиска информации в поисковой системе даст возможность получить нужный результат гораздо быстрее. Следуйте данным рекомендациям:

  1. Грамотное написание слов обеспечивает максимальное количество совпадений с искомым информационным объектом (Хоть современный поисковые системы уже научились исправлять орфографические ошибки, но данным советом пренебрегать не стоит).
  2. Благодаря использованию синонимов в запросе, можно охватить более широкий поисковой диапазон.
  3. Иногда изменение слова в тексте запроса может принести больший результат осуществляйте переформирование запроса.
  4. Привносите в запрос конкретность, используйте точные вхождения фраз, которые должны определять главную суть поиска.
  5. Экспериментируйте с ключевыми словами. Использование ключевых слов и словосочетаний может помочь определить главную суть, и поисковая машина выдаст более релевантный результат.

Так что такое поисковая система - это ни что иное, как возможность найти интересующую информацию и обычно совершенно бесплатно ей воспользоваться, чему-то научиться, что-то понять или сделать правильный для себя вывод. Многие уже не представляют своей жизни без голосового поиска, при котором текст не приходится набирать, свой запрос нужно всего лишь произнести, а устройством ввода информации тут является микрофон. Всё это свидетельствует о постоянном развитие поисковых технологий в интернете и необходимости в них.

Поисковые системы.

Пополнение информационных ресурсов Интернета происходит высокими темпами, и найти необходимую информацию становиться всё труднее. Различные печатные справочники устаревают ещё до выхода в свет. Единственным надёжным способом поиска информации является использование различных поисковых систем, которые постоянно отслеживают изменение информации в сети.За время существования Интернета предпринимались различные попытки организации поисковых средств. Многие из этих попыток оказались неудачными, другие же привели к созданию удобных средств поиска информации. Наиболее удачные проекты появились в последние пять лет. Мы рассмотрим поиск информации во Всемирной паутине с помощью нескольких наиболее распространённых систем поиска. Всего же в мире существуют сотни различных поисковых систем, и выбор той или иной системы зависит только от ваших личных пристрастий. Отметим, что поисковые системы часто называют поисковыми машинами или машинами поиска.

Многие поисковые системы позволяют искать информацию не только в Web-страницах, но и в группах новостей и хранилищах файлов. Таким образом, в результате поиска вы можете найти сообщение в группе новостей или какой-то файл. Поэтому чаще применяют вместо термина страница более общий термин – документ. Под документом подразумеваются Web-страница, сообщение или файл, содержащие различную информацию.

Процесс поиска довольно прост: задавая ключевые слова, характерные для искомой информации, мы найдём нужный нам документ. Вне зависимости от того, какой поисковой системой вы пользуетесь, примерный алгоритм поиска информации следующий.

Ø Вы переходите на начальную страницу поисковой системы или на любую страницу, на которой находятся поля для ввода запроса и кнопка для начала поиска. В последнем случае после нажатия кнопки вы автоматически перейдёте на страницу поисковой системы. Принципиальных отличий между собственно поисковой системой и страницей с полями для ввода запроса, который передаётся поисковой системе, нет. Главное – перейти на страницу, на которой вы можете ввести ваш запрос.

Ø Если система позволяет последовательные уточнения области поиска, то вы переходите в разделы, которые определяют границы поиска информации (например, поиск только в области науки или поиск среди европейских узлов Интернета). В таких системах запрос в главном разделе осуществляет поиск среди всех узлов Интернета. Если же вы, например, перейдёте в раздел «Новости», то поиск по запросу будет выполняться только среди узлов, посвящённых новостям. В том случае, если вы перейдёте в раздел погода, то вы будете искать только среди новостей о погоде. Таким образом, вы сначала определяете границы, в которых следует вести поиск, и только после этого отправляется запрос на поиск информации. Если выбранная вами система поиска не позволяет уточнить запрос, то это действие пропускается.

Ø Вводится запрос на поиск в соответствии с правилами, принятыми в выбранной системе поиска. В простейшем случае это одно или несколько слов, например «Анекдоты», но возможны и сложные запросы с логическими операциями «И», «ИЛИ», «НЕТ».

Ø Если система поиска позволяет, то уточняются некоторые параметры запроса с помощью дополнительных полей, списков, флажков и переключателей, которые могут находиться на странице рядом с полем запроса. В большинстве случаев уточнение параметров не требуется. Уточнение параметров и составление сложных запросов чем-то похоже на программирование и пользуется большей популярностью у программистов, чем у широкого круга людей, не знакомых с программированием.

Ø Нажимается кнопка для начала поиска, и после некоторой паузы вы автоматически попадаете на страницу со списком документов, удовлетворяющих вашему запросу. Длительность паузы зависит от сложности запроса, скорости работы поисковой системы и качества вашей связи с данной системой.

Ø Если ссылок много и они не помещаются на одной странице, то после прочтения первой страницы с результатами поиска вы можете перейти к следующей, и так далее. Таким образом вы просматриваете все найденные ссылки на документы.

Ø После нахождения нужной ссылки вы щёлкаете на ней мышью и переходите на страницу, которую вы разыскивали. Если вы захотите посмотреть другие найденные страницы, то можно вернуться назад, к странице со ссылками на найденные документы, и перейти по другой ссылке.

Во многих поисковых системах поле запроса остаётся на странице во время просмотра результатов, и вы можете быстро уточнить запрос и организовать новый поиск. В большинстве систем список включает в себя кроме ссылок несколько строк каждого из найденных документов, чтобы было легче выбрать нужный.

В некоторых системах списки ссылок отсортированы таким образом, что в начале списка вы получите ссылки на документы, наиболее удовлетворяющие вашему запросу. Например, если в документе много раз встречаются слова запроса и несколько слов, включённых в запрос, расположены в документе рядом, то такой документ более полно удовлетворяет запросу. Так как большинство систем осуществляет интеллектуальный поиск в Интернете, то степень соответствия запросу, определённая поисковой системой, не всегда будет совпадать с вашими представлениями.

Следует отметить, что при выполнении запроса поисковая система не ищет документ непосредственно в Интернете. Она обращается к своей базе данных, где в компактном виде собраны данные об информации в Интернете. Возможно, что реальное состояние Интернета несколько отличается оттого, что храниться в базе данных. Поисковые системы постоянно пополняют и обновляют свои базы данных, чтобы минимизировать такое несовпадение.

Как работает поисковая система.

Почти каждая поисковая система (скажем так - классическая поисковая система) состоит из трех основных компонентов:

Веб-паук, несмотря на всю экзотичность подобного названия, - это всего-навсего специальная программа, которая запускается на компьютере (компьютерах), подключенном к Интернету, и ее основная задача - шерстить весь этот Интернет (точнее, интернетовские странички) во всех возможных направлениях. Ведь странички, как мы говорили, состоят из гиперссылок, так вот паук носится как угорелый по гиперссылкам «паутины» сайтов и скачивает полученные таким образом странички для второй компоненты - индексной базы.

Индексатор - это обработчик скачанных веб-пауком страниц. Он извлекает оттуда все слова и складывает их в поисковую базу (индексную базу). При этом индексатор записывает, где именно было найдено то или иное слово, и эта информация потом используется в поиске.

Алгоритм поиска - это главное ноу-хау любой поисковой системы. От алгоритма зависит эффективность полученного результата - то есть насколько быстро и точно пользователь найдет то, что его интересует.

Внимание! Таким образом, когда пользователь вводит свой запрос, поисковая система ищет ответ в своей индексной базе и выводит результаты в соответствии со своим алгоритмом поиска.

Для хорошей работы поисковой системы важны все три компоненты. Причем каждая из них на самом деле весьма сложна, и ее работа подчиняется огромному количеству всевозможных хитрых правил, которые к тому же постоянно корректируются.

Поисковик должен иметь и шустрого паука, и мощную индексную базу, и эффективный алгоритм поиска - только тогда вы будете получать действительно полезные результаты.

Можно долго рассуждать о том, каким образом следует формировать поисковые запросы, однако я предпочитаю основные рекомендации свести к следующим несложным постулатам.

1. Пишите грамотно слова поискового запроса

Вы будете смеяться, но масса людей не могут найти сайты по интересующей их тематике и на все лады костерят поисковые системы, между тем как слово для поиска просто введено с ошибкой, и поисковик протирает жесткие диски до дыр, пытаясь отыскать «ателье по срочному пошиву польтов», тогда как в ателье польты никто не шьет, а шьют пальто.

2. Используйте синонимы

Если поиск нужных результатов не принес, попробуйте переформулировать запрос, используя синонимы. Например, вместо «чоппер» напишите «крутой мотоцикл», вместо «тачка» - «автомобиль», вместо «курсовая работа» - «реферат».

3. Уточняйте запрос

Чем точнее будет построен поисковый запрос, тем больше шансов, что в первых строках результата поиска будет нужный вам ресурс. Поэтому если вы ищете уже упоминавшуюся технологию вышивания крестиком по молочным бидонам, просто и тупо напишите это в строке поиска. Если результат вас не удовлетворит, тогда уже начинайте варьировать строку.

4. Используйте ключевые слова

Если результат поиска вас не удовлетворил, включайте в поисковый запрос как можно больше уточняющих слов. Если вас интересует именно творчество Герберта фон Караяна, то в поисковой строке кроме непосредственно имени великого дирижера обязательно введите слово «творчество». Если вы ищете информацию по автомобилю Honda - так и пишете «автомобиль Honda», а не просто «автомобиль».

5. Не пишите запрос в верхнем регистре

Все запросы желательно писать в нижнем регистре, потому что поиск обычно регистрозависимый, и строку «ПЯТЬ МИЛАНСКИХ КАФЕДРАЛЬНЫХ СОБОРОВ» вам найдут только в том случае, если она где-то на сайте набрана заглавными буквами. Однако если вы ищете какие-то имена собственные - например, группу «Черный кофе», а не продукт питания черный кофе, - тогда пишите их с заглавных букв (именно с заглавных, а не все заглавными).

6. В сложных случаях используйте язык запросов

Практически все поисковые системы поддерживают так называемый язык запросов, позволяющий задавать мощнейшие комбинации различных критериев поиска.

Язык запросов

Предположим, вы хотите задать поисковой системе запрос следующим образом: «Найди мне все страницы, где встречается слово «селедка», при этом в любом случае отсутствует слово «картошка», не более чем через два слова от «селедки» расположено слово «водка», чтобы сайт при этом находился в зоне ru и сам документ при этом ссылался на www.exler.ru». Хороший запросик, правда? Душевный... Между тем вы совершенно спокойно можете составить подобный запрос, используя специальные символы в строке поиска, которые и называются языком запросов.

1.Исключение/включение определенных слов - знаки «+» и «-»

Предположим, вы хотите найти сайты, на которых есть анекдоты про блондинок, но при этом вы не выносите анекдоты, в которых злые люди блондинок называют дурами. Тогда в запросе пишете следующее: «+анекдот +блондинка -дура» - это означает команду искать страницы, на которых в обязательном порядке присутствуют слова «анекдот» и «блондинка», однако отсутствует слово «дура».

2. Перечисление альтернатив - знак «|»

Вертикальная черта позволяет задать альтернативы: система ищет хотя бы одно из перечисленных слов. Например, если вы хотите найти страницы, где встречается одно из слов «папа», «мама», «дочка», «внучка», поисковый запрос будет выглядеть следующим образом: «папа | мама | дочка | внучка».

3. Поиск точного соответствия - знак «!»

Обычно поисковики ищут все словоформы введенного слова, даже если оно задано полностью: например, если в строке введено «блондинка», то первыми будут выведены страницы, где встречается именно «блондинка», но далее в результатах поиска окажутся «блондинки», «блондинкой», «блондинкою», «блондинкам» и так далее. Однако если вам нужно найти только данную конкретную форму - «блондинка», - тогда задавайте поисковую строку так: «!блондинка».

4. Поиск точной фразы - кавычки

Если вам нужна точная фраза «гипервизионный квазиконвертер», а не «гипервизионный анализатор, включающий в себя темно-зеленый квазиконвертер в пупырышках», тогда при поиске заключите фразу в кавычки: «гипервизионный квазиконвертер», и в этом случае поисковик выведет только те страницы, где эти слова располагаются строго рядом.

5. Задание расстояния между слов - «/n»

В случае когда вы хотите найти все варианты фразы «высокая [любое слово] блондинка» - можно отразить это неуемное желание в поисковом запросе с помощью знака «/», означающего «не превышало», и числа, показывающего допустимое количество слов, причем 1 - это значит отсутствие слов. Поясняю. Запрос «высокая /+2 блондинка» означает команду искать все сочетания, где между «высокая» и «блондинка» не больше 1 слова. То есть «высокая блондинка» - подойдет, «высокая длинноногая блондинка» - тоже подойдет, а «высокая длинноногая и страстная блондинка» - уже нет. Значок «+» означает, что слово (слова) должно быть справа, а «-« - слева. То есть запрос «высокая /(-2 4) блондинка» означает, что «высокая» должно находиться от «блондинка» в интервале расстояний от 2 слов слева до 4 слов справа.

6. Ограничение по адресам - команда «#url»

Если вас интересует поиск, например, только на конкретном сервере или по конкретной группе адресов либо же, наоборот, поиск, который исключает конкретные адреса или группы адресов, можно воспользоваться командой #url=»адрес или группа». Например, если вы хотите найти все страницы, на которых встречается слово «квадроид», исключив сайт www.kvadroid.ru, дайте следующую команду: «квадроид ~~#url=»www.kvadroid.ru»».

7. Поиск ссылок - команда «#link»

Иногда (особенно это бывает актуальным для владельцев собственных страничек) бывает очень интересно узнать, какие сайты ссылаются (ставят гиперссылку) на тот или иной адрес. В этом случае достаточно в строке поиска задать следующие данные: «#link=»адрес»». То есть команда «#link=«сайт»» покажет все страницы, где стоят ссылки на

Я перечислил только основные возможности языка запросов поисковой системы Яndex. Отмечу, что эти параметры, как правило, весьма похожи и в других поисковых системах, хотя в любом случае перед их использованием желательно посмотреть описание на конкретном поисковике.

Также следует иметь в виду, что практически каждый поисковик позволяет создавать довольно сложные запросы с помощью специальной формы под названием «расширенный поиск», для работы с которой вам уже не нужно знать, как именно работает язык запросов в данном поисковике.

© 2024 Про уют в доме. Счетчики газа. Система отопления. Водоснабжение. Система вентиляции