Поиск информации. Борисов В.А. Красноармейский филиал ГОУ ВПО «Академия народного хозяйства при Правительстве РФ» Красноарме

Содержание

Слайд 2

Поиск информации Задача, которую человечество решает уже многие столетия.

Поиск информации

Задача, которую человечество решает уже многие столетия.

Слайд 3

Все найденные за много лет средства и приемы поиска информации доступны

Все найденные за много лет средства и приемы поиска информации доступны

и эффективны и при поиске информации в Интернет.
Слайд 4

“ПЕРТИНЕНТНЫЙ ДОКУМЕНТ” Слово “пертинентный” происходит от английского “pertinent”, что значит “относящийся к делу, подходящий по сути”.

“ПЕРТИНЕНТНЫЙ ДОКУМЕНТ”

Слово “пертинентный” происходит от английского “pertinent”, что значит “относящийся к

делу, подходящий по сути”.
Слайд 5

Цель информационного поиска Найти все пертинентные и только пертинентные документы (мы

Цель информационного поиска

Найти все пертинентные и только пертинентные документы (мы хотим

найти “только то, что хотим, и ничего больше”).
Эта цель - идеальна и пока недостижима.
Слайд 6

Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных

Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных

документов.
Эти документы называются - “ШУМ”.
Слайд 7

Когда документов много, используется информационно-поисковая система (ИПС). В этом случае информационная

Когда документов много, используется информационно-поисковая система (ИПС).
В этом случае информационная

потребность должна быть выражена средствами, которые “понимает” ИПС - должен быть сформулирован ЗАПРОС.
Слайд 8

РЕЛЕВАНТНОСТЬ Степень соответствия документа запросу.

РЕЛЕВАНТНОСТЬ

Степень соответствия документа запросу.

Слайд 9

Виды информационно поисковых систем

Виды информационно поисковых систем

Слайд 10

Классификационные ИПС В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ.

Классификационные ИПС

В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется

КЛАССИФИКАТОРОМ.
Слайд 11

Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог.

Разделы классификатора называются РУБРИКАМИ.
Библиотечный аналог классификационной ИПС - систематический каталог.


Слайд 12

Предметная ИПС Web-кольца Поиск названия нужного предмета своего интереса (предметом может

Предметная ИПС Web-кольца

Поиск названия нужного предмета своего интереса (предметом может быть

и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет.
Слайд 13

Словарные ИПС Основная идея словарной ИПС - создать словарь из слов,

Словарные ИПС

Основная идея словарной ИПС - создать словарь из слов, встречающихся

в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.
Слайд 14

Два основных алгоритма работы словарных ИПС: -с использованием ключевых слов, -с использованием дескрипторов.

Два основных алгоритма работы словарных ИПС:
-с использованием ключевых слов,

-с использованием дескрипторов.
Слайд 15

Использование ключевых слов Для оценки содержимого документа используются только те слова,

Использование ключевых слов

Для оценки содержимого документа используются только те слова, которые

в нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность.
Слайд 16

Использование дескрипторов Индексируемые документы переводятся на некоторый дескрипторный информационный язык. Дескрипторный

Использование дескрипторов

Индексируемые документы переводятся на некоторый дескрипторный информационный язык.
Дескрипторный информационный

язык, как и любой другой язык, состоит из алфавита (символов), слов, средств выражения парадигматических и синтагматических отношений между словами.
Слайд 17

Ранжирование результатов поиска Все ИПС в настоящее время уделяют основное внимание именно алгоритму ранжирования полученных ссылок.

Ранжирование результатов поиска

Все ИПС в настоящее время уделяют основное внимание именно

алгоритму ранжирования полученных ссылок.
Слайд 18

Критерии при ранжировании в ИПС наличие слов из запроса в документе,

Критерии при ранжировании в ИПС

наличие слов из запроса в документе,

их количество, близость к началу документа, близость друг к другу;
наличие слов из запроса в заголовках и подзаголовках документов;
количество ссылок на данный документ с других документов;
«респектабельность» ссылающихся документов.
Слайд 19

Современные проблемы поисковых систем Когда эти технологии разрабатывались никто из разработчиков

Современные проблемы поисковых систем

Когда эти технологии разрабатывались никто из разработчиков не

представлял себе, что Интернет станет глобальной информационной средой.
Слайд 20

Архитектура crawler (сборщик) - осуществляет сканирование Интернет ресурсов в поисках изменений

Архитектура

crawler (сборщик) - осуществляет сканирование Интернет ресурсов в поисках изменений

на страницах;
indexer (индексатор) - индексирует ресурсы, строит базы данных по ключевым словам, хранит эти базы данных в виде, удобном для поиска по ним;
gateway (шлюз) - осуществляет прием запросов от пользователей и выдачу им информации из базы данных.
Слайд 21

Алгоритмы поиска и ранжирования Основной проблемой современных поисковых систем является то,

Алгоритмы поиска и ранжирования

Основной проблемой современных поисковых систем является то, что

по причине фактически устаревшей архитектуры они не могут обеспечить качественный поиск информации.