ОЦЕНКА ПРОЦЕДУР ИНФОРМАЦИОННОГО ПОИСКА

Содержание

Слайд 2

ОЦЕНКА ПРОЦЕДУР ИНФОРМАЦИОННОГО ПОИСКА {di} – множество документов информационного хранилища D

ОЦЕНКА ПРОЦЕДУР ИНФОРМАЦИОННОГО ПОИСКА

{di} – множество документов информационного хранилища D


r(di, dj) - оценка смысловой близости двух документов di и dj
d0 - некоторый воображаемый (виртуальный) документ
определенного содержания.
Задача информационного поиска:
В информационном хранилище требуется отыскать:
некоторый документ di такой, что
r(di, d0)=0
или множество документов D0 = {di}, что
r(di, d0) min для всех di из множества D0 .
Слайд 3

Оценка результатов информационного поиска Информационная полнота - все ли нужные документы

Оценка результатов информационного поиска

Информационная полнота - все ли нужные документы

найдены.
Информационный шум - отобраны и ненужные с точки зрения
информационного запроса документы.
Dp - множество документов, полученных в
результате выполнения поисковых процедур.
kп - коэффициент полноты
kш, - коэффициент шума
Слайд 4

Возможные варианты результатов поиска: Dр = D0, т.е. найдены все адекватные

Возможные варианты результатов поиска:

Dр = D0, т.е. найдены все адекватные смыслу

запроса
документы.
kп = 1, kш = 0.
2. Dр ⊂ D0 Информационный поиск является неполным:
0 <= kп<1, kш = 0.
3. D0 ⊂ Dр, В результате поиска отобраны лишние
документы (информационный шум):
kп = 1, 0<= kш <1.
4. Пересечение Dp и D0 не пустое, при Dp != 0 и D0 != 0,
0 <= kп <1, 0<= kш <1.
5. Пересечение Dp и D0 пустое, при Dp != 0 и D0 != 0,
kп = 0, kш = 1.
Слайд 5

Вычисление kп и kш

Вычисление kп и kш

Слайд 6

Вычисление kп и kш Интегральная оценка эффективности поиска

Вычисление kп и kш
Интегральная оценка эффективности поиска

Слайд 7

Вычисление kп и kш Интегральная оценка эффективности поиска Коэффициент точности Kτ = 1 - kш

Вычисление kп и kш
Интегральная оценка эффективности поиска
Коэффициент точности

Kτ = 1 - kш
Слайд 8

Факторы, влияющие на процессы обработки информации Огромный объем доступной информации Взаимосвязи

Факторы, влияющие на процессы обработки информации

Огромный объем доступной информации
Взаимосвязи
Высокий процент

временной информации
Неконтролируемое качество информации
Разнотипность информации
Избыточность
Разнородность пользователей
Слайд 9

Фактографические ИПС (ФИПС) Характерные отличия:: - высокая однородность сообщений, - фиксированный

Фактографические ИПС (ФИПС)

Характерные отличия::
- высокая однородность сообщений,


- фиксированный порядок следования признаков объектов
Способы поиска:
    -   поиск по совпадению значений для одного или
нескольких признаков;
    -   поиск по интервалу:
- поиск, по выражению, когда используется некий
логический критерий
kп max = 1 при kш = 0
Слайд 10

Документальные (библиографические) ИПС Характерные отличия: - хранение и поиск текстовых документов.

Документальные (библиографические) ИПС

Характерные отличия:
- хранение и поиск текстовых документов.
Методы

поиска:
  Поиск по метаданным.
Поиск на основе морфологического разбора.
  Поиск на основе оценок релевантности документа запросу.
  Поиск с использованием языков запросов.
  Поиск на основе семантического анализа.
kп max= 0.5 при kш max = 1
Слайд 11

Информационный поиск в ДИПС Дескрипторный поиск Ввод документа в ДИПС

Информационный поиск в ДИПС Дескрипторный поиск

Ввод документа в ДИПС

Слайд 12

Информационный поиск в ДИПС Дескрипторный поиск Ввод документа в ДИПС

Информационный поиск в ДИПС Дескрипторный поиск

Ввод документа в ДИПС

Слайд 13

Информационный поиск в ДИПС Дескрипторный поиск Ввод документа в ДИПС Формирование

Информационный поиск в ДИПС Дескрипторный поиск

Ввод документа в ДИПС
Формирование ПОД
Включение

ПОД в массив ПОД.
3. Пополнение словаря дескрипторов
Слайд 14

Информационный поиск в ДИПС Дескрипторный поиск Релевантность - смысловое соответствие

Информационный поиск в ДИПС Дескрипторный поиск
Релевантность - смысловое соответствие

Слайд 15

ГИПЕРТЕКСТОВЫЕ ИПС Основные идеи гипертекста: - текст разбит на семантические единицы;

ГИПЕРТЕКСТОВЫЕ ИПС

Основные идеи гипертекста:
- текст разбит на семантические единицы;
-

между сетами устанавливаются связи;
- текст читается по различным траекториям.
ИСС1
ИСС2 ИСС3
. . . . . .
ИССn+1 ИССn
Слайд 16

Модель ИСС (х0 , х1 ,… х10 , х11) х0 -

Модель ИСС

(х0 , х1 ,… х10 , х11)
х0 -

имя ИСС,
х1 - заголовок ИСС,
х2 - аннотация ИСС,
х3 - точка входа в ИСС,
х4 - множество текстовых документов ИСС,
х5 – множество цифровых объектов ИСС,
х6 - множество программных объектов ИСС,
х7 - справка по ИСС,
х8 - признак ускоренного просмотра ИСС,
х9 - признак детального просмотра,
х10 - список гиперссылок внутри ИСС,
х11 - список гиперссылок между ИСС
Слайд 17

Структура гипертекста

Структура гипертекста

Слайд 18

ГИПС 1. Атрибутивный поиск с помощью SQL-запросов, адресуемых на выполнение сопряженной

ГИПС

1. Атрибутивный поиск с помощью SQL-запросов, адресуемых на выполнение

сопряженной СУБД.
2.     Поиск по логической формуле, составленной из ключевых слов.
3.     Лексический поиск на основе релевантности, оцениваемой пропорционально количеству терминов из запроса.
4.     Ассоциативный поиск, учитывающий вхождение терминов, связанных отношением ассоциативности с терминами запроса.
5.     Поиск ассоциаций используется для ассоциативного расширения и уточнения запроса в диалоге с пользователем.
6.     Поиск документов по семантическому подобию.
7.     Комбинированный поиск.
kп max= 0.9 – 1 при kш max = 0.1 – 0.2
Слайд 19

Модель поиска Способ представления документов Способ представления поисковых запросов Вид критерия

Модель поиска


Способ представления документов
Способ представления поисковых запросов
Вид критерия

релевантности документов
Релевантность - смысловое соответствие
Формальная релевантность.
Содержательная релевантность
Пертинентность
Слайд 20

Простейшие модели поиска Модель дескрипторного поиска Дескриптор - совокупность слов или

Простейшие модели поиска

Модель дескрипторного поиска
Дескриптор - совокупность слов или словосочетаний

Дескриптор приписывается документу:
1) на основе содержания (индексирование по содержанию),
2) на основе названия (индексирование по заголовкам).
Слайд 21

Простейшие модели поиска Модель, основанная на Дублинском ядре Дублинское ядро –

Простейшие модели поиска

Модель, основанная на Дублинском ядре
Дублинское ядро – набор

метаданных, зафиксированных в спецификации определяющего стандарта.
Образ документа Dk : Dk = {( Nik , Vik )}
Представление запроса: Q = {( Nj , Vj )}
Критерий релевантности k-го документа: Q ⊂ Dk
Слайд 22

Модели поиска Булевские модели Образ документа - совокупность термов. T(di) -

Модели поиска

Булевские модели
Образ документа - совокупность термов.
T(di) -

множество термов документа di (словарь документа )
T = Ui=1,…,n T(di) - словарь коллекции документов
Представление запроса: булевское выражение.
Критерий релевантности – истинность булевского
выражения.
Слайд 23

Модели поиска Векторные модели Образ документа Dk : ( w1k, w2k,

Модели поиска

Векторные модели
Образ документа Dk : ( w1k, w2k,

…, wnk )
веса термов
Например: wik = nik /Nk )
количество повторений i-го терма число термов документа
Представление запроса: ( w1, w2, …, wn )
Критерий релевантности вычисляется как результат операций над векторами