Логическая и физическая схема организации пространства в документальных БД.

Содержание

Слайд 2

Отличия, обусловленные информационной природой элементов данных Запись базы данных – документ,

Отличия, обусловленные информационной природой элементов данных

Запись базы данных – документ,

который задается как набор в общем случае необязательных полей: «форматных» (числовые, символьные и другие величины) и текстовых (переменная длина, композиционная структура)
текстовое поле → параграф → предложение → слово
Поле - атомарный адресуемый элемент данных с точки зрения хранения
Слово - атомарный семантически значимый элемент данных с точки зрения поиска.
Семантическая природа текстовых полей: синонимия, полисемия, омонимия, контекстная обусловленность смысла отдельного слова, возможность выразить один смысл многими способами
индексы <> словоформы поля
Слайд 3

Организация данных в диалоговой системы поиска документов STAIRS (Storage and Information Retrieval System)

Организация данных в диалоговой системы поиска документов STAIRS (Storage and Information

Retrieval System)
Слайд 4

Организация индексных файлов документов АИПС STAIRS

Организация индексных файлов документов АИПС STAIRS

Слайд 5

Организация поисковых файлов документов АИПС STAIRS

Организация поисковых файлов документов АИПС STAIRS

Слайд 6

FF FF N AdrB AdrE Массив документов Индекс Организация доступа к документу в ИПС IRBIS Лист

FF

FF

N

AdrB

AdrE

Массив документов

Индекс

Организация доступа к документу в ИПС IRBIS

Лист

Слайд 7

Инвертированные индексы БД ИПС IRBIS

 

 

 

Инвертированные индексы БД ИПС IRBIS

Слайд 8

Физическая организация данных в ИПС IRBIS БД ИПС IRBIS Файлы БД

Физическая организация данных в ИПС IRBIS

БД ИПС IRBIS

Файлы БД


файлы данных и файлы инвертированных структур

Экстент
8 последовательных страниц

Страница

Слайд 9

Инвертированные структуры БД Индексные страницы Страницы текстового представления словарных структур Страницы инвертированных списков

Инвертированные структуры БД

Индексные страницы
Страницы текстового представления словарных структур
Страницы инвертированных списков

Слайд 10

Заголовок страницы Тип страницы Идентификатор (номер) страницы Идентификатор (номер) следующей страницы

Заголовок страницы

Тип страницы
Идентификатор (номер) страницы
Идентификатор (номер) следующей страницы
Идентификатор (номер) предыдущей страницы
Число

вхождений, размещенных на странице
Длина фиксированной части вхождения
Слайд 11

Индексные страницы Подзаголовок: число вхождений (указателей), размещенных на странице; номер первой

Индексные страницы

Подзаголовок:
число вхождений (указателей), размещенных на странице;
номер первой страницы инвертированных

списков для множества страниц текстового представления словарных структур, описываемых индексной страницей.
Указатели на отдельные страницы текстового представления словарных структур:
метка сегмента (для представления общего словаря в виде объединения непересекающихся подмножеств);
буква (символ), с которой начинается первое слово на странице;
идентификатор (номер страницы).
Слайд 12

Страницы текстового представления словарных структур Подзаголовок: метка сегмента; номер первой страницы

Страницы текстового представления словарных структур

Подзаголовок:
метка сегмента;
номер первой страницы инвертированных списков;
количество

страниц инвертированных списков;
размер свободного пространства;
начало первого слова на странице (первые 4 буквы);
начало последнего слова на странице (первые 4 буквы).
Карта размещения словарных структур:
длина слова (текстового выражения словарной структуры);
количество документов (или длина инвертированного списка для словарной структуры);
идентификатор страницы инвертированных списков, содержащей инвертированный список словарной структуры (по крайней мере, его начало);
смещение начала инвертированного списка от начала списка страницы в целом.