Лекция 5_2011_М.ppt

Содержание

Слайд 2

Методы извлечения знаний Коммуникативные Текстологические DM&KM методы методы

Методы извлечения знаний
Коммуникативные Текстологические DM&KM
методы методы

Слайд 3

Текст – вербализированное представление модели мира автора на ЕЯ

Текст – вербализированное представление модели мира автора на ЕЯ

Слайд 4

В любом тексте можно выделить: a). Наличие некоторой системы понятий, соответственно

В любом тексте можно выделить:

a). Наличие некоторой системы понятий,
соответственно

предметной области.
b). Некий первичный материал в виде результатов
собственных наблюдений.
c). Собственные взгляды автора
по излагаемому вопросу.
d). Кроме личных мыслей используются
заимствования из других источников.
e). Общие места.
( a, b, c, d, e )
Слайд 5

Этапы восприятия текста 1. Чтение. Восприятие текста, как последовательности синтаксических конструкций.

Этапы восприятия текста


1. Чтение. Восприятие текста, как последовательности
синтаксических конструкций.

2. Понимание смысла. Интерпретация
содержания синтаксических конструкций.
Результат понимания - формирование модели
мира в сознании читателя
Слайд 6

Приобретение знаний Аналитик Программист Источники знаний БЗ Средства автоматизации Источники знаний - тексты

Приобретение знаний
Аналитик Программист
Источники
знаний БЗ
Средства
автоматизации
Источники

знаний - тексты
Слайд 7

Проблемы автоматического распознавания текста Шрифтовое и размерное разнообразие Дефекты изображения Близость

Проблемы автоматического распознавания текста

Шрифтовое и размерное разнообразие
Дефекты изображения
Близость изображений символов (контекст)
Посторонние

включения в изображение
Сочетание нескольких языков
Автоматическое чтение -
частный случай задачи автоматического
восприятия зрительных образов
Слайд 8

Задача классификации Имеется N классов объектов: Ώ1, Ώ2, . . .

Задача классификации

Имеется N классов объектов:
Ώ1, Ώ2, . . .

, ΏN
О - предъявляемый для распознавания объект.
Задача. Определить i : О ∈ Ώi
Слайд 9

OCR-системы OCR - Optical Character Recognition Текст

OCR-системы

OCR - Optical Character Recognition
Текст

Слайд 10

OCR-системы OCR - Optical Character Recognition Текст Сканер Графическое изображение Шейп

OCR-системы

OCR - Optical Character Recognition
Текст Сканер Графическое
изображение

Шейп
Слайд 11

OCR-системы OCR - Optical Character Recognition Текст Сканер Графическое OCR Цифровое изображение система представление Шейп

OCR-системы

OCR - Optical Character Recognition
Текст Сканер Графическое OCR Цифровое

изображение система представление
Шейп
Слайд 12

Принципы OCR Принцип целостности образа. В исследуемом объекте всегда есть значимые

Принципы OCR

Принцип целостности образа.
В исследуемом объекте всегда есть значимые

элементы, между которыми существуют отношения
Принцип целенаправленности.
Распознавание – последовательный процесс выдвижения и проверки гипотез.
Принцип адаптивности.
Система должна быть способна к самообучению.
Слайд 13

Схема автоматического распознавания символа Шейп Сравнение с эталоном

Схема автоматического распознавания символа
Шейп Сравнение
с эталоном

Слайд 14

Схема автоматического распознавания символа Шейп Сравнение с эталоном База эталонов Результат распознавания

Схема автоматического распознавания символа
Шейп Сравнение
с эталоном База
эталонов
Результат


распознавания
Слайд 15

Схема автоматического распознавания символа Шейп Сравнение с эталоном База эталонов Результат Критерий распознавания сравнения

Схема автоматического распознавания символа
Шейп Сравнение
с эталоном База
эталонов
Результат

Критерий
распознавания сравнения
Слайд 16

Классификаторы Шаблонные Признаковые Структурные

Классификаторы

Шаблонные
Признаковые
Структурные

Слайд 17

Схема работы FineReader Шаблонный классификатор Признаковый классификатор Формирование гипотезы 1 Оценка

Схема работы FineReader

Шаблонный классификатор Признаковый классификатор
Формирование гипотезы 1
Оценка гипотезы

Структурный -
классификатор Формирование гипотезы 2
Оценка гипотезы
-
Словари Снятие неопределенности
Формирование заключения
Слайд 18

OСR-cистема Cognitive Forms Создание шаблонов Сканирование Сортировка и комплектация Сортировка удачна

OСR-cистема Cognitive Forms

Создание шаблонов
Сканирование
Сортировка и комплектация
Сортировка удачна

да Оператору
Распознавание
Удачное распознавание
да Оператору
Запись в БД
Экспорт во внешние приложения
Слайд 19

Синтаксический анализ Задача синтаксического анализа - выявление связей между элементами, из

Синтаксический анализ
Задача синтаксического анализа -
выявление связей между элементами,

из которых состоит предложение.
Результат синтаксического анализа -
дерево синтаксического разбора:
Слайд 20

«Текст- Смысл» Читаем, слушаем АНАЛИЗ: Модель «ТЕКСТ -- СМЫСЛ» «тексты» ЕЯ

«Текст- Смысл»

Читаем, слушаем
АНАЛИЗ: Модель «ТЕКСТ -- СМЫСЛ»
«тексты»

ЕЯ «смыслы»
Говорим, пишем
СИНТЕЗ: Модель «СМЫСЛ -- ТЕКСТ»
Слайд 21

Уровни интерпретации текстов Уровни интерпретации Возможности системы Синтаксический - Понимание структуры

Уровни интерпретации текстов

Уровни интерпретации Возможности системы
Синтаксический - Понимание структуры

предложений
- Понимание смысла;
Семантический представление ситуаций
в соответствии с текстом
Прагматический - Понимание в контексте.
Возможность решать задачи
.
Слайд 22

Синтаксический анализ Задача синтаксического анализа - выявление связей между элементами, из

Синтаксический анализ
Задача синтаксического анализа -
выявление связей между элементами,

из которых состоит предложение.
Результат синтаксического анализа -
дерево синтаксического разбора:
Слайд 23

Морфологический анализ с использованием словаря с использованием основ, таблиц окончаний, словаря

Морфологический анализ

с использованием словаря с использованием
основ, таблиц окончаний, словаря

словоформ.
флективных классов, …
Лексемы МА Характеристики лексем
Лексемы (лексические единицы) - элементы, из которых состоит предложение
Слайд 24

Синтаксический анализ Построение дерева составляющих

Синтаксический анализ Построение дерева составляющих

Слайд 25

Синтаксический анализ Построение дерева подчинения

Синтаксический анализ Построение дерева подчинения

Слайд 26

Неоднозначность результатов синтаксического анализа Веселые беззаботные студенты из Казани приехали в Москву

Неоднозначность результатов синтаксического анализа
Веселые беззаботные студенты из Казани приехали в Москву

Слайд 27

Семантический анализ Семантический анализ – совокупность операций представления смысла текста с

Семантический анализ

Семантический анализ – совокупность операций представления смысла текста с

помощью некоторого формализованного языка.
Лексические функции (ЛФ)
Часто встречаются в тексте
Общее число выражений ЛФ очень велико
3. В каждой точке текста конкретное выражение ЛФ зависит от ключевого слова
Слайд 28

Примеры ЛФ Ключевое слово Изменение Разгромить Любить Служить Выражение ЛФ Коренное

Примеры ЛФ

Ключевое слово Изменение Разгромить Любить Служить
Выражение ЛФ Коренное Наголову Сильно

Беззаветно
Страстно Безумно
Ключевое слово Приглащение Барьер Мечта Приговор
Выражение ЛФ Принять Преодолеть Достичь Приводить
в исполнение
Ключевые слова - «опорные» точки, по которым текст кодируется
при запоминании
Слайд 29

Тезаурусный метод Список слов и Алфавитный словарь ТЕЗАУРУС устойчивых слово- где

Тезаурусный метод
Список слов и Алфавитный словарь
ТЕЗАУРУС устойчивых слово- где

для каждого слова
сочетаний,сгруппи- указаны рубрики
рованы по смыслу
Семантические отношения:
R1(X,Y) – слова X и,Y входят в одну рубрику
R2(X,Y) - слово X, входит в рубрику Y
Слайд 30

Формирование смысла Уровень синтаксических Уровень глубинных конструкций структур ПОНИМАНИЕ ТЕКСТ «ВТОРОЙ

Формирование смысла
Уровень синтаксических Уровень глубинных конструкций структур ПОНИМАНИЕ ТЕКСТ «ВТОРОЙ

ТЕКСТ»
Ключевые слова - «опорные» точки, по которым текст кодируется при запоминании и (кодируется)
Слайд 31

Уровни понимания смысла текста Понимание содержания, изложенного в тексте, без привлечения

Уровни понимания смысла текста

Понимание содержания, изложенного в тексте, без привлечения дополнительных

знаний.
Понимание, предполагающее использование процедур логического пополнения на основе псевдофизических логик.
Понимание с использованием знаний системы, связанных с текстом отношением ассоциации.
Понимание, ориентированное на извлечение прагматического содержания .
Слайд 32

Система автоматизированного восприятия смысла текста

Система автоматизированного восприятия смысла текста