Технология анализа текста и извлечения ключевых слов

Содержание

Слайд 2

ЦЕЛЬ РАБОТЫ практическое освоение технологии анализа текста; извлечение ключевых слов; профессионального поиска информации.

ЦЕЛЬ РАБОТЫ

практическое освоение технологии анализа текста;
извлечение ключевых слов;
профессионального поиска информации.

Слайд 3

ТЕОРЕТИЧЕСКАЯ ЧАСТЬ Знание общих принципов функционирования поисковых средств и умение грамотно

ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

Знание общих принципов функционирования поисковых средств и умение грамотно составить

запрос поисковой машине необходимые, но недостаточные условия успешного поиска требуемой информации.
Выбор ключевых слов в данном случае может осуществить специалист узкого профиля, но труд его дорог и малопроизводителен, или специальные программные средства, основанные на применении законов Зипфа.
Слайд 4

ТЕОРЕТИЧЕСКАЯ ЧАСТЬ Джордж Зипф установил, что все тексты подчиняются общим закономерностям,

ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

Джордж Зипф установил, что все тексты подчиняются общим закономерностям, и

сформулировал в 1946—49 гг. несколько законов, которые нашли применение в технологии поиска информации.
Первый закон Зипфа утверждает, что произведение частоты встречи слова в тексте (или вероятности встречи слова по Зипфу) на его ранг есть величина приблизительно постоянная для любых текстов определенного языка, т.е. имеет место C = f*R ~ const.

График зависимости частоты слова f от его ранга R.

Слайд 5

ТАБЛИЦА КЛЮЧЕВЫХ СЛОВ (ручной поиск) Список слов текста-источника, отсортированный по убыванию

ТАБЛИЦА КЛЮЧЕВЫХ СЛОВ (ручной поиск)

Список слов текста-источника, отсортированный по убыванию их

частот, представлен в следующей таблице
Слайд 6

График зависимости частоты вхождения слова от ранга В данном случае целесообразно

График зависимости частоты вхождения слова от ранга

В данном случае целесообразно выбрать

диапазон значений ранга слов, равный первым восьми рангам (10 слов).
Слайд 7

ФОРМУЛИРОВКА ПОИСКОВОГО ЗАПРОСА (ручной поиск) Запрос будет состоять из слов с

ФОРМУЛИРОВКА ПОИСКОВОГО ЗАПРОСА (ручной поиск)

Запрос будет состоять из слов с наивысшим рангом,

разделенных логическим оператором «ИЛИ» (or). При этом порядок следования сохраним.
Слайд 8

Программы-экстракторы RCO Fact Extractor – это интеллектуальная программа для высокоточного избирательного

Программы-экстракторы

RCO Fact Extractor – это интеллектуальная программа для высокоточного избирательного анализа

информации.
TextAnalyst – персональная система автоматического анализа текста, разработан а качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов.
Слайд 9

ИСПОЛЬЗОВАНИЕ TextAnalyst Персональная система автоматического анализа текста TextAnalyst предназначена для анализа

ИСПОЛЬЗОВАНИЕ TextAnalyst

Персональная система автоматического анализа текста TextAnalyst предназначена для анализа содержания текстов,

смыслового поиска информации и формирования электронных архивов. TextAnalyst предоставляет пользователю следующие возможности: 
анализ содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей; 
анализ содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем; 
смысловой поиск с учетом скрытых смысловых связей слов запроса со словами текста; 
автоматическое реферирование текста - формирования его смыслового портрета в терминах наиболее информативных фраз; 
кластеризация информации - анализ распределения материала текстов по тематическим классам;
автоматическая индексация текста с преобразованием в гипертекст; 
ранжирование всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования; 
автоматическое/автоматизированное формирование полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации.
TextAnalys позволяет осуществлять эффективную семантическую обработку текстов с извлечением ключевых слов и выражений.
Слайд 10

ТАБЛИЦА КЛЮЧЕВЫХ СЛОВ (TextAnalyst)

ТАБЛИЦА КЛЮЧЕВЫХ СЛОВ (TextAnalyst)

Слайд 11

График зависимости частоты вхождения слова от ранга

График зависимости частоты вхождения слова от ранга

Слайд 12

ФОРМУЛИРОВКА ПОИСКОВОГО ЗАПРОСА (TextAnalyst) Поисковой запрос с использованием ключевого слова «ИЛИ» (or):

ФОРМУЛИРОВКА ПОИСКОВОГО ЗАПРОСА (TextAnalyst)

Поисковой запрос с использованием ключевого слова «ИЛИ» (or):