Информационный анализатор текстов и литературных произведений – программа Pen-Mastery

Содержание

Слайд 2

В Интернет-пространстве при желании можно найти практически любую информацию и в

В Интернет-пространстве при желании можно найти практически любую информацию и

в любой форме.
Но чаще всего информация подается в виде текстов, что обусловлено историей развития человечества.
И пока «печатное слово» для большинства населения Земли является самым привычным способом подачи и восприятия информации.

Вступление

Слайд 3

Но человеческое сознание меняется медленно. И при самых новейших технологиях остаются

Но человеческое сознание меняется медленно. И при самых новейших технологиях

остаются некоторые «старые» проблемы, среди которых можно назвать плагиат и бессмысленные тексты.
Конечно, проблема плагиата и плагиаторов далеко не нова. Но для этого человеческого недуга появляется и своего рода противоядие – компьютерные программы, способные анализировать текст.
И в связи с этим актуальной является задача создания универсального анализатора текста.
Слайд 4

На данный момент существуют такие лингвистические системы:

На данный момент существуют такие лингвистические системы:

Слайд 5

Цель работы: Разработка авторской программы – универсального анализатора машиночитаемых текстов Объект

Цель работы:

Разработка авторской программы – универсального анализатора машиночитаемых текстов

Объект исследования:

Предмет
исследования:

Процесс анализа

оцифрованных текстов и определения ряда ключевых и некоторых дополнительных характеристик исследуемого текста

Средства анализа текстов и интерпретация полученных результатов после вычислений

Слайд 6

Получение определенных объективных (математических или статистических) характеристик информации, которая содержится в

Получение определенных объективных (математических или статистических) характеристик информации, которая содержится в

текстовом файле;

Организация модульной структуры будущей программы и обеспечение взаимодействия между ее модулями, а также обеспечение взаимодействия MS Word и MS Excel через программный код при анализе текста;

Разработка специфических алгоритмов для определения «степени авторства» заданного текста на основе проверки статистических гипотез;

Разработка специфических алгоритмов и методов анализа текстов на предмет наличия в них заранее определенных слов или словосочетаний и последующей реакции программы на такие слова;

Разработка удобного и интуитивно понятного пользовательского интерфейса программы (UserForm).

При выполнении работы решались такие задачи:

Слайд 7

При составлении данной программы были сформулированы следующие рабочие гипотезы : Известно,

При составлении данной программы были сформулированы следующие рабочие гипотезы :

Известно,

что разнообразие (или богатство) речи определяется тем, сколько языковых единиц (т.е. слов и фразеологизмов) находится в словарном запасе говорящего, и чем разнообразнее речь, тем больше в ней содержится информации, больше личных оценок, авторского отношения к предмету речи.
Отсюда предположение автора о том, что информационная энтропия текста однозначно связана с лексическим разнообразием (иначе – разнообразием словарного запаса) говорящего или пишущего человека.

Гипотеза № 1

Слайд 8

… рабочие гипотезы – 2 : Известно, что у сочинителя обязательно

… рабочие гипотезы – 2 :

Известно, что у сочинителя обязательно

вырабатывается некоторый «авторский стиль», который и формирует то, что написано человеком. Этому стилю сочинителя присущи свои признаки – сигнатуры* письма.
Отсюда предположение автора о том, что можно оцифровать эти сигнатуры и использовать их для дальнейшей интерпретации.
* Сигнатура – характерная особенность к.-либо объекта, обеспечивающая его идентификацию.

Гипотеза № 2

Слайд 9

Не секрет, что субъективные факторы могут влиять на результаты какой-либо экспертизы.

Не секрет, что субъективные факторы могут влиять на результаты какой-либо

экспертизы.
Математика способна удалить субъективизм из любой проблемы или вопроса.
Поэтому для обеспечения по-настоящему научной экспертной оценки обычно применяют
общие и специальные математические процедуры
для подсчета определенных ключевых и
некоторых дополнительных характеристик анализируемого текста.
Такими характеристиками с точки зрения информатики, прикладной лингвистики и ее новейшего направления – компьютерной лингвистики – будет несколько математических величин.

Методика исследования анализируемого текста - 1

Слайд 10

Методика исследования анализируемого текста - 2 Среди этих величин было выбрано

Методика исследования анализируемого текста - 2

Среди этих величин было выбрано три

основных :
энтропия текста Н,
математическое ожидание < X > и
стандартное отклонение σ .
В программе они названы главными статистическими величинами (на пользовательской форме они обозначены как «main Stat. data»)

Кроме перечисленных основных статистических показателей, было избрано несколько дополнительных величин (на форме – «Relat. Frequency of Signes»), которые, по мнению автора программы, тесно связаны с творческой манерой сочинителя.
Вместе эти показатели и формируют максимально объективные характеристики авторского стиля исследуемого текста.

Слайд 11

Для подсчета названных величин программа «Pen-Mastery» проводит двухэтапную декомпозицию анализируемого текста:

Для подсчета названных величин программа «Pen-Mastery» проводит двухэтапную декомпозицию анализируемого текста:

сначала весь текст раскладывается на слова, а затем эти слова – на составляющие их символы. После этого программа производит частотно-статистический анализ этих символов как разъединенных элементов текста.
Для подсчета текстовой энтропии Н обычно используют формулу К.Шеннона, где учитывается вероятность pi появления i-го символа в исследуемом тексте: .
Математическое ожидание < X > имеет смысл «накопительного коэффициента использования определенных символов в тексте», а также одной из объективных «чувствительной-к-личности» характеристик анализируемого текста. А т.к. математическое ожидание в статистике всегда сопровождается стандартным отклонением σ, и пара этих величин записывается в виде:

«Как оно работает ?» - 1

Слайд 12

«Как оно работает ?» - 2 Теперь можно считать набор приведенных

«Как оно работает ?» - 2

Теперь можно считать набор приведенных

математических характеристик достаточно информативным и объективным признаком авторского стиля сочинителя текста.
Возможно, перечисленный выше набор характеристик не будет достаточным для полноценной экспертной оценки относительно авторства какого-то текста, и решение этого вопроса нуждается в дополнительных уточнениях. → Это может быть некоторые клавиатурные символы, которые можно считать присущими для письменного творчества какой-то определенной личности наподобие отпечатков ее пальцев.
Таким образом, частотные коэффициенты употребления некоторых специфических символов могут также быть важными идентификаторами при определении авторского стиля человека.
Слайд 13

Поскольку VBA уже много лет является отраслевым стандартом для управления приложениями

Поскольку VBA уже много лет является отраслевым стандартом для управления приложениями

MS Office под Windows, то, естественно, реализовать предложенную методику и алгоритмы было решено в этой среде программирования.
Программа «Pen-Mastery» анализирует заданный текст по данной логической схеме:

Программная реализация предложенной методики

Слайд 14

Приступая к работе с программой, пользователь должен разместить анализируемый текст в

Приступая к работе с программой, пользователь должен разместить анализируемый текст в

«строго определенный Word-файл» (т.е. в .doc- или .docx-файл с определенным названием и с определенным размещением на выбранном носителе), после чего необходимо запустить на исполнение базовый макрос (размещенный в Excel-мастер-файле), который вызовет на дисплей пользовательскую форму (UserForm). Эта форма предложит зарегистрировать подлежащий исследованию текст.

Анализ текста в «Pen-Mastery v.1» : шаг за шагом

Слайд 15

Сама регистрация подлежащего анализу текста происходит в два этапа. Сначала «записывается»

Сама регистрация подлежащего анализу текста происходит в два этапа.
Сначала «записывается» автор

текста:

Анализ текста в «Pen-Mastery v.1» : шаг 1

Слайд 16

Затем – название текста: Анализ текста в «Pen-Mastery v.1» : шаг 2

Затем – название текста:

Анализ текста в «Pen-Mastery v.1» : шаг 2

Слайд 17

Программа «следит» за ошибками человека: если не было внесено ни одной

Программа «следит» за ошибками человека: если не было внесено ни одной

регистрационной записи – идентификатора автора и текста, то на дисплей выводится сообщение об этом с соответствующим напоминанием

Анализ текста в «Pen-Mastery v.1» : шаг 2

Слайд 18

После успешного завершения процедуры регистрации анализируемого текста программа выдает сообщение об

После успешного завершения процедуры регистрации анализируемого текста программа выдает сообщение об

этом. Теперь наступает фаза математического анализа текста. Кнопка «ANALYSING» запускает соответствующий модуль
на исполнение.

Анализ текста в «Pen-Mastery v.1» : шаг 3

Слайд 19

После выполнения инструкций базового модуля на форме появляется сообщение об окончании

После выполнения инструкций базового модуля на форме появляется сообщение об окончании

анализа текста.
Теперь пользователю доступны результаты исследования.

Анализ текста в «Pen-Mastery v.1» : шаг 4

Слайд 20

Полнота выводимых на дисплей статистических характеристик исследуемого текста регулируется переключателем режимов:

Полнота выводимых на дисплей статистических характеристик исследуемого текста регулируется переключателем режимов:
либо

«main Stat. data», либо «Relat. Frequency of Signes».

Анализ текста в «Pen-Mastery v.1» : шаг 5

Вывод основных данных:

Слайд 21

Вывод дополнительных данных: Анализ текста в «Pen-Mastery v.1» : шаг 6

Вывод дополнительных данных:

Анализ текста в «Pen-Mastery v.1» : шаг 6

Слайд 22

Выводы Программа-анализатор «Pen-Mastery» задумана и сделана как модульный конструктор, который функционирует

Выводы

Программа-анализатор «Pen-Mastery» задумана и сделана как модульный конструктор, который функционирует по

принципу наращивания возможностей. Такая структура, безусловно, является преимуществом программы.
Ценность проведенной работы состоит в том, что составлена многоцелевая модульная программа – анализатор текста, определяющая набор числовых характеристик, которые с высокой степенью достоверности позволяют судить об авторском стиле исследуемого текста. Полученной объективной информации, как правило, достаточно, чтобы с определенной погрешностью установить степень плагиата анализируемого текста. Кроме того, представленная программа способна установить, есть ли в данном тексте заранее определенное слово или словосочетание.
При помощи программы «Pen-Mastery» был проанализирован согласно описанной методике ряд произведений русской литературы (авторы: А.С.Пушкин, Н.В.Гоголь, И.А.Бунин). Таким образом сформированная к настоящему времени БД позволяет подтвердить гипотезы автора.
Развивая данную программу, можно сделать ее кросс-платформенной. Кроме этого, можно предложить пользователям версии данной программы на разных языках.
Слайд 23

Алгоритмы анализа машиночитаемых текстов программы «Pen-Mastery» позволяют ее успешно применять как

Алгоритмы анализа машиночитаемых текстов программы «Pen-Mastery» позволяют ее успешно применять как

для специалистов, так и для заинтересованных пользователей:
при ведении борьбы с плагиатом машиночитаемых текстов;
при определении авторства известных и новых литературных произведений (например, при идентификации современных и старых артефактов);
при оценке разнообразия словарного запаса человека (на основе его письменных работ);
при рецензировании сообщений во время их набора («на лету») в социальных сетях и SMS.

Применение

Слайд 24

Спасибо за внимание ! Настоящая работы выполнена в рамках Регионального образовательного

Спасибо за внимание !

Настоящая работы выполнена в рамках Регионального образовательного проекта

“IT docentes FUTURUM” (ITDF), инициатором которого является
Одесская национальная академия связи им. А.С. Попова (ОНАС)

See us at : www.facebook.com/ITDF.ua