Разработка методов высокоточной классификации двуязычных текстовых библиографических документов

Содержание

Слайд 2

Основные направления работ Обучающая выборка – на исходном языке (английский, французский),

Основные направления работ

Обучающая выборка – на исходном языке (английский, французский), экзаменационная

– на целевом (вьетнамский, венгерский);
Смешанная обучающая выборка - документы представлены одновременно на двух языках.
Слайд 3

Структура библиографического описания Библиографические описания научных статей – обычно состоят из

Структура библиографического описания

Библиографические описания научных статей – обычно состоят из названия

статьи, аннотации и ключевых слов, приведенные одновременно на русском и английском языках.
Описания могут быть неполными – название может быть приведено только на русском, а ключевые слова отсутствовать полностью.
Слайд 4

Состав выборок Объем обучающих выборок: 385 документов, экзаменационных: 84 документа

Состав выборок

Объем обучающих выборок: 385 документов, экзаменационных: 84 документа

Слайд 5

Русские термины Английские термины Расширенная матрица «документ-термин» где – вес термина

Русские термины Английские термины


Расширенная матрица «документ-термин»

где – вес термина

i в документе j (i=1,…,M; j=1,…,N);
M – общее количество терминов в смешанной выборке;
N – количество документов.
Слайд 6

Методы взвешивания, меры близости и методы классификации

Методы взвешивания, меры близости и методы классификации

Слайд 7

Профиль Соукала-Сниса (С-С): . Профильные методы классификации Профиль – формальный объект,

Профиль Соукала-Сниса (С-С):

.

Профильные методы классификации

Профиль – формальный объект, который

способен характеризовать все остальные элементы класса и состоит из наиболее информативных слов, определенных специальным образом.
Слайд 8

Ошибки классификации Профильные методы обладают более высокой точностью классификации, чем «классические» к-БС и метод центроидов.

Ошибки классификации

Профильные методы обладают более высокой точностью классификации, чем «классические» к-БС

и метод центроидов.
Слайд 9

Синтезированные профили. UNI1 Предположение: Построение смешанного профиля, в который включались бы

Синтезированные профили. UNI1

Предположение:
Построение смешанного профиля, в который включались бы самые информативные

термины обоих языков, рассчитанные по формулам РО- и НМИ-профилей.
Сюда должны попасть частотные слова РО-профиля и достаточно редкие (специфические) термины из НМИ-профиля
Слайд 10

Синтезированные профили. UNI2 Предположение: Русскоязычные и англоязычные тексты неравнозначны. Поскольку русский

Синтезированные профили. UNI2

Предположение:
Русскоязычные и англоязычные тексты неравнозначны. Поскольку русский язык

является «родным» для авторов, изложение на нем материала более квалифицированное и информативное.
В профиль включается h классообразующих русских терминов из РО- и НМИ-профилей, дополненных t наиболее информативными английскими словами.
Слайд 11

Синтезированные профили. UNI5 Предположение: Элементы профиля рассчитываются как сумма весов НМИ-

Синтезированные профили. UNI5

Предположение:
Элементы профиля рассчитываются как сумма весов НМИ- и С-С-профилей.
За

счет высоких значений С-С-профиля, результирующие веса информативных терминов существенно возрастают (становятся больше 1) и усиливается их влияние на определение класса нового документа.
Слайд 12

Результаты экспериментов, профильные методы: Результаты экспериментов для профильных методов Получили группу

Результаты экспериментов, профильные методы:

Результаты экспериментов для профильных методов

Получили группу приблизительно равноточных

методов, основанных на разных подходах к выявлению информативных терминов, способная обучаться на английских, русских и смешанных выборках
Слайд 13

Коллективы решающих правил Результаты экспериментов, КРП: При объединении в коллектив можно

Коллективы решающих правил

Результаты экспериментов, КРП:

При объединении в коллектив можно ожидать, что

разнородные процедуры будут «исправлять» ошибки друг друга и увеличивать результирующую точность.

КРП1 (РО, НМИ, С-С) - три наиболее разнородных классификатора: статистический РО-профиль, теоретико-информационный нормированный МИ-профиль и эвристический С-С-профиль.
КРП2 (РО, НМИ, С-С, UNI2, UNI5) - представляет собой КРП1, расширенный за счет включения UNI2- и UNI5- профилей.
КРП3 (РО, НМИ, С-С, метод центроидов, к-БС) – представляет собой КРП1, расширенный «классическими» методами: методом центроидов и методом к-ближайших соседей.

Слайд 14

Использование смешанных выборок, которые содержат терминологическую информацию на русском и английском

Использование смешанных выборок, которые содержат терминологическую информацию на русском и английском

языках, в большинстве случаев обеспечивает более высокую точность классификации по сравнению с одноязычными выборками.
На основе экспериментальных результатов можно сделать вывод о хороших точностных характеристиках профильных методов. Эти методы, за счет более эффективного выявления информативных терминов позволяют улучшить точность классификации на смешанных выборках по сравнению с известными «классическими» методами.
Приблизительная равноточность всех профильных методов при их разнородности позволяют объединять эти процедуры в КРП, обладающие наиболее высокой точностью классификации двуязычных документов.

Выводы