Методы обогащения данных

Содержание

Слайд 2

Проблема

Проблема

Слайд 3

Решение Комплекс мер по улучшению качества данных

Решение

Комплекс мер по улучшению качества данных

Слайд 4

Стандартизация: понятие Стандартизация – это унификация представления и приведение к единому

Стандартизация: понятие

Стандартизация – это унификация представления и приведение к единому формату

данных.
Задачи:
Нормализация баз данных с целью удаления избыточности: разбиение на несколько таблиц, выделение первичных ключей…
Разбор строк на атомарные объекты: разделение поля «ФИО» на значения «Фамилия», «Имя», «Отчество», разбор адреса по КЛАДР…
Унификация представления: преобразование номеров телефонов к стандартному виду +7 (ХХХ) ХХХХХХХ…
Слайд 5

Стандартизация: парсинг Парсинг – грамматический или лексический анализ текста. Осуществляет деление поля на атомарные значения.

Стандартизация: парсинг

Парсинг – грамматический или лексический анализ текста. Осуществляет деление поля

на атомарные значения.
Слайд 6

Стандартизация: словари Использование машинных словарей (справочников имен, телефонных кодов, КЛАДР, БИК…) позволяет стандартизировать представление данных.

Стандартизация: словари

Использование машинных словарей (справочников имен, телефонных кодов, КЛАДР, БИК…) позволяет

стандартизировать представление данных.
Слайд 7

Стандартизация: регулярные выражения Регулярные выражения позволяют производить манипуляции с данными, используя

Стандартизация: регулярные выражения

Регулярные выражения позволяют производить манипуляции с данными, используя шаблоны:
находить

в строке подстроки, удовлетворяющие заданному шаблону: поиск жителей, прописанных в Москве…
извлекать из строки фрагменты, с заданным стандартом написания: выделение почтового индекса или года рождения…
изменять в строке подстроки, соответствующие шаблону: удаление нечисловых символов из паспортных данных или телефона…
проверять, соответствует ли строка заданному шаблону: проверка корректности e-mail…
Слайд 8

Очистка данных: понятие Очистка данных – процесс выявления и исправления ошибок,

Очистка данных: понятие

Очистка данных – процесс выявления и исправления ошибок, позволяющий

обеспечить качественный анализ.
Задачи:
Оценка достоверности информации
Выявление ошибочных и подозрительных данных: аномалий, дубликатов, противоречий…
Исправление выявленных ошибок
Слайд 9

Очистка: частотный анализ Метод основывается на анализе частоты появления определенного значения

Очистка: частотный анализ

Метод основывается на анализе частоты появления определенного значения или

комбинаций таких значений во всей совокупности данных.
Слайд 10

Очистка: контрольные числа В основе алгоритма контрольных чисел лежит расчет определенных

Очистка: контрольные числа

В основе алгоритма контрольных чисел лежит расчет определенных функций,

которые применяются для проверки правильности номеров банковских карт, ИНН, СНИЛС, ОКПО, ОКАТО, ОГРН…

ИНН введен с ошибкой

Контрольные числа не совпадают

Слайд 11

Очистка: схожесть строк Анализ строк выявляет «похожесть» записей с помощью алгоритмов

Очистка: схожесть строк

Анализ строк выявляет «похожесть» записей с помощью алгоритмов сравнения

значений: метода Левенштейна, Soundex, нахождения максимальной общей подпоследовательности…

Игорь

Игроь

Слайд 12

Очистка: дедубликация Дедубликация основывается на поиске совпадающих и похожих объектов по

Очистка: дедубликация

Дедубликация основывается на поиске совпадающих и похожих объектов по определенным

стратегиям с целью устранения повторов.

Стратегия поиска 1:
совпадение паспортных данных

Стратегия поиска 2:
совпадение ФИО + адрес + дата рождения

Стратегия поиска 3:
совпадение ФИО + телефон

Стратегия поиска 4:
совпадение ИНН

Слайд 13

Очистка: другие методы Для очистки данных используются и другие методы: Формализованные

Очистка: другие методы

Для очистки данных используются и другие методы:
Формализованные правила: накладывание

заранее определенных правил очистки на контролируемые поля
Способы замены: индексирование слов по их звучанию, кодирование…
Проверка по статистическим значениям: по доверительному интервалу, средним значениям…
Кластерный анализ: проверка написания значения с учетом попадания его в кластер…
Слайд 14

Обогащение – процесс насыщения данных новой информацией, которая позволяет сделать их

Обогащение – процесс насыщения данных новой информацией, которая позволяет сделать их

более ценными, значимыми и информативными с точки зрения решения той или иной аналитической задачи.
Задачи:
Интеграция данных из множества источников
Выявление связей между объектами
Заполнение пропусков
Слайд 15

Анализ связей исследует взаимосвязанные объекты и определяет закономерности между ними. Обогащение:

Анализ связей исследует взаимосвязанные объекты и определяет закономерности между ними.

Обогащение: анализ

связей

?

Анализ друзей в социальной сети

Друзья в социальной сети

Слайд 16

Обогащение: поиск близких объектов Поиск близких объектов основывается на «схожести» значений

Обогащение: поиск близких объектов

Поиск близких объектов основывается на «схожести» значений признаков

объектов.

Иванов

Сидоров

Иванов

Петров

Воробьев

Ивакин

Слайд 17

Обогащение: другие методы Обогащение данных предполагает применение и комбинирование множества методов:

Обогащение: другие методы

Обогащение данных предполагает применение и комбинирование множества методов:
Реорганизация самих

данных: введение кодировок, признаков состояний объектов, подразделение их на категории…
Нечеткий поиск: восстановление пропусков с помощью нечетких запросов…
Анализ источников данных: рейтингование источников данных по достоверности…