Содержание
- 2. Проблема
- 3. Решение Комплекс мер по улучшению качества данных
- 4. Стандартизация: понятие Стандартизация – это унификация представления и приведение к единому формату данных. Задачи: Нормализация баз
- 5. Стандартизация: парсинг Парсинг – грамматический или лексический анализ текста. Осуществляет деление поля на атомарные значения.
- 6. Стандартизация: словари Использование машинных словарей (справочников имен, телефонных кодов, КЛАДР, БИК…) позволяет стандартизировать представление данных.
- 7. Стандартизация: регулярные выражения Регулярные выражения позволяют производить манипуляции с данными, используя шаблоны: находить в строке подстроки,
- 8. Очистка данных: понятие Очистка данных – процесс выявления и исправления ошибок, позволяющий обеспечить качественный анализ. Задачи:
- 9. Очистка: частотный анализ Метод основывается на анализе частоты появления определенного значения или комбинаций таких значений во
- 10. Очистка: контрольные числа В основе алгоритма контрольных чисел лежит расчет определенных функций, которые применяются для проверки
- 11. Очистка: схожесть строк Анализ строк выявляет «похожесть» записей с помощью алгоритмов сравнения значений: метода Левенштейна, Soundex,
- 12. Очистка: дедубликация Дедубликация основывается на поиске совпадающих и похожих объектов по определенным стратегиям с целью устранения
- 13. Очистка: другие методы Для очистки данных используются и другие методы: Формализованные правила: накладывание заранее определенных правил
- 14. Обогащение – процесс насыщения данных новой информацией, которая позволяет сделать их более ценными, значимыми и информативными
- 15. Анализ связей исследует взаимосвязанные объекты и определяет закономерности между ними. Обогащение: анализ связей ? Анализ друзей
- 16. Обогащение: поиск близких объектов Поиск близких объектов основывается на «схожести» значений признаков объектов. Иванов Сидоров Иванов
- 17. Обогащение: другие методы Обогащение данных предполагает применение и комбинирование множества методов: Реорганизация самих данных: введение кодировок,
- 19. Скачать презентацию