Инструментарий хранилищ данных. Управление метаданными

Содержание

Слайд 2

Вопросы Инструментарий хранилищ данных. Управление метаданными.

Вопросы

Инструментарий хранилищ данных.
Управление метаданными.

Слайд 3

1 Инструментарий хранилищ данных Создание хранилища данных из независимых источ-ников данных

1 Инструментарий хранилищ данных

Создание хранилища данных из независимых источ-ников данных —

многоэтапный процесс, который пре-дусматривает извлечение данных из каждого источ-ника, преобразование их в соответствии со схемой хранилища данных, очистку, а затем загрузку в храни-лище.
Data Warehousing Information Center опубликовал об-ширный список инструментальных средств ETL (extract, transform, load — «извлечение, преобразова-ние, загрузка»), выполняющих эту последователь-ность операций.
Слайд 4

1.1 Извлечение и преобразование

1.1 Извлечение и преобразование

Слайд 5

1.2 Очистка данных Ошибки при вводе данных и различия в схемах

1.2 Очистка данных

Ошибки при вводе данных и различия в схемах могут

привести к тому, что таблица измерений «Клиент» будет иметь несколько соответствующих кортежей для одного клиента, что приводит к неточным ответам на запросы и некорректным моделям добычи данных.
К примеру, если таблица клиентов содержит по неско-лько кортежей для некоторых клиентов FSC в Нью-Йорке, то Нью-Йорк может ошибочно попасть в список первых 50 стран с самым большим числом индивидуаль-ных клиентов.
Инструменты, которые помогают определить и испра-вить аномалии данных, могут иметь высокую отдачу; значительное число исследований посвящено пробле-мам устранения дублирования и инструментам очистки данных.
Слайд 6

1.3 Загрузка После того, как данные извлечены и преобразованы, воз-можно, что

1.3 Загрузка

После того, как данные извлечены и преобразованы, воз-можно, что их

еще необходимо дополнительно обработать перед тем, как добавить в хранилище. Как правило, утили-ты фоновой загрузки поддерживают такие функции, как
проверка ограничений целостности;
сортировка;
суммирование,
агрегирование и
выполнение других вычислений для создания производных таблиц, размещаемых в хранилище;
создание индексов и других способов доступа.
Помимо наполнения хранилища, утилита загрузки должна позволять системным администраторам проверять статус; отменять, приостанавливать и возобновлять загрузку; возо-бновлять работу после ошибки без потери целостности дан-ных. Поскольку утилиты загрузки для хранилищ данных об-рабатывают значительно больше данных, чем содержится в транзакционных системах, они используют разного рода ал-горитмы распараллеливания.
Слайд 7

1.4 Обновление Обновление хранилища данных состоит в распростране-нии обновлений на исходные

1.4 Обновление

Обновление хранилища данных состоит в распростране-нии обновлений на исходные данные,

которые соответст-венным образом обновляют базовые таблицы и произ-водные данные, материализованные представления и индексы, размещенные в хранилище. Должны быть рас-смотрены два вопроса: когда обновлять и как обновлять.
Обычно хранилища данных обновляются периодически в соответствии с заранее установленным расписанием, на-пример, ежедневно или еженедельно.
Распространять каждое обновление необходимо только в том случае, если для выполнения OLAP-запросов требуют-ся текущие данные. Администратор должен выбрать цик-лы обновления таким образом, чтобы накладные расходы, вызванные обработкой больших объемов данных, не пре-высили расходы на выполнение утилиты инкрементальной загрузки.
Слайд 8

2 Управление метаданными Метаданные – информация любого рода, которая требуется для

2 Управление метаданными

Метаданные – информация любого рода, которая требуется для управления

хранилищем данных, а уп-равление метаданными – существенный компонент архитектуры хранения. К административным мета-данным относится вся информация, которая требует-ся для настройки и использования хранилища данных.
Бизнес-метаданные включают в себя бизнес-термины и определения, принадлежность данных и правила оплаты услуг хранилища.
Оперативные метаданные – это информация, соб-ранная во время работы хранилища данных, такая как происхождение перенесенных и преобразованных данных; статус использования данных; данные мони-торинга.
Слайд 9

Согласованные усилия коммерческих компаний и научных кругов привели к серьезному технологическому

Согласованные усилия коммерческих компаний и научных кругов привели к серьезному технологическому

прогрессу в решении за-дач хранения данных. Это нашло отражение во множестве ком-мерческих продуктов, которые доступны для каждой из трех ос-новных операций:
пополнение хранилища данных из независимых транзакционных систем;
хранение данных и управление ими;
анализ данных с целью принятия обоснованных бизнес-решений.
Однако, несмотря на изобилие коммерческого инструментария, остается еще несколько важных направлений для исследования.
Очистка данных связана с интеграцией данных из неоднородных источников, проблемой, которую изучают уже много лет. На се-годняшний день основные усилия концентрируются на пробле-мах несогласованности данных.
Хотя очистка данных в последнее время привлекает большое внимание исследователей, предстоит еще немало сделать для создания инструментальных средств, не зависящих от предмет-ной области, которые решают разнообразные проблемы очистки данных, связанные с разработкой хранилищ.