- Главная
- Информатика
- Инструментарий хранилищ данных. Управление метаданными
Содержание
- 2. Вопросы Инструментарий хранилищ данных. Управление метаданными.
- 3. 1 Инструментарий хранилищ данных Создание хранилища данных из независимых источ-ников данных — многоэтапный процесс, который пре-дусматривает
- 4. 1.1 Извлечение и преобразование
- 5. 1.2 Очистка данных Ошибки при вводе данных и различия в схемах могут привести к тому, что
- 6. 1.3 Загрузка После того, как данные извлечены и преобразованы, воз-можно, что их еще необходимо дополнительно обработать
- 7. 1.4 Обновление Обновление хранилища данных состоит в распростране-нии обновлений на исходные данные, которые соответст-венным образом обновляют
- 8. 2 Управление метаданными Метаданные – информация любого рода, которая требуется для управления хранилищем данных, а уп-равление
- 9. Согласованные усилия коммерческих компаний и научных кругов привели к серьезному технологическому прогрессу в решении за-дач хранения
- 11. Скачать презентацию
Слайд 2
Вопросы
Инструментарий хранилищ данных.
Управление метаданными.
Вопросы
Инструментарий хранилищ данных.
Управление метаданными.
Слайд 3
1 Инструментарий хранилищ данных
Создание хранилища данных из независимых источ-ников данных —
1 Инструментарий хранилищ данных
Создание хранилища данных из независимых источ-ников данных —
многоэтапный процесс, который пре-дусматривает извлечение данных из каждого источ-ника, преобразование их в соответствии со схемой хранилища данных, очистку, а затем загрузку в храни-лище.
Data Warehousing Information Center опубликовал об-ширный список инструментальных средств ETL (extract, transform, load — «извлечение, преобразова-ние, загрузка»), выполняющих эту последователь-ность операций.
Data Warehousing Information Center опубликовал об-ширный список инструментальных средств ETL (extract, transform, load — «извлечение, преобразова-ние, загрузка»), выполняющих эту последователь-ность операций.
Слайд 4
1.1 Извлечение и преобразование
1.1 Извлечение и преобразование
Слайд 5
1.2 Очистка данных
Ошибки при вводе данных и различия в схемах могут
1.2 Очистка данных
Ошибки при вводе данных и различия в схемах могут
привести к тому, что таблица измерений «Клиент» будет иметь несколько соответствующих кортежей для одного клиента, что приводит к неточным ответам на запросы и некорректным моделям добычи данных.
К примеру, если таблица клиентов содержит по неско-лько кортежей для некоторых клиентов FSC в Нью-Йорке, то Нью-Йорк может ошибочно попасть в список первых 50 стран с самым большим числом индивидуаль-ных клиентов.
Инструменты, которые помогают определить и испра-вить аномалии данных, могут иметь высокую отдачу; значительное число исследований посвящено пробле-мам устранения дублирования и инструментам очистки данных.
К примеру, если таблица клиентов содержит по неско-лько кортежей для некоторых клиентов FSC в Нью-Йорке, то Нью-Йорк может ошибочно попасть в список первых 50 стран с самым большим числом индивидуаль-ных клиентов.
Инструменты, которые помогают определить и испра-вить аномалии данных, могут иметь высокую отдачу; значительное число исследований посвящено пробле-мам устранения дублирования и инструментам очистки данных.
Слайд 6
1.3 Загрузка
После того, как данные извлечены и преобразованы, воз-можно, что их
1.3 Загрузка
После того, как данные извлечены и преобразованы, воз-можно, что их
еще необходимо дополнительно обработать перед тем, как добавить в хранилище. Как правило, утили-ты фоновой загрузки поддерживают такие функции, как
проверка ограничений целостности;
сортировка;
суммирование,
агрегирование и
выполнение других вычислений для создания производных таблиц, размещаемых в хранилище;
создание индексов и других способов доступа.
Помимо наполнения хранилища, утилита загрузки должна позволять системным администраторам проверять статус; отменять, приостанавливать и возобновлять загрузку; возо-бновлять работу после ошибки без потери целостности дан-ных. Поскольку утилиты загрузки для хранилищ данных об-рабатывают значительно больше данных, чем содержится в транзакционных системах, они используют разного рода ал-горитмы распараллеливания.
проверка ограничений целостности;
сортировка;
суммирование,
агрегирование и
выполнение других вычислений для создания производных таблиц, размещаемых в хранилище;
создание индексов и других способов доступа.
Помимо наполнения хранилища, утилита загрузки должна позволять системным администраторам проверять статус; отменять, приостанавливать и возобновлять загрузку; возо-бновлять работу после ошибки без потери целостности дан-ных. Поскольку утилиты загрузки для хранилищ данных об-рабатывают значительно больше данных, чем содержится в транзакционных системах, они используют разного рода ал-горитмы распараллеливания.
Слайд 7
1.4 Обновление
Обновление хранилища данных состоит в распростране-нии обновлений на исходные данные,
1.4 Обновление
Обновление хранилища данных состоит в распростране-нии обновлений на исходные данные,
которые соответст-венным образом обновляют базовые таблицы и произ-водные данные, материализованные представления и индексы, размещенные в хранилище. Должны быть рас-смотрены два вопроса: когда обновлять и как обновлять.
Обычно хранилища данных обновляются периодически в соответствии с заранее установленным расписанием, на-пример, ежедневно или еженедельно.
Распространять каждое обновление необходимо только в том случае, если для выполнения OLAP-запросов требуют-ся текущие данные. Администратор должен выбрать цик-лы обновления таким образом, чтобы накладные расходы, вызванные обработкой больших объемов данных, не пре-высили расходы на выполнение утилиты инкрементальной загрузки.
Обычно хранилища данных обновляются периодически в соответствии с заранее установленным расписанием, на-пример, ежедневно или еженедельно.
Распространять каждое обновление необходимо только в том случае, если для выполнения OLAP-запросов требуют-ся текущие данные. Администратор должен выбрать цик-лы обновления таким образом, чтобы накладные расходы, вызванные обработкой больших объемов данных, не пре-высили расходы на выполнение утилиты инкрементальной загрузки.
Слайд 8
2 Управление метаданными
Метаданные – информация любого рода, которая требуется для управления
2 Управление метаданными
Метаданные – информация любого рода, которая требуется для управления
хранилищем данных, а уп-равление метаданными – существенный компонент архитектуры хранения. К административным мета-данным относится вся информация, которая требует-ся для настройки и использования хранилища данных.
Бизнес-метаданные включают в себя бизнес-термины и определения, принадлежность данных и правила оплаты услуг хранилища.
Оперативные метаданные – это информация, соб-ранная во время работы хранилища данных, такая как происхождение перенесенных и преобразованных данных; статус использования данных; данные мони-торинга.
Бизнес-метаданные включают в себя бизнес-термины и определения, принадлежность данных и правила оплаты услуг хранилища.
Оперативные метаданные – это информация, соб-ранная во время работы хранилища данных, такая как происхождение перенесенных и преобразованных данных; статус использования данных; данные мони-торинга.
Слайд 9
Согласованные усилия коммерческих компаний и научных кругов привели к серьезному технологическому
Согласованные усилия коммерческих компаний и научных кругов привели к серьезному технологическому
прогрессу в решении за-дач хранения данных. Это нашло отражение во множестве ком-мерческих продуктов, которые доступны для каждой из трех ос-новных операций:
пополнение хранилища данных из независимых транзакционных систем;
хранение данных и управление ими;
анализ данных с целью принятия обоснованных бизнес-решений.
Однако, несмотря на изобилие коммерческого инструментария, остается еще несколько важных направлений для исследования.
Очистка данных связана с интеграцией данных из неоднородных источников, проблемой, которую изучают уже много лет. На се-годняшний день основные усилия концентрируются на пробле-мах несогласованности данных.
Хотя очистка данных в последнее время привлекает большое внимание исследователей, предстоит еще немало сделать для создания инструментальных средств, не зависящих от предмет-ной области, которые решают разнообразные проблемы очистки данных, связанные с разработкой хранилищ.
пополнение хранилища данных из независимых транзакционных систем;
хранение данных и управление ими;
анализ данных с целью принятия обоснованных бизнес-решений.
Однако, несмотря на изобилие коммерческого инструментария, остается еще несколько важных направлений для исследования.
Очистка данных связана с интеграцией данных из неоднородных источников, проблемой, которую изучают уже много лет. На се-годняшний день основные усилия концентрируются на пробле-мах несогласованности данных.
Хотя очистка данных в последнее время привлекает большое внимание исследователей, предстоит еще немало сделать для создания инструментальных средств, не зависящих от предмет-ной области, которые решают разнообразные проблемы очистки данных, связанные с разработкой хранилищ.
- Предыдущая
Ришта (дракункулёз)Следующая -
Дни воинской славы России