Big Data

Август 5, 2022

Содержание

2. Предпосылки появления Big Data 1 Аналитика данных является основным инструментом поиска новых знаний в массивах данных,
3. Источники Big Data Торговые сети Торговые сети регистрируют миллионы клиентских транзакций, пересылают их в хранилища данных,
4. Характеристики категории Big Data: 1) Volume — объем данных должен превышать 150 Гб в сутки. 2)
5. Пирамида аналитических решений Журнал ПЛАС. Технологии. А.Ю. Медников. Большие Данные и бизнес аналитика (plusworld.ru)
6. Термин «анализ данных» Анализ данных – широкое понятие. В общем смысле – это процесс: исследования, преобразования
7. Современное понятие анализа данных Концепция «модели от данных» требует тщательной подготовки данных – качество данных Современная
9. Аналитическая пирамида (Analytical stack), предложенная компанией Gartner
10. Данные, описывающие реальные объекты могут быть представлены в различных формах, измерены в различных шкалах и иметь
12. По характеру варьирования переменные делятся на: Дискретные данные являются значениями признака. С дискретными данными не могут
13. Непрерывные данные — это данные, которые могут принимать любые значения в некотором интервале. Над непрерывными данными
16. Особенности бизнес-данных, накопленных в компаниях
18. Методы сбора Получение из учетных систем: несложная операция, обычно учетные системы имеют развитые методы импорта/экспорта. Получение
21. Инструменты аналитики данных Статистические пакеты – хорошая математическая подготовка пользователей; проблемы больших объемов данных; необходимость использования
22. Направления развития вычислительной инфраструктуры компании Вертикальное масштабирование Приобретение более мощного компьютера, то есть добавление ресурсов на
23. Большие данные используют технологии распределенных вычислений: вычислительная нагрузка распределяется между некоторым количеством компьютеров-клиентов, которые работают под
24. MapReduce – модель распределенных вычислений, разработанная компанией Google, которая используется для параллельных вычислений над очень большими
25. После того, как мастер-узел получает от остальных машин сообщение о том, что обработка данных ими закончена
26. Hadoop – проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и программный каркас для
27. Роль и место Big Data в аналитике данных Технологии Knowledge Discovery и Data Mining решают задачи
28. Для создания моделей Data Mining необходимы структурированные данные, но Big Data оперирует петабайтами данных неопределенной структуры.
30. Скачать презентацию

Слайд 2

Предпосылки появления Big Data
1 Аналитика данных является основным инструментом поиска новых

знаний в массивах данных, необходимых для принятия эффективных управленческих решений. Low-code становится мейнстримом.
2 Развитые средства хранения, доставки, интеграции данных позволяют увеличить объем данных, территориальную распределенность, сложность.
3 Конфликт в терминологии. Обилие терминов и их трактовок.
4 Технологии Data Mining ориентированы на обработку структурированных данных. Но сегодня больший интерес представляют данные из социальных медиа, видео, электронной почты и других распределенных источников.

Слайд 3

Источники Big Data
Торговые сети
Торговые сети регистрируют миллионы клиентских транзакций, пересылают их

в хранилища данных, объем которых составляет петабайты.
Мобильные устройства
Более 5 миллиардов людей по всему миру говорят, обмениваются сообщениями и производят поиск в Интернет с помощью мобильных устройств.
Автоматические регистраторы
Тысячи автоматических регистраторов по всему миру непрерывно фиксируют погодные условия, и передают метеорологические данные в центры их обработки.
Социальные сети
Пользователи социальных сетей ежеминутно отправляют десятки миллионов сообщений.

Слайд 4

Характеристики категории Big Data:
1) Volume — объем данных должен превышать 150

Гб в сутки.
2) Velocity — скорость накопления и обработки данных: объем Big Data растет, поэтому для их обработки нужны специальные технологичные инструменты.
3) Variety — разнообразие типов данных: они могут быть структурированными, неструктурированными или частично структурированными.
4) Variability — изменчивость. Потоки Big Data могут иметь свои пики и спады в зависимости от сезона, социальных явлений, изменений в политической ситуации и других факторов.
5) Veracity — достоверность и самого массива данных, и результатов аналитики.
6) Value — ценность.

Слайд 5

Пирамида аналитических решений
Журнал ПЛАС. Технологии. А.Ю. Медников. Большие Данные и бизнес

аналитика (plusworld.ru)

Слайд 6

Термин «анализ данных»
Анализ данных – широкое понятие. В общем смысле –

это процесс:
исследования,
преобразования и
моделирования данных
с целью извлечения полезной информации и принятия решений.
Для анализа данных применяются различные математические методы.

Моделирование – универсальный способ , позволяющий обнаружить зависимости, прогнозировать.
Самое главное: полученные такими образом знания можно тиражировать.

Слайд 7

Современное понятие анализа данных
Концепция «модели от данных» требует тщательной подготовки данных

– качество данных

Современная бизнес-аналитика делит методы решения задач на две основные группы:
извлечение и визуализация данных;
построение и использование моделей.

Построение моделей – полученные таким образом знания можно тиражировать.

Тиражирование знаний – совокупность инструментальных средств
для создания моделей, которые обеспечивают пользователям возможность принятия решений.

Например, в розничной торговле:
Сколько товара будет продано в следующем периоде?
Какие клиенты откликаются на акции?
Какие товары продаются или заказываются вместе?
Как оптимизировать товарные остатки на складах?

Слайд 8

Слайд 9

Аналитическая пирамида (Analytical stack), предложенная компанией Gartner

Слайд 10

Данные, описывающие реальные объекты могут быть представлены в различных формах, измерены

в различных шкалах и иметь определенный тип и вид.

Структурированные данные принято делить на типы:
Числовой (целый и вещественный);
Символьный или Строковый;
Логический (Да/Нет, Ложь/Истина, 1/0);
Дата/Время.

Неструктурированные данные – данные в произвольной форме:
Видео;
Речь;
Аудио;
Мультимедиа;
Графика;
Тексты….

Слабоструктурированные данные – правила и форматы определены
в самом общем виде:
строка с адресом, строка в прайс-листе, ФИО..

Слайд 11

Слайд 12

По характеру варьирования переменные делятся на:
Дискретные данные являются значениями признака.

С дискретными данными не могут быть произведены
никакие арифметические действия (не имеют смысла).
Дискретными данными являются
все данные строкового и логического типа.
Числовые данные являются дискретными
если имеют фиксированное на данный момент значение:
Возраст, Количество студентов в группе, Код товара, Табельный номер и т. д.

Некоторые примеры дискретных данных:
Количество клиентов, купивших разные товары.
Количество компьютеров в каждом отделе.
Количество товаров, которые вы покупаете в продуктовом магазине каждую неделю.

Слайд 13

Непрерывные данные — это данные, которые могут принимать
любые значения в

некотором интервале.
Над непрерывными данными можно производить
арифметические операции и они имеют смысл.

Некоторые примеры непрерывных данных:
Вес новорожденных малышей.
Суточная скорость ветра.
Температура морозильной камеры.

Слайд 14

Слайд 15

Слайд 16

Особенности бизнес-данных, накопленных в компаниях

Слайд 17

Слайд 18

Методы сбора
Получение из учетных систем: несложная операция, обычно учетные системы имеют

развитые методы импорта/экспорта.
Получение из косвенных источников информации: многие показатели можно оценить по косвенным признакам, например, оценка реального финансового положения жителей региона по объемам покупок товаров для бедных, среднего класса и богатых.
Использование открытых источников: статистика, отчеты корпораций, маркетинговые исследования, социальные сети и прочее.
Приобретение данных у специализированных компаний: множество профессионально работающих компаний, стоимость невысокая.
Проведение собственных мероприятий по сбору данных: дорогостоящий вариант, но всегда существует.
Ввод данных вручную: данные по экспертным оценкам, трудоемкость высокая.

Слайд 19

Слайд 20

Слайд 21

Инструменты аналитики данных
Статистические пакеты – хорошая математическая подготовка пользователей; проблемы больших

объемов данных; необходимость использования встроенных языков программирования.
Инструменты Data Mining – возможности современных компьютеров позволяют использовать хранилища данных, Data Mining, Knowledge Discovery in Databases (KDD), Big Data, Deep Learning.
Low-code аналитические платформы- специализированные программные системы, автоматизирующие все этапы анализа; аналитические платформы базируются на low-code принципах.

Слайд 22

Направления развития вычислительной инфраструктуры компании
Вертикальное масштабирование
Приобретение более мощного компьютера, то есть

добавление ресурсов на единственный вычислительный.
Горизонтальное масштабирование
Добавление дополнительных недорогих стандартных компьютеров как вычислительных узлов, объединенных в кластер, с распределением работы между ними.

Слайд 23

Большие данные используют технологии распределенных вычислений: вычислительная нагрузка распределяется между некоторым

количеством компьютеров-клиентов, которые работают под управлением центрального компьютера.
Примерами инструментов распределенных вычислений для Больших данных являются MapReduce, Hadoop, NoSQL.

Слайд 24

MapReduce – модель распределенных вычислений, разработанная компанией Google, которая используется для

параллельных вычислений над очень большими (несколько петабайт) массивами данных в распределенных вычислительных сетях.
Компьютеры в таких сетях делятся на узлы, которые непосредственно производят вычисления, и главные узлы, которые получают задачу, разделяют ее на части и распределяют ее между рабочими узлами для предварительной обработки. Данный шаг называется map.

Слайд 25

После того, как мастер-узел получает от остальных машин сообщение о том,

что обработка данных ими закончена (то есть шаг map завершен), он выдает команду на переход к шагу reduce (свертка), в процессе которого формируется результат, возвращаемый на мастер узел для формирования итогового решения.
При этом MapReduce – это не какая-то конкретная программа, а метод организации распределенных вычислений, который может быть реализован с помощью программы, написанной на каком-то, наиболее удобном в конкретном случае языке, например, в реализации MapReduce в Google используется C++.

Слайд 26

Hadoop – проект фонда Apache Software Foundation, свободно распространяемый набор утилит,

библиотек и программный каркас для разработки и выполнения распределенных программ, работающих на кластерах из сотен и тысяч узлов.
Hadoop используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов.
Hadoop разработан на основе модели распределенных вычислений MapReduce.
Hadoop считается одной из основополагающих технологий Big Data.
NoSQL – группа подходов, которые для хранения и обработки данных используют параллельные распределенные системы интернет-приложений (например, поисковые системы), но при этом отказываются от традиционных реляционных систем управления базами данных с доступом к данным с помощью языка SQL.

Слайд 27

Роль и место Big Data в аналитике данных
Технологии Knowledge Discovery и

Data Mining решают задачи поддержки принятия решений на основе обнаруженных зависимостей и закономерностей в данных, описывающих бизнес-процессы компании.
Предполагается, что чем больше данных будет задействовано, тем лучше будут полученные решения.
Именно поэтому появление Больших данных очень быстро привело к появлению Большой аналитики или аналитики Больших данных.

Слайд 28

Для создания моделей Data Mining необходимы структурированные данные, но Big Data

оперирует петабайтами данных неопределенной структуры.
Роль Big Data с точки зрения предсказательной аналитики заключается в том, чтобы помочь «зачерпнуть» из потока данных образцы, анализ которых поможет описать закономерности всего потока с целью получения знаний о связанных с ним бизнес-процессах.
Задача Big Data – управление огромными потоками данных из различных распределенных источников, проведение их описательного анализа и формирование наборов данных для построения моделей Data Mining.
Big Data можно рассматривать как технологию подготовки данных сверхбольшого, непрерывно возрастающего объема, расположенных в распределенных файловых системах и готовых к анализу методами Data Mining.

Big Data

Содержание

Предпосылки появления Big Data1 Аналитика данных является основным инструментом поиска новых

Источники Big DataТорговые сетиТорговые сети регистрируют миллионы клиентских транзакций, пересылают их

Характеристики категории Big Data: 1) Volume — объем данных должен превышать 150

Пирамида аналитических решенийЖурнал ПЛАС. Технологии. А.Ю. Медников. Большие Данные и бизнес

Термин «анализ данных»Анализ данных – широкое понятие. В общем смысле –

Современное понятие анализа данныхКонцепция «модели от данных» требует тщательной подготовки данных