Визуализация данных (модуль 3, урок 5.)

Содержание

Слайд 2

Обсуждение: Использование визуализации Модуль 3. Урок 5. Визуализация данных

Обсуждение:
Использование визуализации

Модуль 3. Урок 5. Визуализация данных

Слайд 3

Обсуждение Какие этапы процесса анализа данных вы выполнили на прошлом занятии?

Обсуждение

Какие этапы процесса анализа данных вы выполнили на прошлом занятии?

Слайд 4

Обсуждение Этапы процесса анализа данных, которые уже выполнены

Обсуждение

Этапы процесса анализа данных, которые уже выполнены

Слайд 5

Как можно визуализировать данные? Обсуждение ?

Как можно визуализировать данные?

Обсуждение

?

Слайд 6

Популярные способы визуализации Обсуждение график диаграмма иллюстрация видео ментальная карта К данным можно применить:

Популярные способы визуализации

Обсуждение

график
диаграмма
иллюстрация
видео
ментальная карта

К данным можно применить:

Слайд 7

Для чего нужен этап визуализации? Можно ли его пропустить? Обсуждение

Для чего нужен этап визуализации?
Можно ли его пропустить?

Обсуждение

Слайд 8

Какие данные легче воспринимать? Обсуждение 1 2

Какие данные легче воспринимать?

Обсуждение

1

2

Слайд 9

Визуальная информация лучше воспринимается и позволяет быстро и эффективно донести основную мысль до аудитории. Обсуждение

Визуальная информация лучше воспринимается и позволяет быстро и эффективно донести основную

мысль до аудитории.

Обсуждение

Слайд 10

Обсуждение Многочисленные исследования подтверждают, что 90% информации человек получает посредством зрения.

Обсуждение

Многочисленные исследования подтверждают, что 90% информации человек получает посредством зрения.
Для нас

это наиболее физиологичный способ восприятия информации.
Слайд 11

Новая тема: Визуализация данных в Pandas Модуль 3. Урок 5. Визуализация данных

Новая тема:
Визуализация данных в Pandas

Модуль 3. Урок 5. Визуализация данных

Слайд 12

Построение графиков и диаграмм на этапе визуализации — одна из важнейших задач анализа данных. Визуализация данных

Построение графиков и диаграмм на этапе визуализации — одна из важнейших

задач анализа данных.

Визуализация
данных

Слайд 13

Визуализация данных Какие виды диаграмм существуют?

Визуализация
данных

Какие виды диаграмм существуют?

Слайд 14

Визуализация данных круговая; линейная; столбчатая; гистограмма; «ящик с усами»; и многие другие... Виды диаграмм

Визуализация
данных

круговая;
линейная;
столбчатая;
гистограмма;
«ящик с усами»;
и многие другие...

Виды диаграмм

Слайд 15

Как построить диаграмму на Python? Визуализация данных

Как построить диаграмму на Python?

Визуализация
данных

Слайд 16

Визуализация данных Для построения диаграм мы будем использовать метод plot() библиотеки Pandas.

Визуализация
данных

Для построения диаграм мы будем использовать метод plot() библиотеки Pandas.

Слайд 17

Matplotlib — это библиотека на языке программирования Python, с помощью которой

Matplotlib — это библиотека на языке программирования Python, с помощью которой

мы будем отображать графики на экране.

Визуализация
данных

Слайд 18

Визуализация данных Из Matplotlib мы будем импортировать модуль pyplot, для использования метода show().

Визуализация
данных

Из Matplotlib мы будем импортировать модуль pyplot, для использования метода

show().
Слайд 19

Визуализация данных import pandas as pd import matplotlib.pyplot as plt

Визуализация
данных

import pandas as pd
import matplotlib.pyplot as plt

Слайд 20

Метод применяется как к объектам Series, так и к DataFrame. Метод

Метод применяется как к объектам Series, так и к DataFrame.
Метод строит

диаграмму для количественных данных.

Визуализация
данных

Метод plot()

Слайд 21

import pandas as pd import matplotlib.pyplot as plt s = pd.Series(data

import pandas as pd
import matplotlib.pyplot as plt
s = pd.Series(data = [10,

5, 15, 20, 10],
index = [1, 2, 3, 4, 5])
s.plot()
plt.show()

Визуализация
данных

По умолчанию метод строит линейный график

Слайд 22

Для отображения каких данных можно построить линейный график? Визуализация данных

Для отображения каких данных можно построить линейный график?

Визуализация
данных

Слайд 23

Линейный график используют для наблюдения за изменениями какой-то величины на протяжении

Линейный график используют для наблюдения за изменениями какой-то величины на протяжении

определённого периода.

Визуализация
данных

Линейный график

Слайд 24

Вернёмся к датасету, который хранит данные приложений из Google Play Store.

Вернёмся к датасету, который хранит данные приложений из Google Play Store.
Какую

информацию о приложениях мы можем изобразить в виде линейного графика?

Визуализация
данных

Слайд 25

Без дополнительных действий данные этого датасета нельзя продемонстрировать в динамике. К

Без дополнительных действий данные этого датасета нельзя продемонстрировать в динамике.
К данным

нужно применять фильтрацию и группировку.

Визуализация
данных

Слайд 26

Но это не значит, что в ваших проектах вы не сможете

Но это не значит, что в ваших проектах вы не сможете

построить линейный график!
Всё будет зависеть от выдвинутых вами гипотез.

Визуализация
данных

Слайд 27

Метод plot() может строить диаграммы разных видов. Вид диаграммы можно задать

Метод plot() может строить диаграммы разных видов.
Вид диаграммы можно задать с

помощью параметра kind.

Визуализация
данных

Слайд 28

Рассмотрим, какие значения может принимать параметр kind, и какие диаграммы будут

Рассмотрим, какие значения может принимать параметр kind, и какие диаграммы будут

построены в зависимости от этих значений.

Визуализация
данных

Слайд 29

hist; box; scatter; pie; bar; barh. Визуализация данных Параметр kind задаёт тип диаграммы

hist;
box;
scatter;
pie;
bar;
barh.

Визуализация
данных

Параметр kind задаёт тип диаграммы

Слайд 30

Диаграмма демонстрирует распределение значений конкретного признака между минимальным и максимальным значениями.

Диаграмма демонстрирует распределение значений конкретного признака между минимальным и максимальным значениями.
По

умолчанию диапазон распределений разбит на 10 интервалов.
kind = 'hist'.

Визуализация
данных

Гистограмма

Слайд 31

df['Size'].plot(kind = 'hist') Визуализация данных Гистограмма размера приложений Как изменить количество столбцов?

df['Size'].plot(kind = 'hist')

Визуализация
данных

Гистограмма размера приложений

Как изменить количество столбцов?

Слайд 32

df['Size'].plot(kind = 'hist', bins = 5) Визуализация данных Гистограмма размера приложений

df['Size'].plot(kind = 'hist', bins = 5)

Визуализация
данных

Гистограмма размера приложений

Слайд 33

Для чего нужно изменять количество столбцов? Визуализация данных

Для чего нужно изменять количество столбцов?

Визуализация
данных

Слайд 34

Визуализация данных Изменяя количество столбцов, можно увидеть колебания значений

Визуализация
данных

Изменяя количество столбцов, можно увидеть колебания значений

Слайд 35

Визуализация данных Как оценить распределение значений в этом случае? df[df['Type'] == 'Paid']['Price'].plot(kind = 'hist')

Визуализация
данных

Как оценить распределение значений в этом случае?

df[df['Type'] == 'Paid']['Price'].plot(kind =

'hist')
Слайд 36

Визуализация данных Данные, выделяющиеся среди общей выборки значений, называют выбросами.

Визуализация
данных

Данные, выделяющиеся среди общей выборки значений, называют выбросами.

Слайд 37

Визуализация данных «Ящик с усами» Диаграмма, которая одновременно отображает медиану, нижний

Визуализация
данных

«Ящик с усами»

Диаграмма, которая одновременно отображает медиану, нижний и верхний

квартили, минимальное и максимальное значения и выбросы.
kind = 'box'.
Слайд 38

Визуализация данных Диаграмма «Ящик с усами» для стоимости приложений df[df['Type'] == 'Paid']['Price'].plot(kind = 'box')

Визуализация
данных

Диаграмма «Ящик с усами» для стоимости приложений

df[df['Type'] == 'Paid']['Price'].plot(kind =

'box')
Слайд 39

Структура диаграммы Визуализация данных Медиана 75-й процентиль (третий квартиль) 25-й процентиль

Структура диаграммы

Визуализация
данных

Медиана

75-й процентиль (третий квартиль)

25-й процентиль (первый квартиль)

Усы

Максимальное значение

Минимальное значение

Слайд 40

Структура диаграммы Визуализация данных Большая часть значений расположена в ящике.

Структура диаграммы

Визуализация
данных

Большая часть значений расположена в ящике.

Слайд 41

Структура диаграммы Визуализация данных Выбросы Если значение не характерно для ящика

Структура диаграммы

Визуализация
данных

Выбросы

Если значение не характерно для ящика и не попадает

в него, то оно становится выбросом.
Слайд 42

Наличие выбросов ― это хорошо, плохо или нейтрально? Визуализация данных

Наличие выбросов ― это хорошо, плохо или нейтрально?

Визуализация
данных

Слайд 43

Выброс может появиться из-за ошибки ввода данных. Выброс искажает результаты статистических

Выброс может появиться из-за ошибки ввода данных.
Выброс искажает результаты статистических расчётов,

например, среднее арифметическое.
Наличие выбросов говорит о неоднородности выборки и ставит под сомнение результаты анализа данных.

Опасности выбросов

Визуализация
данных

Слайд 44

Проверить, были ли допущены ошибки при вводе данных. Если обнаружены ошибки,

Проверить, были ли допущены ошибки при вводе данных.
Если обнаружены ошибки,

исправить их.

Что делать с выбросами?

Визуализация
данных

Слайд 45

Принять решение об удалении из набора данных строк, содержащих выбросы. Решение

Принять решение об удалении из набора данных строк, содержащих выбросы.
Решение об

удалении строк зависит от цели исследования и количества данных.

Что делать, если данные введены некорректно?

Визуализация
данных

Слайд 46

Кейс № 1. Мы ― команда разработчиков мобильных приложений Визуализация данных

Кейс № 1. Мы ― команда разработчиков мобильных приложений

Визуализация
данных

Цель анализа

данных: изучить особенности рынка, целевую аудиторию, популярные жанры, цены, частоту выпуска обновлений.
Условия работы: чтобы найти свою нишу на рынке, важно иметь данные как о дорогих, так и о бюджетных приложениях.
Вывод: строки с выбросами нужно оставить.
Слайд 47

Кейс № 2. Мы хотим разместить рекламу своих товаров в приложениях

Кейс № 2. Мы хотим разместить рекламу своих товаров в приложениях

Визуализация


данных

Цель анализа данных: выбрать подходящие приложения для рекламной интеграции.
Условия работы: наши потенциальные потребители пользуются только бюджетными приложениями.
Вывод: строки с выбросами нужно удалить.

Слайд 48

При выполнении анализа мы изучаем связи между данными. Как визуально отразить

При выполнении анализа мы изучаем связи между данными.
Как визуально отразить связь

между двумя показателями?

Визуализация
данных

Слайд 49

Визуализация данных Диаграмма рассеяния Диаграмма показывает степень связи между переменными. kind = 'scatter'.

Визуализация
данных

Диаграмма рассеяния

Диаграмма показывает степень связи между переменными.
kind = 'scatter'.

Слайд 50

Визуализация данных Пример диаграммы рассеяния Как построить диаграмму этого вида?

Визуализация
данных

Пример диаграммы рассеяния

Как построить диаграмму этого вида?

Слайд 51

Выбрать два признака, связь между которыми мы хотим визуализировать. Отметить на

Выбрать два признака, связь между которыми мы хотим визуализировать.
Отметить на координатной

плоскости точки, координаты которых ― это значения выбранных признаков.

Визуализация
данных

Построение диаграммы рассеяния

Слайд 52

Визуализация данных Оценить расположение точек на графике: разбросаны ли они равномерно

Визуализация
данных

Оценить расположение точек на графике: разбросаны ли они равномерно по

координатной плоскости, или собраны вокруг воображаемой линии?
Если точки собраны вокруг воображаемой линии, между величинами есть связь, в противном случае — связи нет.

Построение диаграммы рассеивания

Слайд 53

Приведите пример гипотезы, которую можно проверить при помощи диаграммы рассеяния. Визуализация данных

Приведите пример гипотезы, которую можно проверить при помощи диаграммы рассеяния.

Визуализация
данных

Слайд 54

Дорогие приложения имеют меньшее количество установок по сравнению с дешёвыми или бесплатными. Визуализация данных Пример гипотезы

Дорогие приложения имеют меньшее количество установок по сравнению с дешёвыми или

бесплатными.

Визуализация
данных

Пример гипотезы

Слайд 55

Визуализация данных Диаграмма рассеяния df.plot(x = ' ', y = ' ', kind = 'scatter')

Визуализация
данных

Диаграмма рассеяния

df.plot(x = '<имя первого столбца>',
y = '<имя

второго столбца>',
kind = 'scatter')
Слайд 56

Визуализация данных Диаграмма рассеяния df.plot(x = 'Price', y = 'Installs', kind

Визуализация
данных

Диаграмма рассеяния

df.plot(x = 'Price', y = 'Installs', kind = 'scatter')

Взаимосвязь

величин подтверждена. Гипотеза верна
Слайд 57

Какие связи между величинами мы можем увидеть на диаграмме? Визуализация данных

Какие связи между величинами мы можем увидеть на диаграмме?

Визуализация
данных

Слайд 58

Сильная. Слабая. Отсутствует. Визуализация данных По силе

Сильная.
Слабая.
Отсутствует.

Визуализация
данных

По силе

Слайд 59

Положительная. Отрицательная. Нулевая. Визуализация данных По направленности

Положительная.
Отрицательная.
Нулевая.

Визуализация
данных

По направленности

Слайд 60

Линейная. Нелинейная. Визуализация данных По виду графика

Линейная.
Нелинейная.

Визуализация
данных

По виду графика

Слайд 61

Диаграмма демонстрирует распределение значений по категориям. Наглядно отображает пропорции и доли.

Диаграмма демонстрирует распределение значений по категориям. Наглядно отображает пропорции и доли.
kind

= 'pie'.

Визуализация
данных

Круговая диаграмма

Слайд 62

Предположим, в DataFrame есть столбец с названием сезона, во время которого

Предположим, в DataFrame есть столбец с названием сезона, во время которого

было произведено последнее обновление.
Как построить круговую диаграмму для сезонов, если информация в этом столбце не количественная?

Визуализация
данных

Слайд 63

Шаг 1. Посчитать количество уникальных значений столбца при помощи метода value_counts().

Шаг 1. Посчитать количество уникальных значений столбца при помощи метода value_counts().
Шаг

2. Построить круговую диаграмму на основе полученной Series.

Визуализация
данных

Слайд 64

df['Season'].value_counts().plot(kind = 'pie') Визуализация данных Круговая диаграмма

df['Season'].value_counts().plot(kind = 'pie')

Визуализация
данных

Круговая диаграмма

Слайд 65

Какое количество долей диаграммы удобно для восприятия? Визуализация данных

Какое количество долей диаграммы удобно для восприятия?

Визуализация
данных

Слайд 66

Визуализация данных Выбирайте 5–6 категорий, в противном случае диаграмму сложно читать

Визуализация
данных

Выбирайте 5–6 категорий, в противном случае диаграмму сложно читать

Слайд 67

Визуализация данных Столбчатая диаграмма Диаграмма помогает сравнивать значения друг с другом.

Визуализация
данных

Столбчатая диаграмма

Диаграмма помогает сравнивать значения друг с другом.
kind = 'bar'.

Столбцы расположены вертикально.
kind = 'barh'. Столбцы расположены горизонтально.
Слайд 68

Сравним количество приложений в разных категориях при помощи вертикальной столбчатой диаграммы. Визуализация данных

Сравним количество приложений в разных категориях при помощи вертикальной столбчатой диаграммы.

Визуализация


данных
Слайд 69

Визуализация данных Столбчатая диаграмма df['Category'].value_counts().plot(kind = 'bar') Перечислите минусы этой столбчатой диаграммы

Визуализация
данных

Столбчатая диаграмма

df['Category'].value_counts().plot(kind = 'bar')

Перечислите минусы этой столбчатой диаграммы

Слайд 70

Визуализация данных Столбчатая диаграмма Названия категорий написаны частично и накладываются друг на друга.

Визуализация
данных

Столбчатая диаграмма

Названия категорий написаны частично и накладываются друг на друга.

Слайд 71

Изменим тип диаграммы на горизонтальную столбчатую. Добавим отступы между столбцами диаграммы и подписями. Визуализация данных

Изменим тип диаграммы на горизонтальную столбчатую.
Добавим отступы между столбцами диаграммы и

подписями.

Визуализация
данных

Слайд 72

Визуализация данных Параметр figsize Позволяет задать ширину и высоту диаграммы. Если

Визуализация
данных

Параметр figsize

Позволяет задать ширину и высоту диаграммы.
Если параметр не указан,

то размер по умолчанию (6.4, 4.8).

figsize = (8, 5)

5

8

Слайд 73

Столбчатая диаграмма Визуализация данных df['Category'].value_counts().plot(kind = 'barh', figsize = (8, 5))

Столбчатая диаграмма

Визуализация
данных

df['Category'].value_counts().plot(kind = 'barh', figsize = (8, 5))

Слайд 74

Чего не хватает на диаграмме, чтобы было удобно определять значения категорий? Визуализация данных

Чего не хватает на диаграмме, чтобы было удобно определять значения категорий?

Визуализация


данных
Слайд 75

Координатная сетка Визуализация данных df['Category'].value_counts().plot(kind = 'barh', figsize = (10, 10), grid = True)

Координатная сетка

Визуализация
данных

df['Category'].value_counts().plot(kind = 'barh', figsize = (10, 10), grid =

True)
Слайд 76

Визуализация данных Как можно сравнить, различается ли среднее количество установок в

Визуализация
данных

Как можно сравнить, различается ли среднее количество установок в различных

целевых аудиториях для платных и бесплатных приложений?
Слайд 77

d1 = df[df['Type'] == 'Free'].pivot_table(index = 'Content Rating', columns = 'Type',

d1 = df[df['Type'] == 'Free'].pivot_table(index = 'Content Rating',
columns = 'Type',


values = 'Installs',
aggfunc = 'mean')
d2 = df[df['Type'] == 'Paid'].pivot_table(index = 'Content Rating',
columns = 'Type',
values = 'Installs',
aggfunc = 'mean')
d1.plot(kind = 'barh')
d2.plot(kind = 'barh')

Визуализация
данных

Сначала готовим данные, потом строим диаграммы

Слайд 78

Визуализация данных Две отдельные диаграммы Удобно ли сравнивать значения?

Визуализация
данных

Две отдельные диаграммы

Удобно ли сравнивать значения?

Слайд 79

Визуализация данных Минусы использования двух отдельных диаграмм Одинаковый цвет столбцов. Различная

Визуализация
данных

Минусы использования двух отдельных диаграмм

Одинаковый цвет столбцов.
Различная цена деления по

оси абсцисс.
Для платных приложений указаны не все категории целевой аудитории.
Слайд 80

Визуализация данных Сначала готовим данные, потом строим одну диаграмму d =

Визуализация
данных

Сначала готовим данные, потом строим одну диаграмму

d = df.pivot_table(index =

'Content Rating',
columns = 'Type',
values = 'Installs',
aggfunc = 'mean')
Слайд 81

Визуализация данных Две диаграммы в одной координатной сетке d.plot(kind = 'barh',

Визуализация
данных

Две диаграммы в одной координатной сетке

d.plot(kind = 'barh', subplots =

True)

Позволяет строить два графика друг под другом

Слайд 82

Параметр layout позволяет задать расположение графиков. layout = (1, 2) —

Параметр layout позволяет задать расположение графиков.
layout = (1, 2) — два

в одну линию.
layout = (2, 1) — в две линии по одному.

Визуализация
данных

Две диаграммы в одной координатной сетке

d.plot(kind = 'barh', subplots = True, layout = (1, 2))

Слайд 83

Визуализация данных Удобно ли сравнивать значения?

Визуализация
данных

Удобно ли сравнивать значения?

Слайд 84

Визуализация данных Минусы диаграммы Подписи значений по оси ординат второй диаграммы

Визуализация
данных

Минусы диаграммы

Подписи значений по оси ординат второй диаграммы накладываются на

первую.
Нет координатной сетки, чтобы точно определить значения.
Слайд 85

Визуализация данных Параметр sharey позволяет не дублировать надписи по оси ординат

Визуализация
данных

Параметр sharey позволяет не дублировать надписи по оси ординат

d.plot(kind =

'barh', subplots = True, layout = (1, 2), sharey = True, grid = True)
Слайд 86

Возможно ли совместить эти два графика? Визуализация данных

Возможно ли совместить эти два графика?

Визуализация
данных

Слайд 87

Совмещённая столбчатая диаграмма Визуализация данных Диаграмма отражает отношение значений двух и более параметров.

Совмещённая столбчатая диаграмма

Визуализация
данных

Диаграмма отражает отношение значений двух и более параметров.

Слайд 88

Совмещённая столбчатая диаграмма Визуализация данных d.plot(kind = 'barh', grid = True)

Совмещённая столбчатая диаграмма

Визуализация
данных

d.plot(kind = 'barh', grid = True)

Слайд 89

Модуль 3. Урок 5. Визуализация данных Работа на платформе: Визуализация данных

Модуль 3. Урок 5. Визуализация данных

Работа на платформе: Визуализация данных

Слайд 90

mars.algoritmika.org Выполните практическое задание Работа в VS Code «Визуализация данных»

mars.algoritmika.org

Выполните практическое задание

Работа
в VS Code

«Визуализация данных»

Слайд 91

Перерыв

Перерыв

Слайд 92

Обсуждение: Работа над индивидуальным проектом Модуль 3. Урок 5. Визуализация данных

Обсуждение:
Работа над индивидуальным проектом

Модуль 3. Урок 5. Визуализация данных

Слайд 93

Обсуждение Этапы процесса анализа данных, которые уже выполнены

Обсуждение

Этапы процесса анализа данных, которые уже выполнены

Слайд 94

Обсуждение Что необходимо сделать сегодня?

Обсуждение

Что необходимо сделать сегодня?

Слайд 95

Обсуждение Графики и диаграммы строятся на основе данных, полученных на этапе «Исследование».

Обсуждение

Графики и диаграммы строятся на основе данных, полученных на этапе «Исследование».

Слайд 96

Закончить этап «Исследование». Выполнить этап «Визуализация». Обсуждение Чек-лист Результаты, полученные в

Закончить этап «Исследование».
Выполнить этап «Визуализация».

Обсуждение

Чек-лист

Результаты, полученные в ходе выполнения этих двух

этапов, на следующем занятии необходимо будет оформить в виде презентации.
Слайд 97

Обсуждение Не забывайте проводить ревизию чек-листа и ментальной карты, которые вы создали на прошлом занятии.

Обсуждение

Не забывайте проводить ревизию чек-листа и ментальной карты, которые вы создали

на прошлом занятии.
Слайд 98

В VSC не установлена библиотека Matplotlib. Её необходимо будет установить самостоятельно.

В VSC не установлена библиотека Matplotlib.
Её необходимо будет установить самостоятельно.
На

платформе есть задание с инструкцией.

Обсуждение

Важно!

Слайд 99

Обсуждение Чек-лист Установить библиотеку Matplotlib в среду разработки VSC. Закончить этап «Исследование». Выполнить этап «Визуализация».

Обсуждение

Чек-лист

Установить библиотеку Matplotlib в среду разработки VSC.
Закончить этап «Исследование».
Выполнить этап «Визуализация».

Слайд 100

VSC: Работа над индивидуальным проектом Модуль 3. Урок 5. Визуализация данных

VSC: Работа над индивидуальным проектом

Модуль 3. Урок 5. Визуализация данных

Слайд 101

mars.algoritmika.org Выполните практическое задание Работа в VS Code «VSC: Индивидуальный проект по теме “Анализ данных”»

mars.algoritmika.org

Выполните практическое задание

Работа
в VS Code

«VSC: Индивидуальный проект по теме

“Анализ данных”»
Слайд 102

Завершение урока Модуль 3. Урок 5. Визуализация данных

Завершение
урока

Модуль 3. Урок 5. Визуализация данных