Содержание
- 2. Обсуждение: Использование визуализации Модуль 3. Урок 5. Визуализация данных
- 3. Обсуждение Какие этапы процесса анализа данных вы выполнили на прошлом занятии?
- 4. Обсуждение Этапы процесса анализа данных, которые уже выполнены
- 5. Как можно визуализировать данные? Обсуждение ?
- 6. Популярные способы визуализации Обсуждение график диаграмма иллюстрация видео ментальная карта К данным можно применить:
- 7. Для чего нужен этап визуализации? Можно ли его пропустить? Обсуждение
- 8. Какие данные легче воспринимать? Обсуждение 1 2
- 9. Визуальная информация лучше воспринимается и позволяет быстро и эффективно донести основную мысль до аудитории. Обсуждение
- 10. Обсуждение Многочисленные исследования подтверждают, что 90% информации человек получает посредством зрения. Для нас это наиболее физиологичный
- 11. Новая тема: Визуализация данных в Pandas Модуль 3. Урок 5. Визуализация данных
- 12. Построение графиков и диаграмм на этапе визуализации — одна из важнейших задач анализа данных. Визуализация данных
- 13. Визуализация данных Какие виды диаграмм существуют?
- 14. Визуализация данных круговая; линейная; столбчатая; гистограмма; «ящик с усами»; и многие другие... Виды диаграмм
- 15. Как построить диаграмму на Python? Визуализация данных
- 16. Визуализация данных Для построения диаграм мы будем использовать метод plot() библиотеки Pandas.
- 17. Matplotlib — это библиотека на языке программирования Python, с помощью которой мы будем отображать графики на
- 18. Визуализация данных Из Matplotlib мы будем импортировать модуль pyplot, для использования метода show().
- 19. Визуализация данных import pandas as pd import matplotlib.pyplot as plt
- 20. Метод применяется как к объектам Series, так и к DataFrame. Метод строит диаграмму для количественных данных.
- 21. import pandas as pd import matplotlib.pyplot as plt s = pd.Series(data = [10, 5, 15, 20,
- 22. Для отображения каких данных можно построить линейный график? Визуализация данных
- 23. Линейный график используют для наблюдения за изменениями какой-то величины на протяжении определённого периода. Визуализация данных Линейный
- 24. Вернёмся к датасету, который хранит данные приложений из Google Play Store. Какую информацию о приложениях мы
- 25. Без дополнительных действий данные этого датасета нельзя продемонстрировать в динамике. К данным нужно применять фильтрацию и
- 26. Но это не значит, что в ваших проектах вы не сможете построить линейный график! Всё будет
- 27. Метод plot() может строить диаграммы разных видов. Вид диаграммы можно задать с помощью параметра kind. Визуализация
- 28. Рассмотрим, какие значения может принимать параметр kind, и какие диаграммы будут построены в зависимости от этих
- 29. hist; box; scatter; pie; bar; barh. Визуализация данных Параметр kind задаёт тип диаграммы
- 30. Диаграмма демонстрирует распределение значений конкретного признака между минимальным и максимальным значениями. По умолчанию диапазон распределений разбит
- 31. df['Size'].plot(kind = 'hist') Визуализация данных Гистограмма размера приложений Как изменить количество столбцов?
- 32. df['Size'].plot(kind = 'hist', bins = 5) Визуализация данных Гистограмма размера приложений
- 33. Для чего нужно изменять количество столбцов? Визуализация данных
- 34. Визуализация данных Изменяя количество столбцов, можно увидеть колебания значений
- 35. Визуализация данных Как оценить распределение значений в этом случае? df[df['Type'] == 'Paid']['Price'].plot(kind = 'hist')
- 36. Визуализация данных Данные, выделяющиеся среди общей выборки значений, называют выбросами.
- 37. Визуализация данных «Ящик с усами» Диаграмма, которая одновременно отображает медиану, нижний и верхний квартили, минимальное и
- 38. Визуализация данных Диаграмма «Ящик с усами» для стоимости приложений df[df['Type'] == 'Paid']['Price'].plot(kind = 'box')
- 39. Структура диаграммы Визуализация данных Медиана 75-й процентиль (третий квартиль) 25-й процентиль (первый квартиль) Усы Максимальное значение
- 40. Структура диаграммы Визуализация данных Большая часть значений расположена в ящике.
- 41. Структура диаграммы Визуализация данных Выбросы Если значение не характерно для ящика и не попадает в него,
- 42. Наличие выбросов ― это хорошо, плохо или нейтрально? Визуализация данных
- 43. Выброс может появиться из-за ошибки ввода данных. Выброс искажает результаты статистических расчётов, например, среднее арифметическое. Наличие
- 44. Проверить, были ли допущены ошибки при вводе данных. Если обнаружены ошибки, исправить их. Что делать с
- 45. Принять решение об удалении из набора данных строк, содержащих выбросы. Решение об удалении строк зависит от
- 46. Кейс № 1. Мы ― команда разработчиков мобильных приложений Визуализация данных Цель анализа данных: изучить особенности
- 47. Кейс № 2. Мы хотим разместить рекламу своих товаров в приложениях Визуализация данных Цель анализа данных:
- 48. При выполнении анализа мы изучаем связи между данными. Как визуально отразить связь между двумя показателями? Визуализация
- 49. Визуализация данных Диаграмма рассеяния Диаграмма показывает степень связи между переменными. kind = 'scatter'.
- 50. Визуализация данных Пример диаграммы рассеяния Как построить диаграмму этого вида?
- 51. Выбрать два признака, связь между которыми мы хотим визуализировать. Отметить на координатной плоскости точки, координаты которых
- 52. Визуализация данных Оценить расположение точек на графике: разбросаны ли они равномерно по координатной плоскости, или собраны
- 53. Приведите пример гипотезы, которую можно проверить при помощи диаграммы рассеяния. Визуализация данных
- 54. Дорогие приложения имеют меньшее количество установок по сравнению с дешёвыми или бесплатными. Визуализация данных Пример гипотезы
- 55. Визуализация данных Диаграмма рассеяния df.plot(x = ' ', y = ' ', kind = 'scatter')
- 56. Визуализация данных Диаграмма рассеяния df.plot(x = 'Price', y = 'Installs', kind = 'scatter') Взаимосвязь величин подтверждена.
- 57. Какие связи между величинами мы можем увидеть на диаграмме? Визуализация данных
- 58. Сильная. Слабая. Отсутствует. Визуализация данных По силе
- 59. Положительная. Отрицательная. Нулевая. Визуализация данных По направленности
- 60. Линейная. Нелинейная. Визуализация данных По виду графика
- 61. Диаграмма демонстрирует распределение значений по категориям. Наглядно отображает пропорции и доли. kind = 'pie'. Визуализация данных
- 62. Предположим, в DataFrame есть столбец с названием сезона, во время которого было произведено последнее обновление. Как
- 63. Шаг 1. Посчитать количество уникальных значений столбца при помощи метода value_counts(). Шаг 2. Построить круговую диаграмму
- 64. df['Season'].value_counts().plot(kind = 'pie') Визуализация данных Круговая диаграмма
- 65. Какое количество долей диаграммы удобно для восприятия? Визуализация данных
- 66. Визуализация данных Выбирайте 5–6 категорий, в противном случае диаграмму сложно читать
- 67. Визуализация данных Столбчатая диаграмма Диаграмма помогает сравнивать значения друг с другом. kind = 'bar'. Столбцы расположены
- 68. Сравним количество приложений в разных категориях при помощи вертикальной столбчатой диаграммы. Визуализация данных
- 69. Визуализация данных Столбчатая диаграмма df['Category'].value_counts().plot(kind = 'bar') Перечислите минусы этой столбчатой диаграммы
- 70. Визуализация данных Столбчатая диаграмма Названия категорий написаны частично и накладываются друг на друга.
- 71. Изменим тип диаграммы на горизонтальную столбчатую. Добавим отступы между столбцами диаграммы и подписями. Визуализация данных
- 72. Визуализация данных Параметр figsize Позволяет задать ширину и высоту диаграммы. Если параметр не указан, то размер
- 73. Столбчатая диаграмма Визуализация данных df['Category'].value_counts().plot(kind = 'barh', figsize = (8, 5))
- 74. Чего не хватает на диаграмме, чтобы было удобно определять значения категорий? Визуализация данных
- 75. Координатная сетка Визуализация данных df['Category'].value_counts().plot(kind = 'barh', figsize = (10, 10), grid = True)
- 76. Визуализация данных Как можно сравнить, различается ли среднее количество установок в различных целевых аудиториях для платных
- 77. d1 = df[df['Type'] == 'Free'].pivot_table(index = 'Content Rating', columns = 'Type', values = 'Installs', aggfunc =
- 78. Визуализация данных Две отдельные диаграммы Удобно ли сравнивать значения?
- 79. Визуализация данных Минусы использования двух отдельных диаграмм Одинаковый цвет столбцов. Различная цена деления по оси абсцисс.
- 80. Визуализация данных Сначала готовим данные, потом строим одну диаграмму d = df.pivot_table(index = 'Content Rating', columns
- 81. Визуализация данных Две диаграммы в одной координатной сетке d.plot(kind = 'barh', subplots = True) Позволяет строить
- 82. Параметр layout позволяет задать расположение графиков. layout = (1, 2) — два в одну линию. layout
- 83. Визуализация данных Удобно ли сравнивать значения?
- 84. Визуализация данных Минусы диаграммы Подписи значений по оси ординат второй диаграммы накладываются на первую. Нет координатной
- 85. Визуализация данных Параметр sharey позволяет не дублировать надписи по оси ординат d.plot(kind = 'barh', subplots =
- 86. Возможно ли совместить эти два графика? Визуализация данных
- 87. Совмещённая столбчатая диаграмма Визуализация данных Диаграмма отражает отношение значений двух и более параметров.
- 88. Совмещённая столбчатая диаграмма Визуализация данных d.plot(kind = 'barh', grid = True)
- 89. Модуль 3. Урок 5. Визуализация данных Работа на платформе: Визуализация данных
- 90. mars.algoritmika.org Выполните практическое задание Работа в VS Code «Визуализация данных»
- 91. Перерыв
- 92. Обсуждение: Работа над индивидуальным проектом Модуль 3. Урок 5. Визуализация данных
- 93. Обсуждение Этапы процесса анализа данных, которые уже выполнены
- 94. Обсуждение Что необходимо сделать сегодня?
- 95. Обсуждение Графики и диаграммы строятся на основе данных, полученных на этапе «Исследование».
- 96. Закончить этап «Исследование». Выполнить этап «Визуализация». Обсуждение Чек-лист Результаты, полученные в ходе выполнения этих двух этапов,
- 97. Обсуждение Не забывайте проводить ревизию чек-листа и ментальной карты, которые вы создали на прошлом занятии.
- 98. В VSC не установлена библиотека Matplotlib. Её необходимо будет установить самостоятельно. На платформе есть задание с
- 99. Обсуждение Чек-лист Установить библиотеку Matplotlib в среду разработки VSC. Закончить этап «Исследование». Выполнить этап «Визуализация».
- 100. VSC: Работа над индивидуальным проектом Модуль 3. Урок 5. Визуализация данных
- 101. mars.algoritmika.org Выполните практическое задание Работа в VS Code «VSC: Индивидуальный проект по теме “Анализ данных”»
- 102. Завершение урока Модуль 3. Урок 5. Визуализация данных
- 104. Скачать презентацию