Анализ данных. Основные понятия

Содержание

Слайд 2

Основные понятия Объекты исследования Переменные (признаки объектов) Генеральная совокупность и выборка

Основные понятия
Объекты исследования
Переменные (признаки объектов)
Генеральная совокупность и выборка
Параметры и статистики
Измерения характеристик

данных


Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Слайд 3

Объекты исследования Объектами исследования являются те объекты реального мира, которые исследователь

Объекты исследования

Объектами исследования являются те объекты реального мира, которые исследователь

наблюдает, подсчитывает, описывает, измеряет для того, чтобы получить выводы относительно их свойств и наблюдаемых закономерностей.
Примеры: страны, политические системы, граждане, лидеры государств, международные компании.

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Слайд 4

Переменные, признаки (variable) Анализ данных. Основные понятия Кафедра информационно-аналитических систем Переменная,

Переменные, признаки (variable)

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Переменная, признак – это

некоторая общая для всех изучаемых объектов характеристика или свойство, конкретные проявления которого могут меняться от объекта к объекту. Различные проявления признака называют значениями,
альтернативами, градациями.
Умение «мыслить признаками», правильно определять переменные для достижения исследовательских целей является одним из важнейших качеств аналитика.
Слайд 5

Примеры переменных Переменная Возможные значения «Пол» «мужчина»,«женщина» «Профессия» «аналитик, «программист», «менеджер»

Примеры переменных

Переменная Возможные значения
«Пол» «мужчина»,«женщина»
«Профессия» «аналитик, «программист», «менеджер»
«Рост» «низкий», «средний» ,

«высокий»

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Слайд 6

Распределения переменных (distribution) Анализ данных. Основные понятия Кафедра информационно-аналитических систем Значения

Распределения переменных (distribution)

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Значения переменной, которые она

принимает для различных
изучаемых объектов, приводят нас к необходимости рассматривать распределение переменной.
Слайд 7

Пример распределения переменных Анализ данных. Основные понятия Кафедра информационно-аналитических систем Изучаем

Пример распределения переменных

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Изучаем сообщество из 100

000 жителей одного района.
Переменная Распределение
«Пол» 55% женщин и 45% мужчин
«Возраст» список возрастов 100 000 жителей
«Профессия» …
«Годовой доход» …
Распределение указанных переменных в изучаемом сообществе может отличиться от распределения этой же переменной, измеренной в другом сообществе.
Слайд 8

Генеральная совокупность и выборка Анализ данных. Основные понятия Кафедра информационно-аналитических систем

Генеральная совокупность и выборка

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Слайд 9

Генеральная совокупность и выборка Анализ данных. Основные понятия Кафедра информационно-аналитических систем

Генеральная совокупность и выборка

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Генеральная совокупность (population)

– вся интересующая исследователя совокупность изучаемых объектов.
Выборка (sample) – некоторая, обычно небольшая, часть генеральной совокупности, отбираемая специальным образом и исследуемая с целью получения выводов о свойствах генеральной совокупности.
Слайд 10

Репрезентативная выборка Репрезентативная выборка хорошо представляет генеральную совокупность. Это означает, что

Репрезентативная выборка

Репрезентативная выборка хорошо представляет генеральную совокупность. Это означает,

что каждое свойство (или комбинация свойств) наблюдается в выборке с той же частотой, что и в генеральной совокупности.

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Слайд 11

Анализ данных. Основные понятия Параметры и статистики Кафедра информационно-аналитических систем Параметры

Анализ данных. Основные понятия

Параметры и статистики

Кафедра информационно-аналитических систем

Параметры - характеристики генеральной

совокупности.
Статистики - характеристики выборки.
Слайд 12

Анализ данных. Основные понятия Гипотеза (hypothesis) – предположение относительно значений параметров

Анализ данных. Основные понятия

Гипотеза (hypothesis) – предположение относительно значений параметров генеральной

совокупности (которое, возможно, определяется на основе анализа выборки).

Гипотеза

Кафедра информационно-аналитических систем

Слайд 13

Измерения и шкалы Анализ данных. Основные понятия Кафедра информационно-аналитических систем Измерение

Измерения и шкалы

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Измерение (measurement) означает присвоение

значений характеристикам изучаемых объектов, явлений согласно некоторому правилу.
Шкала (scale) есть правило (или алгоритм), в соответствии с которым
изучаемым объектам, явлениям присваиваются значения.
Слайд 14

Данные (data) Данные представляют собой результаты наблюдений, испытаний, накапливаемые с целью

Данные (data)

Данные представляют собой результаты наблюдений, испытаний, накапливаемые с целью последующего

изучения и анализа.
Респондент Возраст Пол Образование Семейное положение
1 29 муж начальное женат
2 23 жен среднее замужем
3 37 жен высшее разведена
4 46 муж высшее женат
5 34 жен среднее разведена 1

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Слайд 15

Дискретные и непрерывные данные Анализ данных. Основные понятия Кафедра информационно-аналитических систем

Дискретные и непрерывные данные

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Дискретные данные

представляют собой отдельные значения признака, общее число которых конечно или, если является бесконечным, то счетно, т.е. может быть подсчитано натуральными числами от единицы до бесконечности.
Непрерывные данные могут принимать любое значение в некотором интервале.
Слайд 16

Номинальная шкала Номинальная шкала (nominal scale) состоит из названий, имен или

Номинальная шкала

Номинальная шкала (nominal scale) состоит из названий, имен или категорий

для классификации объектов, явлений по некоторому признаку. Результаты измерений, полученные при помощи номинальной шкалы, не могут быть упорядочены и с ними не могут производиться арифметические операции.
Примеры: профессия, имя.

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Слайд 17

Порядковая шкала Порядковая шкала (ordinal scale) означает, что числа присваиваются объектам,

Порядковая шкала

Порядковая шкала (ordinal scale) означает, что числа присваиваются объектам, чтобы

обозначить относительные позиции объектов.
Примеры: место в соревнованиях, рейтинги, сила ветра по шкале Бофорта, результат опроса.

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Слайд 18

Анализ данных. Основные понятия Кафедра информационно-аналитических систем

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Слайд 19

Анализ данных. Основные понятия Кафедра информационно-аналитических систем

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Слайд 20

Интервальная шкала Интервальная шкала (interval scale) позволяет находить разницу между двумя

Интервальная шкала

Интервальная шкала (interval scale) позволяет находить разницу между двумя величинами.

Обладает всеми свойствами номинальной и порядковой, но она позволяет указать количественное значение измеряемого признака. Недостатком служит отсутствие абсолютного нуля в качестве точки отсчета.
Пример: показания термометра (по Цельсию или Фаренгейту)

Анализ данных. Основные понятия

Кафедра информационно-аналитических си.стем

Слайд 21

Анализ данных. Основные понятия Кафедра информационно-аналитических систем

Анализ данных. Основные понятия

Кафедра информационно-аналитических систем

Слайд 22

Относительная шкала Относительная шкала (ratio scale) обладает абсолютным нулем в качестве

Относительная шкала

Относительная шкала (ratio scale) обладает абсолютным нулем в качестве точки

отсчета, что позволяет ей иметь все свойства интервальной шкалы. Для данных этой шкалы осмысленными являются все арифметические операции, включая вычитание и дроби.
Примеры: время выполнения теста по иностранному языку, показания спидометра.

Анализ данных. Основные понятия

Кафедра информационно-аналитических си.стем

Слайд 23

Дихотомическая шкала Дихотомическая шкала (dichotomous scale) - номинальная шкала, которая состоит

Дихотомическая шкала

Дихотомическая шкала (dichotomous scale) - номинальная
шкала, которая состоит из двух

категорий.
Пример: наличие высшего образования (Да – Нет)

Анализ данных. Основные понятия

Кафедра информационно-аналитических си.стем

Слайд 24

Шкалы – подведем итог Номинальная Содержит только категории, данные не могут

Шкалы – подведем итог

Номинальная Содержит только категории, данные не могут упорядочиваться.
Порядковая

Содержит категории, которые могут упорядочиваться, разности между значениями не имеют смысла.
Интервальная Разности между значениями могут быть вычислены, но отсутствует точка отсчета.
Относительная Имеется точка отсчета, возможны отношения между значениями.
Дихотомическая Разновидность номинальной. Содержит всего две категории.

Анализ данных. Основные понятия

Кафедра информационно-аналитических си.стем

Слайд 25

Задание 1 Приведите примеры 10 объектов с признаками, измеряемыми во всех

Задание 1

Приведите примеры 10 объектов с признаками, измеряемыми во всех категориях

шкал.
Примечание: Срок сдачи: 2 недели с момента выдачи. Задание в текстовом виде отправлять по адреcу: N.Grafeeva@spbu.ru.
Topic: DataMining_2018_job1

Анализ данных. Основные понятия

Кафедра информационно-аналитических си.стем