Статистическая обработка данных

Содержание

Слайд 2

"Статистика знает всё" известно, сколько какой пищи съедает в год средний

"Статистика знает всё" известно, сколько какой пищи съедает в год средний

гражданин республики: известно, сколько в стране охотников, балерин: станков, велосипедов, памятников, маяков и швейных машинок: Как много жизни, полной пыла, страстей и мысли, глядит на нас со статистических таблиц!..".
отрывок из романа Ильфа и Петрова "Двенадцать стульев"
Это ироничное описание даёт общее представление о статистике.
Термин "статистика" произошел от латинского слова "статус" (status), что означает "состояние и положение вещей".
Слайд 3

Статистическая обработка данных. Ребята, мы переходим к изучению нового раздела, связанного

Статистическая обработка данных.

Ребята, мы переходим к изучению нового раздела, связанного с

вопросами обработки данных различных экспериментов и элементов теории вероятности.
Теория вероятности и математическая статистика находят свое применение практически во всех областях жизни.
Так же заметим, что, частично, мы уже изучали данный раздел раньше, так что некоторые моменты вы можете помнить.
Слайд 4

Статистическая обработка данных. Давайте рассмотрим какой-нибудь пример, где нам может пригодиться

Статистическая обработка данных.

Давайте рассмотрим какой-нибудь пример, где нам может пригодиться обработка

информации.
Пусть у нас есть десять футболистов, основной состав некоторой команды.
Наши футболисты пробивают по десять пенальти и результаты каждого записываются.

После окончания у нас есть некоторый набор результатов, на первый взгляд просто набор чисел, но что можно сделать с этими числами? Какую пользу они нам могут принести?

Слайд 5

Статистическая обработка данных. В первую очередь надо как то сгруппировать и

Статистическая обработка данных.


В первую очередь надо как то сгруппировать

и упорядочить нашу информацию. Группировать информацию можно различными способами, все зависит от требуемой задачи. В нашем случае мы можем сгруппировать по фамилии игрока или по номеру игрока команды.
Слайд 6

Статистическая обработка данных. Рассмотрим, как нашу таблицу можно представить графически. В

Статистическая обработка данных.

Рассмотрим, как нашу таблицу можно представить графически. В

виде графиков представим первую таблицу.
На обычной координатной плоскости, по оси абсцисс отложим номер игрока, а по оси ординат - количество забитых голов.

Полученная кривая называется полигоном частот.

Слайд 7

Статистическая обработка данных. Теперь давайте построим гистограмму: она позволяет так же

Статистическая обработка данных.

Теперь давайте построим гистограмму: она позволяет так же

наглядно наблюдать за значениями нашего ряда распределений. Мы строим прямоугольники с “центром” в значениях нашего ряда. Получаются такие прыгающие столбики.
Слайд 8

Статистическая обработка данных. Нам осталось построить еще один тип диаграммы –

Статистическая обработка данных.

Нам осталось построить еще один тип диаграммы –

круговую диаграмму. Представим, что наш круг занимает все - 100% забитых голов (55 голов), тогда игрок с номером два займет 3/55 площади круга, игроки с номерами 5 и 6 займут 1/11 часть круга, так как 5/55=1/11.
Давайте построим для всех игроков круговую диаграмму.
Слайд 9

Статистическая обработка данных. Ну вот, мы с вами научились немного обрабатывать

Статистическая обработка данных.
Ну вот, мы с вами научились немного обрабатывать данные.


Давайте напишем небольшой алгоритм первичной обработки данных:
1) Упорядочить и сгруппировать данные.
2) Составить таблицу распределения данных.
3) Графическое представление данных. В зависимости от задачи построить один из графиков распределения: Полигон частот (относительных частот), Гистограмму или Круговую диаграмму.
Слайд 10

Статистическая обработка данных. Но на этом обработка информации не заканчивается, для

Статистическая обработка данных.

Но на этом обработка информации не заканчивается, для нашего

ряда распределения можно найти многие числовые характеристики. Давайте рассмотрим их.
Первая числовая характеристика это объем выборки (N), в нашем случае он равен десяти, так как мы рассматривали десять футболистов, т.е. N = 10.
Размах измерения – разница между наибольшим и наименьшим значениями выборки.
Больше всего голов забил игрок под номером 10 – 8 голов. Меньше всего, игрок под номером 2 – 3 гола. Тогда размах нашего измерения: R = 8 – 3 = 5.
Самое популярное или наиболее часто встречаемое значение называется модой (M0 ) выборки.
В нашем примере M0 = 10 – игрок забивший наибольшее количество голов. В реальности тренер команды мог назначить этого игрока штатным пенальтистом.
Слайд 11

Статистическая обработка данных. Среднее значение выборки (Хср). Суммируя все результаты и

Статистическая обработка данных.

Среднее значение выборки (Хср). Суммируя все результаты и

поделив на объем выборки можно получить среднее значение.
В нашем примере для подсчета среднего значения удобнее использовать данные второй построенной таблицы.
Хср =
Округлив до целых, получим, что в среднем игроки забивали по шесть голов. Тренер команды мог бы запомнить данное значение, и через некоторое время провести еще раз такой эксперимент и проверить растут ли показатели команды или нет.
Слайд 12

Статистическая обработка данных. Варианта измерения – каждое число встретившиеся в результате

Статистическая обработка данных.

Варианта измерения – каждое число встретившиеся в результате измерения.

В нашем случае для первой таблицы – количество забитых голов, для второй – количество игроков забивших гол.
Медиана измерения (Ме ) – средняя варианта встречающаяся в выборке. Она делит нашу выборку пополам.
Для второй выборки Ме = 5, так как это значение делит наш ряд ровно пополам.
Если число вариант четно, как в первой выборке, то берутся два средних значения и делятся пополам: Ме = (6+7)/2=6,5.
Кратность или абсолютная частота варианты – то сколько раз встречается конкретная варианта.
Для второй таблица кратность 0 равна 0, кратность 4 равна двум, кратность 8 равна единице.
Слайд 13

Статистическая обработка данных. При составлении таблицы, не всегда получается, что варианты

Статистическая обработка данных.

При составлении таблицы, не всегда получается, что варианты расположены

через равные промежутки.
Варианта измерения может принимать фактически любые значения и положительные и отрицательные.
Кратность варианты всегда больше нуля, если кратность равна нулю то фактически в нашем эксперимента данное значение не встретилось, поэтому вторую таблицу распределения целесообразней записать в таком виде:
Слайд 14

Статистическая обработка данных. Частота варианты– числовая характеристика, показывающая часть или долю

Статистическая обработка данных.

Частота варианты– числовая характеристика, показывающая часть или долю которую

составляет варианта от всей выборки, которая равна:
Перепишем нашу вторую таблицу с учетом частот и объема выборки:

Сумма всех частот всегда равна 1, а сумма частот в процентах всегда равна 100%.

Слайд 15

Статистическая обработка данных. Вернемся к среднему значению, данная числовая характеристика часто

Статистическая обработка данных.

Вернемся к среднему значению, данная числовая характеристика часто является

очень полезной.
Но не во всех задачах имеет смысл ее вычислять.
В нашем примере эта числовая характеристика показывала, сколько в среднем забивает команда. Со временем можно делать выводы об эффективности или неэффективности методов тренировки. Если среднее значение забитых голов растет, то видимо и тренировка эффективна, если не растет, а даже падает то видимо, методы тренировки неэффективны.
Слайд 16

Статистическая обработка данных. Одной из наиболее распространённых характеристик выборки значений случайной

Статистическая обработка данных.

Одной из наиболее распространённых характеристик выборки значений случайной величины,

чьё распределение по вероятностям известно, является математическое ожидание (М).
Пусть распределение по вероятностям Р значений некоторой случайной величины Х задано таблицей:
тогда математическое ожидание вычисляется по формуле:
М = Х1Р1 + Х2Р2 + Х3Р3 + … + Хn - 1Рn - 1 + ХnРn,
Слайд 17

Статистическая обработка данных. Рассмотрим на примере вычисление математического ожидания: Применим формулу

Статистическая обработка данных.

Рассмотрим на примере вычисление математического ожидания:

Применим формулу вычисления математического

ожидания
М = Х1Р1 + Х2Р2 + Х3Р3 + … + Хn - 1Рn - 1 + ХnРn,
М = 1· 0,1 + 2 · 0,25 + 3 · 0,3 + 4 · 0,2 + 5 · 0,1 + 6 · 0,05 = 3,1
Ответ: М = 3,1
Слайд 18

Статистическая обработка данных. Еще одна важная числовая характеристика – Дисперсия, или

Статистическая обработка данных.

Еще одна важная числовая характеристика – Дисперсия, или разброс

значений вокруг среднего значения. Чем меньше дисперсия, тем плотнее результаты эксперимента сосредоточены около своего среднего значения.
Подсчет дисперсии довольно таки трудоемкая операция, опишем алгоритм поиска дисперсии.

Пусть нам даны данные измерений: х1, х2, ..., хn. Найдём
среднее значение Хср:
2. отклонение данных от среднего: х1 - Хср, х2 - Хср, ..., хn - Хср;
3. квадраты отклонений найденных на предыдущем шаге: (хi - Хср)2 , (i = 1,..., n);
4. среднее значение всех квадратов отклонений и есть дисперсия D

- среднее квадратическое отклонение

Слайд 19

Статистическая обработка данных. Давайте вычислим дисперсию для нашего примера: 1. Вспомним,

Статистическая обработка данных.

Давайте вычислим дисперсию для нашего примера:
1. Вспомним, среднее значение

у нас равнялось 5.5
2. Вычислим каждое отклонение и квадрат отклонения
3. Вычислим дисперсию
Слайд 20

Статистическая обработка данных. Методы математической статистики позволяют обрабатывать практически любые данные,

Статистическая обработка данных.

Методы математической статистики позволяют обрабатывать практически любые данные, главное

подходить к обработке данных обдуманно и исходя из здравого смысла.