Основы математической статистики (МС). Математика – царица наук!

Содержание

Слайд 2

I. Основные понятия Статистика – это область науки, изучающая сбор, анализ

I. Основные понятия

Статистика
– это область науки, изучающая сбор, анализ и

интерпретацию данных.
От лат. status - «состояние, положение вещей»
1746 г. – Г.Ахенваль ввел термин в науку
Слайд 3

Пример 1. В девятых классах «А» и «Б» измерили рост 50

Пример 1.
В девятых классах «А» и «Б» измерили рост 50 учеников.

Получились следующие результаты:
162, 168, 157, 176, 185, 160, 162, 158, 181, 179, 164, 176, 177, 180, 181, 179, 175, 180, 176, 165, 168, 164, 179, 163, 160, 176, 162, 178, 164, 190, 181, 178, 168, 165, 176, 178, 185, 179, 180, 168, 160, 176, 175, 177, 176, 165, 164, 177, 175, 181.

Недостатки данной информации:
Трудно «читается»
Не наглядна
Зани­мает много места

Другие задачи статистики:
полу­чение и хранение информации
выработка различных прогно­зов
оценка их достоверности

Выход:
— пре­образовать данные, получить небольшое количество характеристик начальной информа­ции.
⇒ Одна из основных задач статистики: обработка инфор­мации.

Слайд 4

Общий ряд данных Выборка Варианта Ряд данных То, откуда выбирают То,

Общий ряд данных

Выборка

Варианта

Ряд данных

То, откуда выбирают

То, что выбрали

Значение од­ного из ре­зультатов

из­мерения

Значения всех резуль­татов измере­ния, перечис­ленные по по­рядку

Генеральная совокупность

Статистическая выборка, статистический ряд

Варианта

Вариационный ряд

Множество всех в принципе возможных результатов измерения

Множество результатов, реально полученных в данном измерении

Одно из значений эле­ментов выборки

Упорядоченное множе­ство всех вариант

Слайд 5

Пример 1. В девятых классах «А» и «Б» измерили рост 50

Пример 1.
В девятых классах «А» и «Б» измерили рост 50 учеников.

Получились следующие результаты:
162, 168, 157, 176, 185, 160, 162, 158, 181, 179, 164, 176, 177, 180, 181, 179, 175, 180, 176, 165, 168, 164, 179, 163, 160, 176, 162, 178, 164, 190, 181, 178, 168, 165, 176, 178, 185, 179, 180, 168, 160, 176, 175, 177, 176, 165, 164, 177, 175, 181.

С некоторым за­пасом можно считать, что рост девятиклассника находит­ся в пределах от 140 до 210 см.

Общий ряд данных этого измере­ния: 140; 141; 142; ...; 208; 209; 210

1.

Ряд данных — все реальные результаты изме­рения, выписанные в определенном порядке без повторений, например, по возрастанию:
157; 158; 160; 162; 163; 164; 165; 168; 175; 176; 177; 178; 179; 180; 181; 185; 190

Выборка — это данные реального измере­ния роста
(выписаны выше)

2.

3.

Варианта — это любое из чи­сел выборки

4.

Слайд 6

Пример 2. 30 абитуриентов на четырех вступительных экзаменах набрали в сумме

Пример 2.
30 абитуриентов на четырех вступительных экзаменах набрали в сумме

такие количества баллов (оценки на экзаменах выставлялись по пятибалльной системе):
20; 19; 12; 13; 16; 17; 15; 14; 16; 20; 15; 19; 20; 20; 15; 13; 19; 14; 18; 17; 12; 14; 12; 17; 18; 17; 20; 17; 16; 17.
Составьте общий ряд данных, выборку из результатов, стоящих на четных ме­стах и соответствующий ряд данных.
Решение:
После получения двойки дальнейшие экзаме­ны не сдаются, поэтому сумма баллов не может быть меньше 12 (12 — это 4 «тройки»). ⇒ Общий ряд данных: 12; 13; 14; 15; 16; 17; 18; 19; 20
Выборка состоит из 15 результатов: 19; 13; 17; 14; 20; 19; 20; ..., расположенных на четных местах
Ряд данных: 13; 14; 17; 19; 20

Составим таблицу распреде­ления выборки и частот выборки

Слайд 7

Пример 2. 30 абитуриентов на четырех вступительных экзаменах набрали в сумме

Пример 2.
30 абитуриентов на четырех вступительных экзаменах набрали в сумме

такие количества баллов (оценки на экзаменах выставлялись по пятибалльной системе):
20; 19; 12; 13; 16; 17; 15; 14; 16; 20; 15; 19; 20; 20; 15; 13; 19; 14; 18; 17; 12; 14; 12; 17; 18; 17; 20; 17; 16; 17.
Составьте общий ряд данных, выборку из результатов, стоящих на четных ме­стах и соответствующий ряд данных.
Решение:
Составим таблицу распреде­ления выборки и часто выборки

2

3

6

2

2

Всего: 5 вариант

Сумма =15
(объем выборки)

Сумма =1
(так всегда)

Иногда измеряется в процентах (·100%)

Слайд 8

II. Графическое представление информации Алгоритм получения графика распределения выборки: Отложить по

II. Графическое представление информации

Алгоритм получения графика распределения выборки:
Отложить по оси абсцисс

значения из первой строки таблицы
Отложить по оси ординат — значения из ее второй строки
Построить соответствующие точки в координатной плоскости
Построенные точки для наглядности соединить отрезками
Примечание:
Если заменить вторую строку таблицы ее третьей строкой, то получится график распределения частот выборки.

Таблицы образуют «мостик», по которому от выборок данных можно перейти к функциям и их графикам.
Пример 2.

2

3

6

2

2

Всего: 5 вариант

Сумма =15 (объем выборки)

Сумма =1 (так всегда)

Термин «график распределения частот выборки» заменяют кратким — многоугольник частот или полигон частот.
(polygon – многоугольник)

Слайд 9

Пример 3. Постройте график распределения и много­угольник частот для следующих результатов

Пример 3.
Постройте график распределения и много­угольник частот для следующих результатов письменного

эк­замена по математике:

Решение:
Выборка объема 40.
Ряд данных — 2; 3; 5; 6; 7; 8; 9; 10
Составим таблицу и построим график

Всего 8 вариант

Сумма = 40

5

3

2

11

9

4

5

1

Сумма = 1

0,125

0,075

0,05

0,275

0,225

0,1

0,125

0,025

Сумма = 100%

12,5

7,5

5

27,5

22,5

10

12,5

2,5

Слайд 10

Многоугольник распределения кратностей

Многоугольник распределения кратностей

Слайд 11

Многоугольник распределения частот

Многоугольник распределения частот

Слайд 12

Многоугольник распределения частот (%) Чаще всего в практических приложениях ис­пользуют многоугольники частот в процентах.

Многоугольник распределения частот (%)

Чаще всего в практических приложениях ис­пользуют многоугольники частот

в процентах.
Слайд 13

Построение гистограмм (столбчатых диаграмм) распределения: Разбиваем промежуток между самой маленькой и

Построение гистограмм (столбчатых диаграмм) распределения:
Разбиваем промежуток между самой маленькой и самой

большой вариантой на уча­стки:
«Плохие» оценки ∈ [2; 4]
«Средние» оценки ∈ [5; 7]
«Хорошие» оценки ∈ [8; 10]
Получили интервальный ряд данных: 2—4; 5—7; 8—10.

Пример 3.
Постройте график распределения и много­угольник частот для следующих результатов письменного эк­замена по математике:

8

22

10

0,2

0,55

0,25

20

55

25

Слайд 14

Гистограмма распределения кратностей Площадь равна кратности варианты.

Гистограмма распределения кратностей

Площадь равна кратности варианты.

Слайд 15

Гистограмма распределения частот

Гистограмма распределения частот

Слайд 16

Гистограмма распределения частот (%)

Гистограмма распределения частот (%)

Слайд 17

«-» представления информации в виде гистограмм Теряется первоначальная точная информация «+»

«-» представления информации в виде гистограмм
Теряется первоначальная точная информация
«+»
Ответ получается более

быстро
Наглядно видна качественная оценка распределения данных
Слайд 18

III. Гистограммы распределения большого объёма информации Гистограммы незаменимы, когда ряд данных

III. Гистограммы распределения большого объёма информации

Гистограммы незаменимы, когда ряд данных состоит

из большого количества чисел (сотни, тысячи и т. п.).
Если ширина столбцов гистограммы мала, а основания столбцов в объединении дают некоторый промежу­ток, то сама гистограмма похожа на график непре­рывной функции.
Та­кую функцию называют выравнивающей функцией.

Пример 4.
Гистограмма роста женщин, построенная по выборке, в которой было 1375 женщин.

Слайд 19

Пример 5. Произвели 500 изме­рений боковой ошибки при стрельбе с самолета.

Пример 5. Произвели 500 изме­рений боковой ошибки при стрельбе с самолета.


На графике по оси абсцисс отложены величины ошибок («левее или правее» цели), а по оси ординат отложены частоты этих ошибок.
Слайд 20

Пример 6. Измерялся размер 12000 бобов. По оси абсцисс откладывались величины

Пример 6. Измерялся размер 12000 бобов.
По оси абсцисс откладывались величины

отклонений от среднего размера бобов, а по оси ординат соответствующие частоты
Слайд 21

Примеры взяты из различных областей, а гра­фики функций, выравнивающих гистограммы, похожи

Примеры взяты из различных областей, а гра­фики функций, выравнивающих гистограммы, похожи

друг на друга.
Такому же закону распределения подчиняется:
Распределение горошин по размеру
Распределение новорож­денных младенцев по весу
Распределение частиц газа по скоростям дви­жения

Все эти кривые получаются из одной кривой.
Её называют кривой нормального рас­пределения или, в честь Карла Га­усса, гауссовой кривой.
Слайд 22

Гауссова кривая (кривая нормального распределения) Свойства: Симметрична относительно оси Oy Единственный

Гауссова кривая
(кривая нормального распределения)

Свойства:
Симметрична относительно оси Oy
Единственный максимум (ϕ(0) = 0,3989)
Площадь

части плоскости, ограниченной кривой и осью Ох равна 1.
«Ветви» очень быстро приближаются к оси абсцисс: площадь «под гауссовой кривой» на [-3; 3] равна 0,99

Для значений функции составлены таблицы

e (число Эйлера) = 2,7182818284590452353602874713527…

Слайд 23

Доска Гальтона (квинкункс, 1873 г.) Устройство для наглядной демонстрации нормального (гауссова)

Доска Гальтона (квинкункс, 1873 г.)
Устройство для наглядной демонстрации нормального (гауссова) закона

распределения

Принцип действия:
Падающие сверху шарики распределяются между правильными шестиугольниками
В результате попадают на горизонтальную поверхность
Образуют картинку, похожую на «подграфик» гауссовой кривой.

Слайд 24

IV. Числовые характеристики выборки Объемы выборок данных велики ⇒ Приходится иметь

IV. Числовые характеристики выборки

Объемы выборок данных велики ⇒
Приходится иметь дело с

числовыми характеристиками
1) Размах (R)
— это разница между наибольшей и наименьшей вариантой
(R = Xmax - Xmin)
2) Мода (Mo)
— это наиболее часто встречающаяся ее варианта

Длина области определения

Точка, в которой достигается максимум
(Если одна, то выборка – унимодальная)

Слайд 25

Слайд 26

3) Медиана (Me) (от лат. mediana – «среднее») Медианой выборки с

3) Медиана (Me)
(от лат. mediana – «среднее»)
Медианой выборки с нечетным числом

вариант называется варианта, записанная посередине в упорядоченной выборке
Медианой выборки с четным числом вариант называется среднее арифметическое двух вариант, записанных посередине в упорядоченной выборке
Слайд 27

Пример 7. Найдите среднее значение, размах и моду выборки: а) 32;

Пример 7.
Найдите среднее значение, размах и моду выборки:
а) 32; 26; 18;

26; 15; 21; 26

1.

2.

Хmax: 32
Хmin: 15
R = Хmax – Хmin = 32 – 15 = 17

3.

Мо = 26

б) 21; 18,5; 25,3; 18,5; 17,9

1.

2.

Xmax: 25,3
Xmin: 17,9
R = Xmax – Xmin = 25,3 – 17,9 = 7,4

3.

Мо = 18,5

Слайд 28

Пример 8. В выборке 2, 7, 10, _, 18, 19, 27

Пример 8.
В выборке 2, 7, 10, _, 18, 19, 27 одно

число оказалось стертым.
Восстановите его, зная, что среднее значение этих чисел равно 14.
Решение:
Пусть искомое число Х

Ответ: 15

Слайд 29

Пример 9. Найдите медиану выборки: 30, 32, 37, 40, 41, 42,

Пример 9.
Найдите медиану выборки:
30, 32, 37, 40, 41, 42, 45, 49,

52;
Пример 10.
Зная, что в упорядоченном ряду содержится m чисел, где m — нечетное число, укажите номер члена, являющегося медианой, если m равно: 5

Решение:
1) Упорядочить выборку: 30, 32, 37, 40, 41, 42, 45, 49, 52
2) Число членов ряда: n = 9
3) Серединный элемент (5-ый): 41
4) Ме = 41

Решение:
Номер члена, являющегося медианой: 3

Слайд 30

Пример 11. В ряду данных, состоящем из 12 чисел, наибольшее число

Пример 11.
В ряду данных, состоящем из 12 чисел, наибольшее число увеличили

на 6. Изменятся ли при этом и как:
а) среднее значение;
б) размах;
в) мода;
г) медиана?

Увеличится на 1/2

Увеличится на 6

Не изменится (?)

Не изменится (?)

Слайд 31

5) Среднее отклонение ( ) Среднее арифметическое отклонений (в абсолютных показателях)

5) Среднее отклонение ( )
Среднее арифметическое отклонений (в абсолютных показателях) всех

вариант выборки от их среднего значения.
6) Дисперсия (D)
Величина колебания вариант около их среднего значения
7) Среднее квадратичное отклонение (σ - сигма)
8) Коэффициент вариации (CV)

0 ≤ CV ≤ 10% - выборка однородна
11 ≤ CV ≤ 20% - средняя степень однородность
21 ≤ CV – низкая степень однородности

Слайд 32

Пример 12. Вычислите среднее отклонение, дисперсию, среднее квадратичное отклонение и коэффициент

Пример 12.
Вычислите среднее отклонение, дисперсию, среднее квадратичное отклонение и коэффициент выборки:
46;

50; 59; 60; 55; 49

319

7,2

3,2

5,8

6,8

1,8

4,2

29

51,4

10,0

34,0

46,7

3,4

17,4

162,9

0 ≤ CV ≤ 10% - выборка однородна

Слайд 33

V. Экспериментальные данные и вероятности событий Пример 13. Бросание монеты Запишем

V. Экспериментальные данные и вероятности событий

Пример 13. Бросание монеты
Запишем О или

Р в зависимости от того, выпал «орел» или «решка».
После n бросаний при неизменных условиях этого испытания, получится случайная последовательность.
Например: О, О, Р, О, Р, Р, О, Р, Р, Р, О, О, Р, О, Р, О, О, Р, Р, О, О, Р...
Т.о., имеется выборка, в которой две варианты О и Р.
Сделаем расчеты для указанной последовательности.

При достаточно боль­шом числе бросаний частота приближается к некоторому по­стоянному числу.
В данном случае к 0,5.

Слайд 34

Бросил монету 4040 раз, и при этом герб выпал в 2048

Бросил монету 4040 раз, и при этом герб выпал в 2048

случаях.

Бросил монету 24000 раз, и при этом герб выпал в 12012 случаях.

Слайд 35

Статистическая устойчивость (СУ) При большом числе независимых повторе­ний одного и того

Статистическая устойчивость (СУ)
При большом числе независимых повторе­ний одного и того же

опыта в неизменных условиях частота появления определенного случайного события практически совпадает с некоторым постоянным числом. Такое число назы­вают статистической вероятностью этого события.
СУ имеет место при:
Выпадении определенно­го числа очков на игральных кубиках
Рождении мальчиков
Времени восхода солнца

СУ соединяет реально проводимые испытания с теоретическими моделями этих испытаний.
Слайд 36

Пример 14. Статистические исследования над литературными текстами показали, что частоты появления

Пример 14.
Статистические исследования над литературными текстами показали, что частоты появления той

или иной буквы (или пробела между словами) стремятся при увеличении объема текста к некоторым кон­стантам.
Таблицы, в которых собраны буквы того или иного языка и соответствующие константы, называют частотными таблицами языка.
Таблица для букв русского ал­фавита и пробелов
(частоты приведены в процентах)
Слайд 37

Пример 15. До сегодняшнего дня не утихают споры об авторстве «Тихого

Пример 15.
До сегодняшнего дня не утихают споры об авторстве «Тихого Дона».


Многие считают, что в 23 года М. А. Шоло­хов такую глубокую и поистине великую книгу написать не мог.
Особенно жаркими были споры в момент при­суждения М. А. Шолохову Нобелевской премии в области литературы (1965 г.).
Статистический анализ романа и сличе­ние его с текстами, в авторстве которых не было сомнений, подтвердил гипотезу о М. А. Шолохове, как об истинном авторе «Тихого Дона».

М.А. Шолохов
(1905 — 1984)

Слайд 38

Пример 16. В се­редине 60-х годов в одной из стран Западной

Пример 16.
В се­редине 60-х годов в одной из стран Западной Европы

были опубликованы «очерняющие прогрессивный характер социа­листической системы» литературные произведения.
Автором был А. Терц, но это псевдоним.
Был проведен сравнительный ана­лиз опубликованных «вредительских» текстов и результаты были сличены с произведениями ряда возможных кандидатов в авторы.

А.Д. Синявский (1925 — 1997)

Ответ оказался однозначным:
настоящим автором был литературовед А.Д. Синявский.
В 1967 году («Процесс Синяв­ского и Даниэля») получил 5 лет тюрьмы и 7 лет ссылки.