Основные понятия в математической статистике

Содержание

Слайд 2

Генеральная совокупность Генеральная совокупность – это совокупность всех мысленно возможных объектов

Генеральная совокупность

Генеральная совокупность – это совокупность всех мысленно возможных объектов данного

вида, над которыми проводятся наблюдения с целью получения конкретных значений определенной случайной величины.
Генеральная совокупность может быть конечной или бесконечной в зависимости от того, конечна или бесконечна совокупность составляющих ее объектов.
Все что может произвести завод – бесконечная генеральная совокупность, общее число живых людей на планете – конечная генеральная совокупность.
Слайд 3

Выборочная совокупность Выборкой (выборочной совокупностью) называется совокупность случайно отобранных объектов из

Выборочная совокупность

Выборкой (выборочной совокупностью) называется совокупность случайно отобранных объектов из генеральной

совокупности.
Выборка должна быть репрезентативной (представительной), то есть ее объекты должны достаточно хорошо отражать свойства генеральной совокупности.
Выборка может быть повторной, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность, и бесповторной, при которой отобранный объект не возвращается в генеральную совокупность.
Слайд 4

Способ получения выборки 1) Простой отбор – случайное извлечение объектов из

Способ получения выборки

1) Простой отбор – случайное извлечение объектов из генеральной

совокупности с возвратом или без возврата.
2) Типический отбор, когда объекты отбираются не из всей генеральной совокупности, а из ее «типической» части.
3) Серийный отбор – объекты отбираются из генеральной совокупности не по одному, а сериями.
4) Механический отбор - генеральная совокупность «механически» делится на столько частей, сколько объектов должно войти в выборку и из каждой части выбирается один объект.
Слайд 5

Основные понятия Цифровое значение, имеющие соответствующее смысловое значение называется вариантом. Последовательный

Основные понятия

Цифровое значение, имеющие соответствующее смысловое значение называется вариантом.
Последовательный алгоритм представляющий

варианты в порядке их возрастания или убывания – ранжирование.
Последовательность вариантов, записанных в возрастающем порядке, называется вариационным рядом.
Число, которое показывает, сколько раз встречаются соответствующие значения вариантов в ряде наблюдений, называется частотой или весом варианта.
Отношение частоты данного варианта к общей сумме частот называется относительной частотой или частостью (долей) соответствующего варианта
Слайд 6

Не должно быть пустых строк и пустых колонок Вначале записываются заголовки,

Не должно быть пустых строк и пустых колонок
Вначале записываются заголовки, которые

лучше всего выделить цветом для лучшего понимания
Набор данных отделяется от других данных пустым полем
Не стоит забывать о «скрытых» колонках, которые могут не отображаться, но сохраняются в анализе
Не должно быть дополнительных записей и данных, не включенных в структуру данного анализа
Слайд 7

Количественные переменные – обозначающие цифровое значение в выборке Номинативные переменные –

Количественные переменные – обозначающие цифровое значение в выборке
Номинативные переменные – т

е те которые обозначают смысл, кодированный в цифровом выражении
Слайд 8

Слайд 9

Слайд 10

Описательная статистика Среднее значение – среднее арифметическое из группы чисел Стандартная

Описательная статистика

Среднее значение – среднее арифметическое из группы чисел
Стандартная ошибка –теоретическое

стандартное отклонение всех средних выборки n, извлекаемых из генеральной совокупности N.
Медиана - это значение, которое разбивает выборку на две равные части. Половина наблюдений лежит ниже медианы, и половина наблюдений лежит выше медианы. 
Мода - описательная статистика, соответствующая значению признака, наиболее часто встречающемуся в исследуемой выборке. Подходит для описания дискретных, порядковых, номинальных данных.  Не подходит для описания непрерывных данных. Мода может не существовать или быть не единственной.
Слайд 11

Стандартное отклонение Стандартное отклонение - в теории вероятностей и статистике наиболее

Стандартное отклонение

Стандартное отклонение - в теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной

величины относительно её математического ожидания. При ограниченных массивах выборок значений вместо математического ожидания используется среднее арифметическое совокупности выборок.
Большее значение среднеквадратического отклонения показывает больший разброс значений в представленном множестве со средней величиной множества; меньшее значение, соответственно, показывает, что значения в множестве сгруппированы вокруг среднего значения.
Слайд 12

Вероятность встретить значение вне этого интервала равна 5%.

Вероятность встретить значение вне этого интервала равна 5%.

Слайд 13

Дисперсия – мера разброса случайной величины, т е ее отклонения от

Дисперсия – мера разброса случайной величины, т е ее отклонения от

математического ожидания. Вычисляют как среднее арифметическое квадратов отклонения наблюдаемых значений.
Коэффицие́нт эксце́сса (коэффициент островершинности) в теории вероятностей — мера остроты пика распределения случайной величины. Он положителен, если пик распределения около математического ожидания острый, и отрицателен, если вершина гладкая.
Слайд 14

Ассиметричность - также называют «скос» или «асимметрия». Статистика указывает на сдвиг

Ассиметричность - также называют «скос» или «асимметрия». Статистика указывает на сдвиг вершины

распределения влево или вправо от среднего значения. Если распределение строго симметрично, то асимметрия равна 0.
Слайд 15

Интервал Интервал — это значения варьирующего признака, лежащие в определенных границах.

Интервал

Интервал — это значения варьирующего признака, лежащие в определенных границах. Каждый интервал

имеет верхнюю и нижнюю границы или одну из них. Нижней границей называется наименьшее значение признака в интервале. Верхней границей выступает наибольшее значение признака в интервале. Величина интервала представляет собой разность между верхней и нижней границами интервала.
Слайд 16

Проверка гипотезы о виде распределения. (Критерий согласия) При получении выборки, закон

Проверка гипотезы о виде распределения. (Критерий согласия)

При получении выборки, закон

распределения значений параметра заранее не известен, но есть основания предположить, что он имеет определенный вид (назовем его вид А).
В таких случаях используют критерий согласия, в котором формулируют следующую нулевую гипотезу:
H0 – параметр генеральной совокупности распределен по закону А.
Для проверки гипотезы используют критерий Колмогорова-Смирнова или Пирсона
Слайд 17

1.Формулировка гипотез Основная гипотеза (H0) Различия между имеющимися данными и теоретическим

1.Формулировка гипотез

Основная гипотеза (H0)
Различия между имеющимися данными и теоретическим

распределением случайны
Альтернативная гипотеза (H1)
Различия между имеющимися данными и теоретическим распределением не случайны

Задача критерия согласия - проверить, согласуются ли имеющиеся данные с тем или иным видом распределения (чаще, с нормальным).

2. Определение уровня значимости

Пусть уровень значимости равен 0,05 (5%)

Слайд 18

Критерии согласия для нормального распределения Критерий согласия Колмогорова предназначен для проверки

Критерии согласия для нормального распределения

Критерий согласия Колмогорова предназначен для проверки гипотезы о

принадлежности выборки некоторому закону распределения, то есть проверки того, что эмпирическое распределение соответствует предполагаемой модели.
Назначение критерия заключается в том, что он определяет, относятся ли сравниваемые  вами два распределения к одному и тому же типу. Если мы будем сравнивать экспериментально полученное распределение с нормальным распределением, то с помощью критерия  сможем получить ответ о том, нормально ли наше распределение.
Слайд 19

Тест Колмогорова Смирнова Полученные результаты включают: среднее значение и стандартное отклонение

Тест Колмогорова Смирнова

Полученные результаты включают:
среднее значение и стандартное отклонение
промежуточные результаты, полученные

в результате теста Колмогорова-Смирнова
вероятность ошибки р.
Отклонение от нормального распределения считается существенным при значении р < 0,05; в этом случае для соответствующих переменных следует применять непараметрические тесты. В рассматриваемом примере (значение р = 0,616), то есть вероятность ошибки не является значимой; поэтому значения переменной достаточно хорошо подчиняются нормальному распределению и можно применять параметрические тесты.
Слайд 20

Критерий Лиллиефорса Критерий Лиллиефорса — статистический критерий, названный по имени Хьюберта

Критерий Лиллиефорса

Критерий Лиллиефорса — статистический критерий, названный по имени Хьюберта Лиллиефорса, профессора статистики Университета

Джорджа Вашингтона, являющийся модификацией критерия Колмогорова–Смирнова.
Используется для проверки нулевой гипотезы о том, что выборка распределена по нормальному закону для случая, когда параметры нормального распределения (математическое ожидание и дисперсия) априори неизвестны.
Слайд 21

Критические значения для Z-критерия

Критические значения для Z-критерия

Слайд 22

Понятие статистического критерия

Понятие статистического критерия