Методы анализа данных в Excel

Содержание

Слайд 2

Любое значение параметра, вычисленное на основе ограниченного числа наблюдений, непременно содержит

Любое значение параметра, вычисленное на основе ограниченного числа наблюдений, непременно содержит

элемент случайности. Результат эксперимента - случайная величина.
Такое приближенное, случайное значение называется оценкой параметра.
Оценкой параметра называют функцию результатов наблюдений над случайной величиной (статистику), с помощью которой судят о значении параметра .
ã(N) – статистическая оценка параметра а по данным N опытов (прогонов).
Генеральная совокупность характеризуется одним или несколькими параметрами: µ, σ2, σ и т.д.

ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ ВЕРОЯТНОСТИ И МАТСТАТИСТИКИ

Слайд 3

ОСНОВНЫЕ СТАТИСТИКИ Выборочное среднее x – оценка математического ожидания, среднее арифметическое

ОСНОВНЫЕ СТАТИСТИКИ

Выборочное среднее x – оценка математического ожидания, среднее арифметическое элементов

выборки.
Выборочная дисперсия S2 – среднее квадратов отклонения элементов выборки от выборочного среднего, является оценкой дисперсии, характеризует разброс выборочных значений.
Стандартное отклонение S – корень из дисперсии.
Коэффициент вариации – отношение выборочного среднего квадратического отклонения к выборочной средней, характеризует рассеяние вне зависимости от размерности вариант .
Размах варьирования- разность между наибольшей и наименьшей вариантами.
Медиана Me.
Мода Mo.
Коэффициент эксцесса E.
Коэффициент асимметрии A.
Процентиль.
Слайд 4

Корреляция (от лат. correlatio), корреляционная зависимость - взаимозависимость двух или нескольких

Корреляция (от лат. correlatio), корреляционная зависимость - взаимозависимость  двух или нескольких

случайных величин ( взаимосвязь между ростом и весом детей, между стажем работы и производительностью труда).
Статистическая зависимость – это зависимость, при которой изменение одной СВ влечет изменение распределения другой СВ.
Корреляционная зависимость - при изменении значения одной переменной происходит закономерное изменение (уменьшение или увеличение) среднего значения другой(-их) переменной(-ых).
Корреляционная зависимость - вероятностная зависимость между показателями, которая проявляется только в массе наблюдений.
Корреляционная зависимость отражает только взаимосвязь между переменными и не говорит о причинно-следственных связях (если величины независимы, то коэффициент корреляции равен нулю, обратное не всегда верно).
Коэффициент корреляции может варьировать в пределах от -1 (отрицательная корреляция) до +1 (положительная корреляция).

ОСНОВНЫЕ СТАТИСТИКИ

Слайд 5

ОСНОВНЫЕ СТАТИСТИКИ

ОСНОВНЫЕ СТАТИСТИКИ

Слайд 6

СТАТИСТИКА В ЕXCEL

СТАТИСТИКА В ЕXCEL

Слайд 7

Для вычисления частот ni можно использовать функцию ЧАСТОТА, обращение к которой

Для вычисления частот ni можно использовать функцию ЧАСТОТА, обращение к которой

имеет вид:
=ЧАСТОТА(массив_данных;массив_границ),

ФУНКЦИИ В EXCEL

Слайд 8

ОСНОВНЫЕ СТАТИСТИКИ При анализе результатов исследования необходимо представить их в обобщенной

ОСНОВНЫЕ СТАТИСТИКИ

При анализе результатов исследования необходимо представить их в обобщенной форме.

Самым распространенным методом обобщения данных является их описание с помощью какой-либо меры центральной тенденции  и какой-либо оценки вариабельности.
Оценка вариабельности показывает, насколько хорошо среднее значение отражает свойства рассматриваемой выборки результатов.
Среднее квадратическое отклонение не только характеризует разброс результатов, но также позволяет рассчитать процентили, с помощью которых можно судить о степени исключительности конкретного результата.
При этом предполагается, что данные распределяются по нормальному закону. Это условие соблюдается в большинстве случаев, с которыми обычно сталкиваются исследователи, однако не во всех.
Слайд 9

Коэффициент эксцесса E - характеризует «островерхость» гистограммы или полигона по сравнению

Коэффициент эксцесса E - характеризует «островерхость» гистограммы или полигона по сравнению

с кривой Гаусса нормального распределения.
Коэффициент асимметрии A - характеризует степень симметричности гистограммы или полигона по сравнению с кривой Гаусса. Если коэффициенты асимметрии и эксцесса близки к нулю, то форму распределения можно считать близкой нормальному.
Если значения переменной распределены несимметрично относительно центра, то группы лучше описывать с помощью медианы и квантилей (процентилей, квартилей, децилей).

ОСНОВНЫЕ СТАТИСТИКИ

Слайд 10

ОСНОВНЫЕ СТАТИСТИКИ Квантилью xp (p-квантилью, квантилью уровня p) случайной величины, имеющей

ОСНОВНЫЕ СТАТИСТИКИ

Квантилью xp (p-квантилью, квантилью уровня p) случайной величины, имеющей функцию

распределения Fx (x), называют решение xp уравнения Fx (x) = p. Для некоторых p уравнение Fx (x) = p может иметь несколько решений, для некоторых - ни одного.
Квантили, наиболее часто встречающиеся в практических задачах, имеют свои названия:
медиана - квантиль уровня 0.5;
нижняя квартиль - квантиль уровня 0.25;
верхняя квартиль - квантиль уровня 0.75;
децили - квантили уровней 0.1, 0.2, …, 0.9;
процентили - квантили уровней 0.01, 0.02, …, 0.99.
Процентиль на уровне P - это такое значение, ниже которого расположено P процентов наблюдений данной переменной. Например, значение 50-й процентили указывает, что 50% значений располагается ниже этого уровня.
Слайд 11

ОСНОВНЫЕ ХАРАКТЕРИСТИКИ ВАРИАЦИОННОГО РЯДА Процентиль можно посчитать используя excel. Пусть значения

ОСНОВНЫЕ ХАРАКТЕРИСТИКИ ВАРИАЦИОННОГО РЯДА

Процентиль можно посчитать используя excel. Пусть значения лежат

в диапазон от A1:A30. Надо ввести данную формулу =ПРОЦЕНТИЛЬ.ВКЛ(A1:A30;0,75).
75 процентиль ряда чисел равен 70,25, т.е. 75 % значений лежат ниже 70,25, на у остальные 25% лежат выше 70,25
Слайд 12

Медиана - это такое значение признака, которое делит упорядоченное (ранжированное) множество

Медиана - это такое значение признака, которое делит упорядоченное (ранжированное) множество

данных пополам так, что одна половина всех значений оказывается меньше медианы, а другая - больше.
Если данные содержат нечетное число значений (8, 9, 10, 13, 15), то медиана есть центральное значение;
Если данные содержат четное число значений (5, 8, 9, 11), то медиана есть точка, лежащая посередине между двумя центральными значениями.
Мода - это такое значение из множества измерений, которое встречается наиболее часто. Когда два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений.

ОСНОВНЫЕ ХАРАКТЕРИСТИКИ ВАРИАЦИОННОГО РЯДА

Слайд 13

ФУНКЦИИ В EXCEL

ФУНКЦИИ В EXCEL

Слайд 14

ФУНКЦИИ В EXCEL

ФУНКЦИИ В EXCEL

Слайд 15

ФУНКЦИИ В EXCEL

ФУНКЦИИ В EXCEL

Слайд 16

ФУНКЦИИ В EXCEL

ФУНКЦИИ В EXCEL

Слайд 17

Интервальной оценкой параметра θ называется числовой интервал (a,b) который с заданной

Интервальной оценкой параметра θ называется числовой интервал (a,b) который с заданной

вероятностью p (надежностью) покрывает неизвестное значение параметра θ.
Величина доверительного интервала зависит от объема выборки(уменьшается с ростом n) и надежности p (увеличивается с ростом p).
Такой интервал (a,b) называется доверительным, а вероятность p доверительной вероятностью. Вместо нее часто задают величину α=1-p , называемую уровнем значимости.

ИНТЕРВАЛЬНЫЕ ОЦЕНКИ ПАРАМЕТРОВ

α: 0,05; 0,01;0,001

p: 0,95; 0,99;0,999

Слайд 18

ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ =СРЗНАЧ(А1:А25)-ДОВЕРИТ(I1;СТАНДОТКЛОН(А1:А25);25) =СРЗНАЧ(А1:А25)+ДОВЕРИТ(I1;СТАНДОТКЛОН(А1:А25);25)

ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ

=СРЗНАЧ(А1:А25)-ДОВЕРИТ(I1;СТАНДОТКЛОН(А1:А25);25)
=СРЗНАЧ(А1:А25)+ДОВЕРИТ(I1;СТАНДОТКЛОН(А1:А25);25)

Слайд 19

МИН(Число1;Число2;) – вычисление наименьшего значения из списка аргументов, логические и текстовые

МИН(Число1;Число2;) – вычисление наименьшего значения из списка аргументов, логические и текстовые

значения игнорируются.
МАКС(Число1;Число2;) – вычисление наибольшего значения из списка аргументов, логические и текстовые значения игнорируются.
СЧЁТ(Значение1;Значение2;) – подсчитывает количество ячеек в диапазоне, которые содержат числа. СЧЁТ(70;50;100;«масса») →3
СЧЁТЗ(Значение1;Значение2;) – подсчитывает количество непустых ячеек в указанном диапазоне.

ФУНКЦИИ В EXCEL

Слайд 20

СЧЁТЕСЛИ(Диапазон;Критерий) – подсчитывает количество ячеек в диапазоне, удовлетворяющих заданному условию. СЧЁТЕСЛИ(B:B;

СЧЁТЕСЛИ(Диапазон;Критерий) – подсчитывает количество ячеек в диапазоне, удовлетворяющих заданному условию.
СЧЁТЕСЛИ(B:B; «Грипп")

– количество ячеек в столбце В, содержащих слово Грипп.
СЧЁТЕСЛИ(D:D;">13.10.2010") – количество ячеек в столбце D с датой посещения после 13.10.2010.
СРЗНАЧЕСЛИ(Диапазон;Условие; Диапазон_усреднения) – подсчитывает среднее арифметическое для ячеек, удовлетворяющих заданному условию.

ФУНКЦИИ В EXCEL

Слайд 21

ЕСЛИ(Лог_выражение;Значение_если_истина;Значение_если_ложь) Лог_выражение [Logical_test] – выражение, относительно которого можно судить: истина это

ЕСЛИ(Лог_выражение;Значение_если_истина;Значение_если_ложь)
Лог_выражение [Logical_test] – выражение, относительно которого можно судить: истина
это или

ложь. Необходимо задать условие, используя ссылки на адреса ячеек: >, >=, <, <=,
<>, =. Можно использовать функции: И [AND], ИЛИ [OR].
СЕГОДНЯ()-вставка текущей даты в формате даты
РАБДЕНЬ(Нач_дата;Число_дней;Праздники) – определение даты, отстоящей на заданноес число рабочих дней вперед или назад от начальной даты.
ЧИСТРАБДНИ(Нач_дата;Кон_дата;Праздники) – определение полных рабочих дней между двумя указанными датами.
ОКРУГЛ(Число;Число_разрядов) – округляет число до указанного количества десятичных разрядов (по правилам математики).

Функции в EXCEL