Определение объема выборки

Содержание

Слайд 2

Основные выводы предыдущих лекций Основной вид научного продукта – публикация в

Основные выводы предыдущих лекций

Основной вид научного продукта – публикация в журнале,

предпочтительно – в международном, предпочтительно – с высоким импакт-фактором.
Международные англоязычные журналы предпочитают публиковать статьи, нацеленные на экспериментальную проверку гипотез («Доктрина NHST»).
Планирование эксперимента начинается с формулировки гипотезы и определения приемлемой вероятности ошибок первого и второго рода.
Если мы не смогли отвергнуть нулевую гипотезу, то это вовсе не значит, что альтернативная гипотеза верна.
Слайд 3

Цель лекции Ознакомление с методами расчета объемов выборок для различных типов

Цель лекции

Ознакомление с методами расчета объемов выборок для различных типов экспериментальных

планов.
Приобретение навыков критического анализа экспериментальных планов.
Слайд 4

Структура первой части Точность оценки параметра. Определение объема выборки, необходимого для

Структура первой части

Точность оценки параметра.
Определение объема выборки, необходимого для оценки:
непрерывного, нормально

распределенного параметра;
процентного соотношения;
счетных признаков (распределение Пуассона и обратное биномиальное распределение).
Определение объема выборки, необходимого для нахождения редко встречающегося объекта;
Определение объема выборки в случае, когда характер распределения неизвестен.
Это полезно запомнить…
Слайд 5

Что может статистика? Выполнить свертку информации: подсчет некоторых характеристик выборки и

Что может статистика?

Выполнить свертку информации: подсчет некоторых характеристик выборки и (на

основании этого) вынесение вероятностных суждений о характеристиках исследуемой популяции.
Пример: С вероятностью 0.95 средняя длина крыла комнатной мухи, пойманной в г. Мончегорске попадает в интервал от 5.73 до 6.28 мм.
Выполнить проверку гипотезы, то есть вынести вероятностное суждение по поводу истинности либо ложности некоего априорно сформулированного утверждения.
Пример: Вероятность того, что средняя длина крыла комнатной мухи в исследуемой выборке из г. Мончегорска отличается от средней длины крыла комнатной мухи в исследуемой выборке из г. Апатиты исключительно вследствие воздействия на эти выборки случайных факторов равна 0.8% (то есть Р = 0.008).
Провести статистическое моделирование.

Лекция 3

Слайд 6

Определение объема выборки Для оценки некоего параметра с заданной точностью (1-я

Определение объема выборки

Для оценки некоего параметра с заданной точностью (1-я часть

лекции).
Для проверки статистической гипотезы при заданных (2-я часть лекции):
вероятности ошибки первого рода (α);
силе анализа (1-β);
величине эффекта (заданной в абсолютных либо относительных величинах).
Слайд 7

Выбор точности оценки параметра Определение желаемой точности оценки изучаемого параметра –

Выбор точности оценки параметра

Определение желаемой точности оценки изучаемого параметра – задача

экологическая, а не статистическая.
Для разных исследований точность оценки может существенно различаться.
Помимо научных аспектов, всегда следует принимать во внимание ответственность решений, которые могут основываться на ваших данных.
Слайд 8

Абсолютная и относительная точность измерения Абсолютная точность измерения: например, исследователь формулирует

Абсолютная и относительная точность измерения

Абсолютная точность измерения: например, исследователь формулирует требование,

что истинное (то есть присущее заданной генеральной совокупности) значение длины листа с вероятностью 95% должно попасть в интервал ± 2.8 мм от средней оценки, полученной при анализе выборки.
Относительная точность измерения: оценка определяется в процентах от среднего значения, например 95% доверительный интервал задается как ± 6% от истинного значения.
Связь этих оценок очевидна:
Относительная точность =
= (Абсолютная точность /Среднее значение) × 100%
Слайд 9

Рекомендуемая точность оценки параметра Некоторые учебники (например, Ивантер и Коросов, 1992)

Рекомендуемая точность оценки параметра

Некоторые учебники (например, Ивантер и Коросов, 1992) рекомендуют

в экологических исследованиях добиваться относительной ошибки <3%; ошибка в интервале 3-5% определяется этими авторами как «удовлетворительная». При относительной ошибке >5%, рекомендуется сбор дополнительного материала или повторение опыта.
Мне эти требования представляются сильно завышенными (за исключением специальных случаев).
Слайд 10

Непрерывная изменчивость: измерение одного параметра Если для измеряемого параметра ожидается распределение

Непрерывная изменчивость: измерение одного параметра

Если для измеряемого параметра ожидается распределение значений,

близкое к нормальному, то объем выборки определяется по формуле:
N = (tασ/d)2
N – объем выборки, необходимый для определения среднего с заданной точностью;
σ – среднеквадратичное отклонение среднего;
d – абсолютная ошибка (задается исследователем);
tα – критерий Стьюдента для числа степеней свободы N-1 и доверительной вероятности 1-α.
На практике принимают:
tα = 2 для 95% уровня значимости,
tα = 2.7 для 99% уровня значимости,
tα = 1.7 для 90% уровня значимости.
Слайд 11

Оценка среднеквадратичного отклонения Приблизительное значение σ до начала работы можно получить

Оценка среднеквадратичного отклонения

Приблизительное значение σ до начала работы можно получить одним

из следующих способов:
Использовать значение, полученное ранее в сходных условиях.
Оценить стандартную ошибку путем изучения малой выборки (имеет смысл в тех случаях, когда предполагается существенный объем измерений).
Использовать экспертную оценку.
Рассчитать на основе размаха изменчивости (Xmax – Xmin).
Слайд 12

Часто удается достаточно легко определить размах изменчивости, то есть разность (W)

Часто удается достаточно легко определить размах изменчивости, то есть разность (W)

между максимальным и минимальным значениями признака в выборке некоторого объема. Тогда:
σ = W*CF
CF (conversion factor) находится из таблицы по заданному объему выборки (это – объем выборки, для которой известны максимальное и минимальное значения, а не объем выборки, который необходимо оценить).

Оценка среднеквадратичного отклонения

Слайд 13

Оценка среднеквадратичного отклонения на основании размаха изменчивости

Оценка среднеквадратичного отклонения на основании размаха изменчивости

Слайд 14

Можно провести сбор информации в два этапа. На первом этапе взять

Можно провести сбор информации в два этапа.
На первом этапе взять

выборку объема N1, определить σ1 и рассчитать окончательный объем выборки по формуле:
N=(tασ1/d)2(1+2/N1)

Непрерывная изменчивость: измерение одного параметра

Слайд 15

Пример 1 Какой объем выборки необходим для того, чтобы 95% доверительный

Пример 1

Какой объем выборки необходим для того, чтобы 95% доверительный интервал

для среднего значения длины листа березы составлял ± 2.8 мм? Известно, что в выборке из 100 листьев крайние значения составляют 17 и 54 мм.
Размах изменчивости: W = 54 – 17 = 37 мм.
Из таблицы: CF = 0.199 (для N = 100).
Подставляя в формулу (σ = W*CF), получим:
σ = 37 мм * 0.199 = 7.4 мм.
Подставляя в формулу [N = (tασ/d)2], получим
N = (2 * 7.4 / 2.8)2 = 27.94, то есть необходимо измерить 28 листьев.
На практике имеет смысл измерить 30 листьев.
Слайд 16

Пример 1 Какой объем выборки необходим для того, чтобы 95% доверительный

Пример 1

Какой объем выборки необходим для того, чтобы 95% доверительный интервал

для среднего значения длины листа березы составлял ± 2.8 мм? Известно, что в выборке из 100 листьев крайние значения составляют 17 и 54 мм.
Размах изменчивости: W = 54 – 17 = 37 мм.
Из таблицы: CF = 0.199 (для N = 100).
Подставляя в формулу (σ = W*CF), получим:
σ = 37 мм * 0.199 = 7.4 мм.
Подставляя в формулу [N = (tασ/d)2], получим
N = (2 * 7.4 / 2.8)2 = 27.94, то есть необходимо измерить 28 листьев.
На практике имеет смысл измерить 30 листьев.
Слайд 17

Пример 1 Какой объем выборки необходим для того, чтобы 95% доверительный

Пример 1

Какой объем выборки необходим для того, чтобы 95% доверительный интервал

для среднего значения длины листа березы составлял ± 2.8 мм? Известно, что в выборке из 100 листьев крайние значения составляют 17 и 54 мм.
Размах изменчивости: W = 54 – 17 = 37 мм.
Из таблицы: CF = 0.199 (для N = 100).
Подставляя в формулу (σ = W*CF), получим:
σ = 37 мм * 0.199 = 7.4 мм.
Подставляя в формулу [N = (tασ/d)2], получим
N = (2 * 7.4 / 2.8)2 = 27.94, то есть необходимо измерить 28 листьев.
На практике имеет смысл измерить 30 листьев.
Слайд 18

Пример 1 Какой объем выборки необходим для того, чтобы 95% доверительный

Пример 1

Какой объем выборки необходим для того, чтобы 95% доверительный интервал

для среднего значения длины листа березы составлял ± 2.8 мм? Известно, что в выборке из 100 листьев крайние значения составляют 17 и 54 мм.
Размах изменчивости: W = 54 – 17 = 37 мм.
Из таблицы: CF = 0.199 (для N = 100).
Подставляя в формулу (σ = W*CF), получим:
σ = 37 мм * 0.199 = 7.4 мм.
Подставляя в формулу [N = (tασ/d)2], получим
N = (2 * 7.4 / 2.8)2 = 27.94, то есть необходимо измерить 28 листьев.
На практике имеет смысл измерить 30 листьев.
Слайд 19

Пример 1 Какой объем выборки необходим для того, чтобы 95% доверительный

Пример 1

Какой объем выборки необходим для того, чтобы 95% доверительный интервал

для среднего значения длины листа березы составлял ± 2.8 мм? Известно, что в выборке из 100 листьев крайние значения составляют 17 и 54 мм.
Размах изменчивости: W = 54 – 17 = 37 мм.
Из таблицы: CF = 0.199 (для N = 100).
Подставляя в формулу (σ = W*CF), получим:
σ = 37 мм * 0.199 = 7.4 мм.
Подставляя в формулу [N = (tασ/d)2], получим
N = (2 * 7.4 / 2.8)2 = 27.94, то есть необходимо измерить 28 листьев.
На практике имеет смысл измерить 30 листьев.
Слайд 20

Если известен коэффициент вариации CV = σ / mean то расчет

Если известен коэффициент вариации
CV = σ / mean
то расчет объема

выборки может быть проведен по формуле:
N = (100CV*tα/r)2
где r – заданная исследователем относительная ошибка (величина доверительного интервала, выраженная в процентах от среднего)

Непрерывная изменчивость: измерение одного параметра

Слайд 21

Обзор методов определения плотности популяций

Обзор методов определения плотности популяций

Слайд 22

Коэффициенты вариации плотности популяций (Eberhardt, 1978)

Коэффициенты вариации плотности популяций (Eberhardt, 1978)

Слайд 23

Пример 2 Известно, что коэффициент вариации плотности планктона в среднем составляет

Пример 2

Известно, что коэффициент вариации плотности планктона в среднем составляет 0.70.

Необходимо определить число выборок, достаточное для определения средней плотности с точностью ± 25%.
По формуле [N = (100CV*tα/r)2] объем выборки N = (100*0.70*2/25)2 = 31.36.
На практике целесообразно взять 35 выборок.
Слайд 24

Пример 2 Известно, что коэффициент вариации плотности планктона в среднем составляет

Пример 2

Известно, что коэффициент вариации плотности планктона в среднем составляет 0.70.

Необходимо определить число выборок, достаточное для определения средней плотности с точностью ± 25%.
По формуле [N = (100CV*tα/r)2] объем выборки N = (100*0.70*2/25)2 = 31.36.
На практике целесообразно взять 35 выборок.
Слайд 25

Поправка на размер генеральной совокупности Приведенные выше формулы подразумевают, что выборка

Поправка на размер генеральной совокупности

Приведенные выше формулы подразумевают, что выборка составляет

бесконечно малую часть генеральной совокупности.
В тех случаях, когда генеральная совокупность мала, и приведенные формулы дают объем выборки, превышающий 5-10% от общего числа изучаемых объектов, вводится поправка на размер генеральной совокупности (G):
NG = N / [1 + (N / G)]
В этой формуле NG – объем выборки из генеральной совокупности конечного объема G, N – объем выборки, определенный по любой из приведенных выше формул.
Слайд 26

Пример 3 Какой объем выборки необходим для того, чтобы 95% доверительный

Пример 3

Какой объем выборки необходим для того, чтобы 95% доверительный интервал

для среднего значения длины листа березового саженца, у которого всего около 150 листьев, составлял ± 2.8 мм? Известно, что в выборке из 100 листьев крайние значения составляют 17 и 54 мм.
Расчет (Пример 1) дает объем выборки 28 листьев.
По формуле (NG = N / [1 + (N / G)]) имеем: NG = 28 / [1 + 28 / 150] = 23.60 листьев. На практике имеет смысл замерить 25 листьев.
Слайд 27

Пример 3 Какой объем выборки необходим для того, чтобы 95% доверительный

Пример 3

Какой объем выборки необходим для того, чтобы 95% доверительный интервал

для среднего значения длины листа березового саженца, у которого всего около 150 листьев, составлял ± 2.8 мм? Известно, что в выборке из 100 листьев крайние значения составляют 17 и 54 мм.
Расчет (Пример 1) дает объем выборки 28 листьев.
По формуле (NG = N / [1 + (N / G)]) имеем: NG = 28 / [1 + 28 / 150] = 23.60 листьев. На практике имеет смысл замерить 25 листьев.
Слайд 28

Объем выборки для определения процентного соотношения Любые распределения особей по двум

Объем выборки для определения процентного соотношения

Любые распределения особей по двум категориям

(соотношение полов, живые либо мертвые, здоровые либо больные, поврежденные либо неповрежденные), описываются биномиальным распределением (доля первого типа равна Р, доля второго составляет 1 – Р).
Слайд 29

Необходимо задать допустимую абсолютную ошибку d, величину α, и ориентировочное значение

Необходимо задать допустимую абсолютную ошибку d, величину α, и ориентировочное значение

Р.
Если Р неизвестно, задаем Р = 0.5.
Размер выборки, достаточной для того, чтобы оценка среднего значения Р попала в интервал Р ± d с вероятностью (1 – α), определяется по формуле:
N = tα*2*P*(1 – P) / d2

Объем выборки для определения процентного соотношения

Слайд 30

Пример 4a Какой объем выборки необходим для того, чтобы оценить соотношение

Пример 4a

Какой объем выборки необходим для того, чтобы оценить соотношение полов

в популяции благородного оленя с точностью 5% (то есть d = 0.05)? Ожидаемая доля самцов Р = 0.40.
По формуле (N = tα2*P*(1 – P) / d2) находим N = 2 * 2 * 0.40 * (1 – 0.40) / 0.052 = 38 особей.
При повышении требований к точности оценки величина выборки стремительно возрастает!
Слайд 31

Пример 4a Какой объем выборки необходим для того, чтобы оценить соотношение

Пример 4a

Какой объем выборки необходим для того, чтобы оценить соотношение полов

в популяции благородного оленя с точностью 5% (то есть d = 0.05)? Ожидаемая доля самцов Р = 0.40.
По формуле (N = tα*2*P*(1 – P) / d2) находим N = 2 * 2 * 0.40 * (1 – 0.40) / 0.052 = 38 особей.
При повышении требований к точности оценки величина выборки стремительно возрастает!
Слайд 32

Пример 4б Какой объем выборки необходим для того, чтобы оценить соотношение

Пример 4б

Какой объем выборки необходим для того, чтобы оценить соотношение полов

в популяции благородного оленя с точностью 2% (то есть d = 0.02)? Ожидаемая доля самцов Р = 0.40.
По формуле (N = tα2*P*(1 – P) / d2) находим N = 2 * 2 * 0.40 * (1 – 0.40) / 0.022 ≈ 2400 особей.
При повышении требований к точности оценки величина выборки стремительно возрастает!
Слайд 33

Пример 4б Какой объем выборки необходим для того, чтобы оценить соотношение

Пример 4б

Какой объем выборки необходим для того, чтобы оценить соотношение полов

в популяции благородного оленя с точностью 2% (то есть d = 0.02)? Ожидаемая доля самцов Р = 0.40.
По формуле (N = tα*2*P*(1 – P) / d2) находим N = 2 * 2 * 0.40 * (1 – 0.40) / 0.022 ≈ 2400 особей.
При повышении требований к точности оценки величина выборки стремительно возрастает!
Слайд 34

Если объем генеральной совокупности известен, объем выборки можно скорректировать по формуле:

Если объем генеральной совокупности известен, объем выборки можно скорректировать по формуле:

NG = N / [1 + (N / G)]
Если объем исследуемой генеральной совокупности не превышает 4000, такая коррекция позволяет существенно уменьшить объем выборки.

Поправка на размер генеральной совокупности

Слайд 35

Пример 4в Какой объем выборки необходим для того, чтобы оценить соотношение

Пример 4в

Какой объем выборки необходим для того, чтобы оценить соотношение полов

в популяции благородного оленя с точностью 2% (то есть d = 0.02)? Ожидаемая доля самцов Р = 0.40. Популяция насчитывает 1500 особей.
Расчет для бесконечной популяции (пример 4б): N ≈ 2400 особей.
По формуле (NG = N / [1 + (N / G)]) вводим поправку на размер популяции: NG = 2400 / (1 + 2400 / 1500) = 923,08.
Слайд 36

Пример 4в Какой объем выборки необходим для того, чтобы оценить соотношение

Пример 4в

Какой объем выборки необходим для того, чтобы оценить соотношение полов

в популяции благородного оленя с точностью 2% (то есть d = 0.02)? Ожидаемая доля самцов Р = 0.40. Популяция насчитывает 1500 особей
Расчет для бесконечной популяции (пример 4б): N ≈ 2400 особей.
По формуле (NG = N / [1 + (N / G)]) вводим поправку на размер популяции: NG = 2400 / (1 + 2400 / 1500) = 923,08.
Слайд 37

Дискретная изменчивость: распределение Пуассона Распределение Пуассона – это случайное распределение редких

Дискретная изменчивость: распределение Пуассона

Распределение Пуассона – это случайное распределение редких событий.


Например, число яиц в кладке и число особей фитофага на растении часто описываются распределением Пуассона.
Слайд 38

Объем выборки вычисляется по формуле: N = (100*tα)2 / (r2 *

Объем выборки вычисляется по формуле:
N = (100*tα)2 / (r2

* mean)
В этом случае r – заданная исследователем относительная ошибка, то есть величина доверительного интервала, выраженная в процентах от среднего значения. Упрощая, для α = 0.05 получим:
для точности ± 5% N ≈ 1600 / mean,
для точности ± 10% N ≈ 400 / mean,
для точности ± 25% N ≈ 64 / mean,
для точности ± 50% N ≈ 16 / mean.

Дискретная изменчивость: распределение Пуассона

Слайд 39

Пример 5 Известно, что число яиц в кладке большой синицы составляет

Пример 5

Известно, что число яиц в кладке большой синицы составляет в

среднем 6 и подчиняется распределению Пуассона. Сколько кладок нужно учесть, чтобы оценить среднее значение с точностью 5%?
По формуле [N = (100*tα)2 / (r2 * mean)] получаем: N = (100*2)2 / (52 * 6) = 266.67 кладок.
Слайд 40

Пример 5 Известно, что число яиц в кладке большой синицы составляет

Пример 5

Известно, что число яиц в кладке большой синицы составляет в

среднем 6 и подчиняется распределению Пуассона. Сколько кладок нужно учесть, чтобы оценить среднее значение с точностью 5%?
По формуле [N = (100*tα)2 / (r2 * mean)] получаем: N = (100*2)2 / (52 * 6) = 266.67 кладок.
Слайд 41

Дискретная изменчивость: негативное биномиальное распределение Негативное биномиальное распределение (в отличие от

Дискретная изменчивость: негативное биномиальное распределение

Негативное биномиальное распределение (в отличие от распределения

Пуассона) описывает распределение особей в выборке в том случае, когда особи тяготеют друг к другу (скученное распределение).
Слайд 42

Расчет объема выборки требует знания не только среднего значения, но и

Расчет объема выборки требует знания не только среднего значения, но и

коэффициента k, который либо определяется из небольшой выборки, либо оценивается, исходя из других работ.
N = (1/mean + 1/k) (100*tα)2 / r2
Упрощая, для α = 0.05 получим:
для точности ± 5% N ≈ 1600 (1/mean + 1/k),
для точности ± 10% N ≈ 400 (1/mean + 1/k),
для точности ± 25% N ≈ 64 (1/mean + 1/k),
для точности ± 50% N ≈ 16 (1/mean + 1/k).

Дискретная изменчивость: негативное биномиальное распределение

Слайд 43

Пример 6 Известно что распределение гороховой тли по стеблям гороха описывается

Пример 6

Известно что распределение гороховой тли по стеблям гороха описывается негативной

биномиальной моделью. Среднее число особей равно 3.46, коэффициент k = 2.65. Сколько стеблей нужно обследовать, чтобы оценить среднее значение плотности популяции вредителя с точностью ±15%?
По формуле [N = (1/mean + 1/k) (100*tα)2 / r2] получим: N = (1 / 3.46 + 1 / 2.65) (100*2)2 / 152 = 118.47 растений.
На практике лучше учесть 125 растений.
Слайд 44

Пример 6 Известно что распределение гороховой тли по стеблям гороха описывается

Пример 6

Известно что распределение гороховой тли по стеблям гороха описывается негативной

биномиальной моделью. Среднее число особей равно 3.46, коэффициент k = 2.65. Сколько стеблей нужно обследовать, чтобы оценить среднее значение плотности популяции вредителя с точностью ±15%?
По формуле [N = (1/mean + 1/k) (100*tα)2 / r2] получим: N = (1 / 3.46 + 1 / 2.65) (100*2)2 / 152 = 118.47 растений.
На практике лучше учесть 125 растений.
Слайд 45

Важность априорной информации Если мы неправильно определим тип распределения, ошибка в

Важность априорной информации

Если мы неправильно определим тип распределения, ошибка в оценке

объема выборки может оказаться весьма существенной.
Например, если мы ошибочно решим, что распределение тли (Пример 6) описывается моделью Пуассона, мы получим объем выборки 51 растение.
Слайд 46

Нахождение редко встречающегося объекта Если ожидаемая частота проявления признака равна Р,

Нахождение редко встречающегося объекта

Если ожидаемая частота проявления признака равна Р, то

объем выборки, в которой с вероятностью (1 - α) встретится хотя бы одна особь с заданным значением признака, может быть рассчитан по формуле:
N = log(1- α) / log(1 – P)
Объемы выборок для разных частот изучаемого признака при трех уровнях значимости сведены в таблицу.
Слайд 47

Объем выборки для нахождения редко встречающегося объекта

Объем выборки для нахождения редко встречающегося объекта

Слайд 48

Пример 7 На основании исследования 124 павианов (Wiener & Moor-Jankowski, 1969)

Пример 7

На основании исследования 124 павианов (Wiener & Moor-Jankowski, 1969) был

сделан вывод об отсутствии у павианов особей с группой крови 0. Правомерен ли этот вывод?
Из Таблицы находим, что на уровне значимости 0.99 данная выборка позволяет сделать вывод лишь о том, что в исследованной популяции частота особей с группой крови 0 не превышает 4%.
Действительно, при увеличении объема выборки до 684 особей авторы обнаружили несколько особей с группой крови 0; частота этого признака оказалась около 1%.
Слайд 49

Пример 7 На основании исследования 124 павианов (Wiener & Moor-Jankowski, 1969)

Пример 7

На основании исследования 124 павианов (Wiener & Moor-Jankowski, 1969) был

сделан вывод об отсутствии у павианов особей с группой крови 0. Правомерен ли этот вывод?
Из Таблицы находим, что на уровне значимости 0.99 данная выборка позволяет сделать вывод лишь о том, что в исследованной популяции частота особей с группой крови 0 не превышает 4%.
Действительно, при увеличении объема выборки до 684 особей авторы обнаружили несколько особей с группой крови 0; частота этого признака оказалась около 1%.
Слайд 50

Специальные методы Метод повторного отлова меченых особей. Трансектные учеты. И многие,

Специальные методы

Метод повторного отлова меченых особей.
Трансектные учеты.
И многие, многие другие.
Некоторые описаны

в учебнике: Ch.J.Krebs. Ecological methodology (любое издание).
Читайте специальную литературу!
Слайд 51

Последовательное увеличение объема выборки В некоторых ситуациях ни один из описанных

Последовательное увеличение объема выборки

В некоторых ситуациях ни один из описанных выше

методов не может быть применен – из-за сложного плана эксперимента либо отсутствия информации о типе и параметрах изучаемого распределения.
В этом случае возможен последовательный сбор данных с расчетом выборочных параметров после каждого следующего этапа сбора информации.
Решение о прекращении сбора материала принимается, когда доверительный интервал достигнет размера, достаточного для проводимого исследования.

Учет деревьев красной ольхи проводили на квадратах размером 2 х 2 м; 95% интервал подсчитывали после подсчета каждых 10 квадратов (из Krebs 1989).

Слайд 52

Это полезно запомнить… Для расчета объема выборки при измере-нии некоего параметра

Это полезно запомнить…

Для расчета объема выборки при измере-нии некоего параметра необходимо

знать:
Тип распределения, которому подчиняется исследуемая величина;
Приближенные оценки характеристик распределения (зависят от типа распределения).
Для расчета объема выборки необходимо задать:
Абсолютную либо относительную точность оценки интересующего нас параметра.
Слайд 53

Структура второй части Определение объема выборки: При корреляционном анализе; При сравнении

Структура второй части

Определение объема выборки:
При корреляционном анализе;
При сравнении двух средних значений

нормально распределенного признака;
При сравнении двух процентных соотношений;
При сравнении видового разнообразия двух сообществ;
При дисперсионном анализе.
Это полезно запомнить…
Слайд 54

Определение объема выборки Для оценки некоего параметра с заданной точностью (1-я

Определение объема выборки

Для оценки некоего параметра с заданной точностью (1-я часть

лекции).
Для проверки статистической гипотезы при заданных (2-я часть лекции):
вероятности ошибки первого рода (α);
силе анализа (1-β);
величине эффекта (заданной в абсолютных либо относительных величинах).
Слайд 55

Выбор величины эффекта Определение величины эффекта, который исследователь планирует обнаружить, –

Выбор величины эффекта

Определение величины эффекта, который исследователь планирует обнаружить, – задача

экологическая, а не статистическая.
Для разных исследований величины эффектов могут сильно различаться.
Помимо научных аспектов, всегда следует принимать во внимание ответственность решений, которые могут основываться на ваших данных.
Слайд 56

Тестирование гипотез: корреляционный анализ Если задана сила анализа, можно определить объем

Тестирование гипотез: корреляционный анализ

Если задана сила анализа, можно определить объем выборки,

необходимой для корректного отклонения ошибочной гипотезы Н0: r = 0 при достижении коэффициентом корреляции некоторой фиксированной величины r0:
N = [(Zβ + Zα) / z0]2 + 3
Слайд 57

Пример 8 Какой объем выборки необходим для того, чтобы отклонить гипотезу

Пример 8

Какой объем выборки необходим для того, чтобы отклонить гипотезу Н0:

r = 0 с вероятностью 99% в случае, если абсолютное значение коэффициента корреляции достигнет 0.5?
N = [(Zβ + Zα) / z0]2 + 3
Из таблицы: r = 0.5 ? z0 = 0.5493.
Из таблицы: α = 0.05 ? Zα = 1.9600.
Из таблицы: β = 0.01 ? : Zβ = 2.3263.
N = [(2.3263 + 1.9600) / 0.5493]2 + 3 = 63.9.
Вывод: сила анализа достигнет 99% при использовании выборки объемом 64 объекта.
Слайд 58

Пример 8 Какой объем выборки необходим для того, чтобы отклонить гипотезу

Пример 8

Какой объем выборки необходим для того, чтобы отклонить гипотезу Н0:

r = 0 с вероятностью 99% в случае, если абсолютное значение коэффициента корреляции достигнет 0.5?
N = [(Zβ + Zα) / z0]2 + 3
Из таблицы: r0 = 0.5 ? z0 = 0.5493.
Из таблицы: α = 0.05 ? Zα = 1.9600.
Из таблицы: β = 0.01 ? : Zβ = 2.3263.
N = [(2.3263 + 1.9600) / 0.5493]2 + 3 = 63.9.
Вывод: сила анализа достигнет 99% при использовании выборки объемом 64 объекта.
Слайд 59

Сетевой калькулятор (http://power.phs.wfubmc.edu/index.cfm?calc=cor)

Сетевой калькулятор (http://power.phs.wfubmc.edu/index.cfm?calc=cor)

Слайд 60

Сетевой калькулятор (http://power.phs.wfubmc.edu/index.cfm?calc=cor)

Сетевой калькулятор (http://power.phs.wfubmc.edu/index.cfm?calc=cor)

Слайд 61

Пример 9: Практическая задача Изучаем зависимость длины хвои сосны обыкновенной от

Пример 9: Практическая задача

Изучаем зависимость длины хвои сосны обыкновенной от расстояния

до промышленного предприятия.
Будем использовать корреляционный анализ.
Сколько пробных площадей (одна ПП = одно расстояние до источника выбросов) необходимо заложить?
Слайд 62

Пример 9: Решение Н0: r = 0 H1: r = 0.4

Пример 9: Решение

Н0: r = 0
H1: r = 0.4 (из обзора

литературы)
α = 0.05, β = 0.20
N = 46
α = 0.01, β = 0.20
N = 68
α = 0.01, β = 0.20
N = 98
Слайд 63

Пример 9: Решение Н0: r = 0 (длина хвои не зависит

Пример 9: Решение

Н0: r = 0 (длина хвои не зависит от

расстояния до завода)
H1: r = 0.4 (из обзора литературы)
α = 0.05, β = 0.20
N = 46
α = 0.01, β = 0.20
N = 68
α = 0.01, β = 0.20
N = 98
Слайд 64

Пример 9: Решение Н0: r = 0 H1: r = 0.4

Пример 9: Решение

Н0: r = 0
H1: r = 0.4 (слабый эффект;

из обзора литературы)
α = 0.05, β = 0.20
N = 46
α = 0.01, β = 0.20
N = 68
α = 0.01, β = 0.20
N = 98
Слайд 65

Пример 9: Решение Н0: r = 0 H1: r = 0.4

Пример 9: Решение

Н0: r = 0
H1: r = 0.4
α = 0.05,

β = 0.20
N = 46
α = 0.01, β = 0.20
N = 68
α = 0.01, β = 0.20
N = 98
Слайд 66

Пример 9: Решение Н0: r = 0 H1: r = 0.4

Пример 9: Решение

Н0: r = 0
H1: r = 0.4
α = 0.05,

β = 0.20
N = 46
α = 0.01, β = 0.20
N = 68
α = 0.01, β = 0.20
N = 98
Слайд 67

Пример 9: Решение Н0: r = 0 H1: r = 0.4

Пример 9: Решение

Н0: r = 0
H1: r = 0.4
α = 0.05,

β = 0.20
N = 46
α = 0.01, β = 0.20
N = 68
α = 0.01, β = 0.20
N = 98
Слайд 68

Пример 9: Решение Н0: r = 0 H1: r = 0.4

Пример 9: Решение

Н0: r = 0
H1: r = 0.4
α = 0.05,

β = 0.20
N = 46
α = 0.01, β = 0.20
N = 68
α = 0.01, β = 0.05
N = 98
Слайд 69

Если задана сила анализа, можно определить объем выборки, необходимой для корректного

Если задана сила анализа, можно определить объем выборки, необходимой для корректного

отклонения ошибочной гипотезы Н0: r1 = r2 при заданном уровне значимости α:
N = 2*[(Zβ + Zα) / (z1 – z2)]2 + 3

Тестирование гипотез: сравнение двух коэффициентов корреляции

Слайд 70

Пример 10 Какой объем выборки позволит с вероятностью 90% обнаружить различия

Пример 10

Какой объем выборки позволит с вероятностью 90% обнаружить различия между

коэффициен-тами корреляции 0.84 и 0.78 при тестировании гипотезы Н0: r1 = r2 на 5% уровне значимости?
Из Таблицы по величинам r1 и r2 находим z1 = 1.2221, z2 = 1.0454.
Значения Zα и Zβ определяем из Таблицы по α = 0.05 и β = 0.10: Zα = 1.9600, Zβ = 1.2816.
Рассчитываем N =2*[(1.2816 + 1.9600) / 0.1767]2 + 3 = 676.09.
Вывод: сила анализа достигнет 90% при использовании выборки объемом 676 объектов для определения каждого из двух коэффициентов корреляции.
Слайд 71

Пример 10 Какой объем выборки позволит с вероятностью 90% обнаружить различия

Пример 10

Какой объем выборки позволит с вероятностью 90% обнаружить различия между

коэффициен-тами корреляции 0.84 и 0.78 при тестировании гипотезы Н0: r1 = r2 на 5% уровне значимости?
Из Таблицы по величинам r1 и r2 находим z1 = 1.2221, z2 = 1.0454.
Значения Zα и Zβ определяем из Таблицы по α = 0.05 и β = 0.10: Zα = 1.9600, Zβ = 1.2816.
Рассчитываем N =2*[(1.2816 + 1.9600) / 0.1767]2 + 3 = 676.09.
Вывод: сила анализа достигнет 90% при использовании выборки объемом 676 объектов для определения каждого из двух коэффициентов корреляции.
Слайд 72

Выполнены условия для использования критерия Стьюдента: Репрезентативные выборки случайным образом взяты

Выполнены условия для использования критерия Стьюдента:
Репрезентативные выборки случайным образом взяты из

сравниваемых генеральных совокупностей.
Сравниваемые выборки независимы.
Наблюдения в пределах каждой выборки независимы.
Распределения признаков не отличаются от нормального.
Дисперсия признаков в сравниваемых генеральных совокупностях одинакова.

Тестирование гипотез: сравнение двух средних значений параметра

Слайд 73

Выполнены условия для использования критерия Стьюдента. Заданы: минимальная величина различий, которую

Выполнены условия для использования критерия Стьюдента.
Заданы:
минимальная величина различий, которую необходимо выявить

(D);
допустимые вероятности ошибок как первого (α), так и второго (β) рода.
D = |Xmax – Xmin| / σ

Тестирование гипотез: сравнение двух средних значений параметра

Слайд 74

Слайд 75

Формула для приблизительной оценки: N = 2 *(Zα + Zβ)2 /

Формула для приблизительной оценки:
N = 2 *(Zα + Zβ)2 /

D2
Zα = 1.96 при α = 0.05
Zα = 2.58 при α = 0.01
Zβ = 2.58 при β = 0.001
Zβ = 2.33 при β = 0.01
Zβ = 1.64 при β = 0.05
Zβ = 1.28 при β = 0.10
Zβ = 0.84 при β = 0.20
Zβ = 0.25 при β = 0.40

Тестирование гипотез: сравнение двух средних значений параметра

Слайд 76

Пример 11 Выборки какого объема необходимы для того, чтобы обнаружить различия

Пример 11

Выборки какого объема необходимы для того, чтобы обнаружить различия в

длине листа, превышающие 3.0 мм, между двумя популяциями березы? (α = 0.05, β = 0.20, σ = 7.4 мм).
D = 3.0 мм / 7.4 мм = 0.41.
Из таблицы определяем объем выборки: нужно измерить 100 листьев с каждого дерева.
Слайд 77

Пример 11 Выборки какого объема необходимы для того, чтобы обнаружить различия

Пример 11

Выборки какого объема необходимы для того, чтобы обнаружить различия в

длине листа, превышающие 3.0 мм, между двумя популяциями березы? (α = 0.05, β = 0.20, σ = 7.4 мм).
D = 3.0 мм / 7.4 мм = 0.41.
Из таблицы определяем объем выборки: нужно измерить 100 листьев с каждого дерева.
Слайд 78

Слайд 79

Пример 11 Выборки какого объема необходимы для того, чтобы обнаружить различия

Пример 11

Выборки какого объема необходимы для того, чтобы обнаружить различия в

длине листа, превышающие 3.0 мм, между двумя популяциями березы? (α = 0.05, β = 0.20, σ = 7.4 мм).
D = 3.0 мм / 7.4 мм = 0.41
Из таблицы определяем объем выборки: нужно измерить листья у 100 берез из каждой популяции.
Слайд 80

Пример 11 Выборки какого объема необходимы для того, чтобы обнаружить различия

Пример 11

Выборки какого объема необходимы для того, чтобы обнаружить различия в

длине листа, превышающие 3.0 мм, между двумя популяциями березы? (α = 0.05, β = 0.20, σ = 7.4 мм).
D = 3.0 мм / 7.4 мм = 0.41.
N = 2 *(Zα + Zβ)2 / D2
Zα = 1.96 при α = 0.05
Zβ = 0.84 при β = 0.20
N = 2 *(1.96 + 0.84)2 / 0.412 = 93 дерева.
Слайд 81

Сетевой калькулятор:

Сетевой калькулятор:

Слайд 82

Сетевой калькулятор:

Сетевой калькулятор:

Слайд 83

Когда нас не интересует, в какую сторону экспериментальное значение отклоняется от

Когда нас не интересует, в какую сторону экспериментальное значение отклоняется от

контрольного (то есть будет ли оно больше или меньше), применяются two-tailed методы проверки гипотезы (первая таблица).
Когда нас интересуют только случаи превышения контрольного значения (типичный пример – повышение урожайности), можно использовать one-tailed методы (вторая таблица).

Одно- и двухсторонние тесты

Слайд 84

Строки таблицы соответствуют меньшей из двух сравниваемых величин, столбцы – разнице

Строки таблицы соответствуют меньшей из двух сравниваемых величин, столбцы – разнице

между большей и меньшей величинами.
Для величин, превышающих 50%, следует использовать обратное значение, то есть значение, полученное вычитанием заданной величины из 100% (заменять 30% на 70%).

Тестирование гипотез: сравнение двух процентных соотношений

Слайд 85

Число повторностей (в каждой из двух выборок), необходимых для сравнения двух

Число повторностей (в каждой из двух выборок), необходимых для сравнения двух

процентных соотношений
Two-tailed test.
Три строки соответствуют:
α = 0.05, β = 0.20;
α = 0.05, β = 0.10;
α = 0.01, β = 0.05.
Слайд 86

Число повторностей (в каждой из двух выборок), необходимых для сравнения двух

Число повторностей (в каждой из двух выборок), необходимых для сравнения двух

процентных соотношений
One-tailed test.
Три строки соответствуют:
α = 0.05, β = 0.20;
α = 0.05, β = 0.10;
α = 0.01, β = 0.05.
Слайд 87

Пример 12 Применяемое лекарство помогает 30% пациентов. Новое лекарство, которое сравнивается

Пример 12

Применяемое лекарство помогает 30% пациентов. Новое лекарство, которое сравнивается со

старым, должно помогать как минимум 40% пациентов для того, чтобы его имело смысл внедрять в клиническую практику. α = 0.05, 1 – β = 0.80. Сколько пациентов должно участвовать в эксперименте?
Меньшая из сравниваемых величин = 30%, минимальная разница 40% - 30% = 10%.
Поскольку новое лекарство может оказаться хуже старого, применяем two-tailed тест.
Каждая выборка должна включать 360 пациентов, то есть всего в эксперименте должны участвовать 720 пациентов.
Слайд 88

Пример 12 Применяемое лекарство помогает 30% пациентов. Новое лекарство, которое сравнивается

Пример 12

Применяемое лекарство помогает 30% пациентов. Новое лекарство, которое сравнивается со

старым, должно помогать как минимум 40% пациентов для того, чтобы его имело смысл внедрять в клиническую практику. α = 0.05, 1 – β = 0.80. Сколько пациентов должно участвовать в эксперименте?
Меньшая из сравниваемых величин = 30%, минимальная разница 40% - 30% = 10%.
Поскольку новое лекарство может оказаться хуже старого, применяем two-tailed тест.
Каждая выборка должна включать 360 пациентов, то есть всего в эксперименте должны участвовать 720 пациентов.
Слайд 89

Число повторностей (в каждой из двух выборок), необходимых для сравнения двух

Число повторностей (в каждой из двух выборок), необходимых для сравнения двух

процентных соотношений
Two-tailed test.
Три строки соответствуют:
α = 0.05, β = 0.20;
α = 0.05, β = 0.10;
α = 0.01, β = 0.05.
Слайд 90

Пример 12 Применяемое лекарство помогает 30% пациентов. Новое лекарство, которое сравнивается

Пример 12

Применяемое лекарство помогает 30% пациентов. Новое лекарство, которое сравнивается со

старым, должно помогать как минимум 40% пациентов для того, чтобы его имело смысл внедрять в клиническую практику. α = 0.05, 1 – β = 0.80. Сколько пациентов должно участвовать в эксперименте?
Меньшая из сравниваемых величин = 30%, минимальная разница 40% - 30% = 10%.
Поскольку новое лекарство может оказаться хуже старого, применяем two-tailed тест.
Каждая выборка должна включать 360 пациентов, то есть всего в эксперименте должны участвовать 720 пациентов.
Слайд 91

С использованием калькулятора:

С использованием калькулятора:

Слайд 92

С использованием калькулятора:

С использованием калькулятора:

Слайд 93

Как правило, сравниваемые сообщества отличаются не только видовым богатством, но и

Как правило, сравниваемые сообщества отличаются не только видовым богатством, но и

обилием особей.
Сравнение видового разнообразия двух и более сообществ предъявляет специальные требования к объему выборок.

Тестирование гипотез: сравнение количества видов в двух фаунах

Слайд 94

Известно, что плотность популяций мелких млекопитающих уменьшается при приближении к источнику

Известно, что плотность популяций мелких млекопитающих уменьшается при приближении к источнику

загрязнения.
Равные усилия по сбору материала (1000 ловушко-суток) привели к следующим результатам: 7 особей 1 вида в «грязном» биотопе и 88 особей 6 видов в «чистом» биотопе.
Правомерен ли вывод о более низком видовом разнообразии мелких млекопитающих в «грязном» биотопе?
Для обоснованного ответа не хватает данных.

Тестирование гипотез: сравнение количества видов в двух фаунах

Слайд 95

Известно, что плотность популяций мелких млекопитающих уменьшается при приближении к источнику

Известно, что плотность популяций мелких млекопитающих уменьшается при приближении к источнику

загрязнения.
Равные усилия по сбору материала (1000 ловушко-суток) привели к следующим результатам: 7 особей 1 вида в «грязном» биотопе и 88 особей 6 видов в «чистом» биотопе.
Правомерен ли вывод о более низком видовом разнообразии мелких млекопитающих в «грязном» биотопе?
Для обоснованного ответа не хватает данных.

Тестирование гипотез: сравнение количества видов в двух фаунах

Слайд 96

Связь количества видов с объемом выборки Количество особей (объем выборки) Количество видов

Связь количества видов с объемом выборки

Количество особей (объем выборки)

Количество видов


Слайд 97

Сравнение числа видов в выборках разного объема не может использоваться для

Сравнение числа видов в выборках разного объема не может использоваться для

выводов о видовом разнообразии двух сообществ.
При существенной разнице в обилии необходимо прилагать бóльшие усилия для сбора материала в сообществе с меньшим обилием.

Тестирование гипотез: сравнение количества видов в двух фаунах

Слайд 98

Для сравнения оценок видового разнообразия используют метод «разреживания» (rarefaction). Метод рассчитывает

Для сравнения оценок видового разнообразия используют метод «разреживания» (rarefaction).
Метод рассчитывает среднее

количество видов (± ошибка) в случайной выборке, состоящей из фиксированного числа особей (меньшего, чем реально собранное).
Исходные данные – количество особей каждого из видов.

Тестирование гипотез: сравнение количества видов в двух фаунах

Слайд 99

Равные усилия по сбору материала (1000 ловушко-суток) привели к следующим результатам:

Равные усилия по сбору материала (1000 ловушко-суток) привели к следующим результатам:

7 особей 1 вида в «грязном» биотопе и 88 особей 6 видов (66+10+7+3+1+1) в «чистом» биотопе.
http://biome.sdsu.edu/fastgroup/cal_tools.htm
http://www2.biology.ualberta.ca/jbrzusto/rarefact.php#Calculator
В случайной выборке из 7 особей будет 2.42 ± 0.31 видов.
CI95 = 1.8 … 3.0 видов.
Значение 1 вид не попадает в CI95; значит, разнообразие действительно уменьшилось.

Тестирование гипотез: сравнение количества видов в двух фаунах

Слайд 100

Сравнение количества видов в двух фаунах Насколько мне известно, методы для

Сравнение количества видов в двух фаунах

Насколько мне известно, методы для определения

объема выборок не разработаны.
Можно предложить следующий алгоритм:
Задаем величину эффекта, то есть разницу в количестве видов, которую мы хотим выявить.
Из самого богатого фаунистического списка (в котором для каждого вида приведено количество особей) удаляем (случайным образом) заданное количество видов.
Строим кривые разрежения для выборок разного объема, включая доверительные интервалы для заданной величины σ.
Слайд 101

Сравнение количества видов в двух фаунах Количество особей в выборке Количество

Сравнение количества видов в двух фаунах

Количество особей в выборке

Количество видов в

выборке

Выбираем минимальный объем
выборки, при котором доверительные
интервалы не перекрываются.

Слайд 102

Определение объема выборок (n, число повторностей в каждой из сравниваемых k

Определение объема выборок (n, число повторностей в каждой из сравниваемых k

групп) методом последовательных приближений возможно, если заданы:
k, число сравниваемых групп;
D, минимальное абсолютное различие между средними значениями, которое мы намереваемся обнаружить
среднеквадратичное отклонение σ (изменчивость внутри каждой из сравниваемых групп
α, уровень значимости;
1 – β, сила анализа.

Тестирование гипотез: дисперсионный анализ

Слайд 103

Выбирают номограмму (по числу сравниваемых групп); Выбирают примерное значение n0; Из

Выбирают номограмму (по числу сравниваемых групп);
Выбирают примерное значение n0;
Из номограммы (по

α и 1-β) определяют коэффициент Ф;
Рассчитывают n1 = (2k*Ф2*σ2)/D2;
При существенном различии между n0 и n1 процедуру повторяют.

Тестирование гипотез: дисперсионный анализ

Слайд 104

Пример 13 Мы планируем выявить различия в годичном приросте побега 2го

Пример 13

Мы планируем выявить различия в годичном приросте побега 2го порядка

сосны обыкновенной при различных уровнях изъятия хвои текущего года.
Мы сравниваем 5 уровней повреждения и контроль.
Мы хотим выявить различия, превышающие 10 мм.
Известно, что σ = 100.
α = 0.05, β = 0.20
Определить минимально необходимое количество особей сосны в каждой группе.
Слайд 105

Выбрали номограмму v1 = число сравниваемых групп минус один. n0=10 (интуитивный выбор) Ф ≈ 1.9

Выбрали номограмму

v1 = число сравниваемых групп минус один.

n0=10 (интуитивный выбор)

Ф ≈

1.9
Слайд 106

Пример 13 n0 = 10 Ф = 1.9 N1 = 43

Пример 13

n0 = 10
Ф = 1.9
N1 = 43
43 >> 10, продолжаем

подбор.
n0 = 20
Ф = 1.7
N1 = 35
35 >> 20, продолжаем подбор.
n0 = 30
Ф = 1.6
N1 = 31
31 ≈ 30, подбор завершен.