Основы статистики. Магия цифр: когда стоит сомневаться в статистике?

Содержание

Слайд 2

КЕЙС 1

КЕЙС 1

Слайд 3

Статья о новом вирусе, появившемся в Интернете и замедляющем работу браузеров,

Статья о новом вирусе, появившемся в Интернете и замедляющем работу браузеров,

а также отправку электронных сообщений во всем мире. Сколько компьютеров были им поражены? Эксперты, слова которых приводятся в статье, утверждают, что зараженными оказались 39 тыс. компьютеров, что повлияло еще на сотни тысяч других систем.
Слайд 4

Но откуда они взяли это число? Разве его так просто определить?

Но откуда они взяли это число? Разве его так просто определить?

Неужели были проверены все имеющиеся компьютеры, чтобы установить, не заражены ли они? Тот факт, что статья была написана менее чем через сутки после атаки, наталкивает на мысль, то приводимая цифра — это предположение. Тогда почему же не сказать не 39, а 40 тыс.?
Слайд 5

КЕЙС 2

КЕЙС 2

Слайд 6

Статья об уровне освоения земель и торговле земельными участками в стране.

Статья об уровне освоения земель и торговле земельными участками в стране.

Учитывая количество зданий, которые, скорее всего, будут построены в данной местности, это очень важный вопрос. Приводятся статистические данные, касающиеся акров пахотной земли, которая ежегодно теряется из-за застройки, и все это превращается в квадратные мили. В качестве дополнительной иллюстрации того, как много земли теряется, эта площадь представлена также в соответствующем количестве футбольных полей. В этом конкретном случае эксперты отмечают, что в центре штата Огайо в год теряется 150 тыс. акров земли, что составляет 234 квадратные мили или 115 385 футбольных полей (включая зону защиты). Но как были получены эти цифры и насколько они точны? И неужели проще представить количество потерянной земли с помощью футбольных полей?
Слайд 7

Но как были получены эти цифры и насколько они точны? И

Но как были получены эти цифры и насколько они точны? И

неужели проще представить количество потерянной земли с помощью футбольных полей?
Слайд 8

КЕЙС 3

КЕЙС 3

Слайд 9

Статья о возрастающем количестве аварий на мотоциклах с 1997 года это

Статья о возрастающем количестве аварий на мотоциклах
с 1997 года это число

увеличилось более чем на 50%, и никто не может объяснить причину.
Статистика приводит следующий интересный факт: в 1997 году погибло 2 116 мотоциклистов, в 2001 году погибших было 3 181, как показывают данные Национальной администрации безопасности дорожного движения (НАБДД).
В статье рассматриваются многие возможные причины увеличения количества смертей, в том числе и тот факт, что сегодня мотоциклисты стали старше (средний возраст погибших мотоциклистов увеличился с 29,3 года в 1990 году до 36,3 лет в 2001 году). Еще одно из возможных объяснений — увеличение размеров мотоциклов. Размер двигателя среднего мотоцикла вырос почти на 25% — с 769 см3 в 1990 году до 959 см3 в 2001 году.
Дополнительный вариант — это тот факт, что некоторые штаты США делают послабления в законе относительно ношения шлема. Специалисты, слова которых цитируются в статье, говорят, что необходимо более обширное изучение причин, но оно, вероятно, так и не будет проведено, потому что затраты на него составят от 2 до 3 млн. долл. При этом в статье ничего не говорится о количестве людей, которые ездят на мотоциклах, в 2001 и 1997 году. Естественно, что большее число людей на дорогах означает больше аварий, даже если все остальные факторы остаются прежними. Однако в статье приведен еще и график, отображающий количество смертей мотоциклистов на 100 млн. миль, которые были преодолены в США с 1997 по 2001 год. Касается ли это увеличения количества людей на дрогах? Здесь же приводится и столбиковая диаграмма, в которой сравниваются число смертей мотоциклистов с количеством людей, погибших в авариях на других видах транспорта. Из этой диаграммы видно, что уровень смертности мотоциклистов составляет 33,4 смерти на 100 млн. преодоленных миль по сравнению с показателем всего лишь в 1,7 на то же количество миль, преодоленных на машине.
Слайд 10

В этой статье множество цифр и самых разных статистических данных, но

В этой статье множество цифр и самых разных статистических данных, но

что все это значит? Объем и разнообразие статистических данных очень скоро может сбить с толку.
Слайд 11

Статья о последних исследованиях в сфере страхования врачей на случай судебного

Статья о последних исследованиях в сфере страхования врачей на случай судебного

преследования. Итак, насколько серьезна данная проблема? В статье сказано, что один из пяти врачей в штате Джорджия отказался от проведения опасных процедур (например, принятие родов) из-за постоянно растущих страховых ставок от судебного преследования в этом штате. Это описывается как “национальная эпидемия” и “кризис здравоохранения” в стране. Приводятся некоторые сведения об исследовании проблемы; в статье утверждается, что из 2200 врачей штата Джорджия, принявших участие в опросе, 2800 (которые, как говорится, составляют 18% от общего числа участников) скорее всего, откажутся от проведения рискованных процедур.
Слайд 12

Непонятна методология Используются метафоры Не соответствует математической логике Цифр много, но

Непонятна методология
Используются метафоры
Не соответствует математической логике
Цифр много, но они не

складываются в общую картинку
Слайд 13

Статистика на котиках

Статистика на котиках

Слайд 14

Мода — значение во множестве наблюдений, которое встречается наиболее часто. (Мода = типичность)

Мода — значение во множестве наблюдений,
которое встречается наиболее часто. (Мода = типичность)

Слайд 15

Слайд 16

Медиана — варианта, которая находится в середине вариационного ряда. Медиана делит ряд пополам

Медиана —  варианта, которая находится в середине вариационного ряда.
Медиана делит

ряд пополам
Слайд 17

Слайд 18

Среднее значение — некоторое число, заключённое между наименьшим и наибольшим из их значений

Среднее значение — некоторое число, заключённое между наименьшим и наибольшим из их

значений
Слайд 19

Слайд 20

Слайд 21

Отклонение – разность размера конкретного котика и типичного Барсика

Отклонение – разность размера конкретного котика и типичного Барсика

Слайд 22

Как понять, какое из отклонение нормально? Дисперсия – среднее от квадратов отклонений

Как понять, какое из отклонение нормально?
Дисперсия – среднее от квадратов отклонений

Слайд 23

Слайд 24

Слайд 25

Генеральная совокупность (от лат. generis — общий, родовой) — совокупность всех

Генеральная совокупность (от лат. generis — общий, родовой) — совокупность всех объектов (единиц), относительно

которых предполагается делать выводы при изучении конкретной задачи.
Слайд 26

Выборка — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой

Выборка — множество случаев (испытуемых, объектов, событий, образцов),
с помощью определённой процедуры

выбранных из генеральной совокупности для участия в исследовании.
Слайд 27

Слайд 28

Об опросе: Он состоялся 18 апреля методом телефонного интервью. В нем

Об опросе:
Он состоялся 18 апреля методом телефонного интервью. В нем приняли

участие 1,6 тысячи совершеннолетних россиян.
Слайд 29

А как это вы опросили 1,6 тысячи, а сделали выводы за всю Россию?

А как это вы опросили 1,6 тысячи, а сделали выводы за

всю Россию?
Слайд 30

Выборка будет репрезентативной при обследовании большой группы людей, если внутри этой

Выборка будет репрезентативной при обследовании большой группы людей, если внутри этой

группы есть представители разных подгрупп, только так можно сделать верные выводы.
Слайд 31

Слайд 32

Слайд 33

CША, выборы президента 1936 года Журнал «Литрери Дайджест», успешно прогнозировавший события

CША, выборы президента 1936 года

Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких

предшествующих выборов, ошибся в своих предсказаниях, разослав 10 млн пробных бюллетеней своим подписчикам, а также людям, выбранным по телефонным книгам всей страны и людям из регистрационных списков автомобилей. В 25 % вернувшихся бюллетеней (почти 2,5 миллиона) голоса были распределены следующим образом:
57 % голосов - кандидату-республиканцу Альфу Лэндону
40 % выбрали действующего в то время президента-демократа Франклина Рузвельта
Слайд 34

Слайд 35

победил Рузвельт, набрав более 60 % голосов.

победил Рузвельт, набрав более 60 % голосов.

Слайд 36

Ошибка «Литрери Дайджест»: желая увеличить репрезентативность выборки, — так как им

Ошибка «Литрери Дайджест»: желая увеличить репрезентативность выборки, — так как им было

известно, что большинство их подписчиков считают себя республиканцами, — они расширили выборку за счёт людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных им реалий и в действительности набрали ещё больше республиканцев: во время Великой Депрессии обладать телефонами и автомобилями могли себе позволить в основном представители среднего и высшего класса (то есть большинство республиканцев, а не демократов).
Слайд 37

во время Великой Депрессии обладать телефонами и автомобилями могли себе позволить

во время Великой Депрессии обладать телефонами и автомобилями могли себе позволить в

основном представители среднего и высшего класса (то есть большинство республиканцев, а не демократов).
Слайд 38

В городе пять школ. В таблице приведен средний балл, полученный выпускниками

В городе пять школ. В таблице приведен средний балл, полученный выпускниками

каждой из этих школ за экзамен по математике. Найдите средний балл выпускного экзамена по математике по всему городу? 
Слайд 39

Решение: Чтобы найти средний балл выпускного экзамена по математике по всему

Решение:
Чтобы найти средний балл выпускного экзамена по математике по всему городу,

нужно сложить баллы всех выпускников и поделить на общее количество выпускников.
1. Общее количество выпускников равно
60+70+30+50+70=280
2. Если умножить количество учеников в школе на средний балл по школе, то получиться сумма баллов в этой школе, а если сложить все такие произведения , то сумма всех баллов по городу равна
60 60+70 54+30 68+50 72+70 54=3600+3780+2040+3600+3780 = 16800
3. Средний балл по городу равен 16800:280=60
Ответ: 60.
Слайд 40

Слайд 41

Почему большинство телефонных опросов, касающихся доходов населения, можно считать нерепрезентативными?

Почему большинство телефонных опросов, касающихся доходов населения, можно считать нерепрезентативными?

Слайд 42

Слайд 43

Слайд 44

Слайд 45

Слайд 46