Увеличения точности прогнозирования событий на Титанике

Содержание

Слайд 2

Блок импорта библиотек В исследуемом коде были выбраны основные библиотеки Данную часть кода оставляем без изменений

Блок импорта библиотек

В исследуемом коде были выбраны основные библиотеки

Данную часть

кода оставляем без изменений
Слайд 3

Блок импорта данных В данном блоке импортируются файлы для обучения и

Блок импорта данных

В данном блоке импортируются файлы для обучения и тестирования

системы, а также эти данные объединяются в один фрейм данных для удобной работы с отсутствующими данными.
Слайд 4

Представление данных Отобразим данные при помощи команды head(), и определим количество

Представление данных

Отобразим данные при помощи команды head(), и определим количество заполненных

ячеек в столбцах при помощи команды info() и isna().sum().
Слайд 5

Заполнение столбца AGE При помощи команды fillna() в строке возраста заполняем

Заполнение столбца AGE

При помощи команды fillna() в строке возраста заполняем пустые

строки (NaN) средневзвешенным значением:

Получаем заполненные ячейки средним значением между Полом и Классом пассажира

Слайд 6

Проверка заполнения столбца места отправления «Embarked»

Проверка заполнения столбца места отправления «Embarked»

Слайд 7

Проверка зависимости места отправки от пола Наиболее распространённое место отправки для

Проверка зависимости места отправки от пола

Наиболее распространённое место отправки для женщин

и мужчин является «S» Саутге́мптон
Слайд 8

Заполнение пустых ячеек в столбце Места отправки Заполняем место отправки самым распространенным

Заполнение пустых ячеек в столбце Места отправки

Заполняем место отправки самым

распространенным
Слайд 9

Проверка заполнения столбца пассажирской оплаты «Fare» И заполняем средним значением по

Проверка заполнения столбца пассажирской оплаты «Fare»

И заполняем средним значением по 3

Pclass’у для нашего пустого значения
Слайд 10

Проверка пустых ячеек

Проверка пустых ячеек

Слайд 11

Исключаем из фрейма данных столбцы которые не имеют информативности

Исключаем из фрейма данных столбцы которые не имеют информативности

Слайд 12

Для повышения эффективности прогноза представим столбцы Пола и места отправки в

Для повышения эффективности прогноза представим столбцы Пола и места отправки в

виде 0 и 1 в исследуемом исходном коде днанная процедура не выполнялась
Слайд 13

Проведем корреляционный анализ Определяем что столбцы "Pclass", "Fare", "Sex_female", "Sex_male", "Embarked_C",

Проведем корреляционный анализ

Определяем что столбцы "Pclass", "Fare", "Sex_female", "Sex_male", "Embarked_C",

"Embarked_Q", "Embarked_S” имеют зависимость с Survived
Слайд 14

Производим выбор столбцов для обучения и тестирования системы В примере не

Производим выбор столбцов для обучения и тестирования системы

В примере не был

произведен корреляционный анализ и выраны лишь столбцы "Pclass", "Age "

После проведения корреляции определены столбцы которые добавлены в обучающую и тестовые выборки

Слайд 15

Проводим проверку метрики при помощи различных алгоритмов машинного обучения Разница в наилучшем результате более 7 процентов

Проводим проверку метрики при помощи различных алгоритмов машинного обучения

Разница в наилучшем

результате более 7 процентов
Слайд 16

Производим выбор наилучшего алгоритма для прогноза и получаем выходной файл с

Производим выбор наилучшего алгоритма для прогноза и получаем выходной файл с

прогнозом

В примере был выбран алгоритм случайного леса в моем случае выбрано дерево решений