Увеличения точности прогнозирования событий на Титанике

Август 19, 2022

Главная
Информатика
Увеличения точности прогнозирования событий на Титанике

Содержание

2. Блок импорта библиотек В исследуемом коде были выбраны основные библиотеки Данную часть кода оставляем без изменений
3. Блок импорта данных В данном блоке импортируются файлы для обучения и тестирования системы, а также эти
4. Представление данных Отобразим данные при помощи команды head(), и определим количество заполненных ячеек в столбцах при
5. Заполнение столбца AGE При помощи команды fillna() в строке возраста заполняем пустые строки (NaN) средневзвешенным значением:
6. Проверка заполнения столбца места отправления «Embarked»
7. Проверка зависимости места отправки от пола Наиболее распространённое место отправки для женщин и мужчин является «S»
8. Заполнение пустых ячеек в столбце Места отправки Заполняем место отправки самым распространенным
9. Проверка заполнения столбца пассажирской оплаты «Fare» И заполняем средним значением по 3 Pclass’у для нашего пустого
10. Проверка пустых ячеек
11. Исключаем из фрейма данных столбцы которые не имеют информативности
12. Для повышения эффективности прогноза представим столбцы Пола и места отправки в виде 0 и 1 в
13. Проведем корреляционный анализ Определяем что столбцы "Pclass", "Fare", "Sex_female", "Sex_male", "Embarked_C", "Embarked_Q", "Embarked_S” имеют зависимость с
14. Производим выбор столбцов для обучения и тестирования системы В примере не был произведен корреляционный анализ и
15. Проводим проверку метрики при помощи различных алгоритмов машинного обучения Разница в наилучшем результате более 7 процентов
16. Производим выбор наилучшего алгоритма для прогноза и получаем выходной файл с прогнозом В примере был выбран
18. Скачать презентацию

Слайд 2

Блок импорта библиотек
В исследуемом коде были выбраны основные библиотеки
Данную часть

кода оставляем без изменений

Слайд 3

Блок импорта данных
В данном блоке импортируются файлы для обучения и тестирования

системы, а также эти данные объединяются в один фрейм данных для удобной работы с отсутствующими данными.

Слайд 4

Представление данных
Отобразим данные при помощи команды head(), и определим количество заполненных

ячеек в столбцах при помощи команды info() и isna().sum().

Слайд 5

Заполнение столбца AGE
При помощи команды fillna() в строке возраста заполняем пустые

строки (NaN) средневзвешенным значением:

Получаем заполненные ячейки средним значением между Полом и Классом пассажира

Слайд 6

Проверка заполнения столбца места отправления «Embarked»

Слайд 7

Проверка зависимости места отправки от пола
Наиболее распространённое место отправки для женщин

и мужчин является «S» Саутге́мптон

Слайд 8

Заполнение пустых ячеек в столбце Места отправки
Заполняем место отправки самым

распространенным

Слайд 9

Проверка заполнения столбца пассажирской оплаты «Fare»
И заполняем средним значением по 3

Pclass’у для нашего пустого значения

Слайд 10

Проверка пустых ячеек

Слайд 11

Исключаем из фрейма данных столбцы которые не имеют информативности

Слайд 12

Для повышения эффективности прогноза представим столбцы Пола и места отправки в

виде 0 и 1 в исследуемом исходном коде днанная процедура не выполнялась

Слайд 13

Проведем корреляционный анализ
Определяем что столбцы "Pclass", "Fare", "Sex_female", "Sex_male", "Embarked_C",

"Embarked_Q", "Embarked_S” имеют зависимость с Survived

Слайд 14

Производим выбор столбцов для обучения и тестирования системы
В примере не был

произведен корреляционный анализ и выраны лишь столбцы "Pclass", "Age "

После проведения корреляции определены столбцы которые добавлены в обучающую и тестовые выборки

Слайд 15

Проводим проверку метрики при помощи различных алгоритмов машинного обучения
Разница в наилучшем

результате более 7 процентов

Слайд 16

Производим выбор наилучшего алгоритма для прогноза и получаем выходной файл с

прогнозом

В примере был выбран алгоритм случайного леса в моем случае выбрано дерево решений