Обработка и анализ данных

Содержание

Слайд 2

План занятия Общие рекомендации по анализу данных Работа с текстовыми данными Анализ результатов

План занятия
Общие рекомендации по анализу данных
Работа с текстовыми данными
Анализ результатов

Слайд 3

Обработка и анализ данных feature extraction and feature engineering – превращение

Обработка и анализ данных

feature extraction and feature engineering – превращение данных,

специфических для предметной области, в понятные для модели векторы
feature transformation – трансформация данных для повышения точности алгоритма;
feature selection – отсечение ненужных признаков
Слайд 4

Обработка и анализ данных Построение матриц ошибок Построение гистограмм, анализ коррелирующих признаков,

Обработка и анализ данных

Построение матриц ошибок
Построение гистограмм, анализ коррелирующих признаков,

Слайд 5

Признаки Вещественные (Возраст, площадь квартиры) Бинарные ( Доход клиента больше среднего

Признаки

Вещественные (Возраст, площадь квартиры)
Бинарные ( Доход клиента больше среднего по городу?)
Порядковые

(тип населенного пункта,размер одежды,образование)
Категориальные (цвет глаз, город)
Слайд 6

Label Encoder

Label Encoder

Слайд 7

Оne-hot-кодирование

Оne-hot-кодирование

Слайд 8

Другие способы кодирования

Другие способы кодирования

Слайд 9

Обработка и анализ текстовых данных - токенизация (nltk) - приведение к

Обработка и анализ текстовых данных

- токенизация (nltk)
- приведение к одному регистру

- лемматизация (nltk, pymorphy )
- удаление нерелевантных слов ( re)
Слайд 10

Векторизация текста Разбиение текста на слова и преобразование каждого слова в

Векторизация текста

Разбиение текста на слова и преобразование каждого слова в вектор
Разбиение

текста на символы и преобразование каждого символа в вектор
Извлечение N-грамм и их преобразование в вектор
Слайд 11

Преобазование токенов в векторы One-hot encoding( прямое кодирование слов и символов)

Преобазование токенов в векторы

One-hot encoding( прямое кодирование слов и символов)
One-hot hashing

trick ( прямое хеширование признаков)
Embeddings (векторное представление слов) (Word2vec, Glove, Fasttext)
Слайд 12

Bag of words («Мешок слов»)

Bag of words («Мешок слов»)

Слайд 13

N-граммы

N-граммы

Слайд 14

TF-IDF IDF (inverse document frequency — обратная частота документа) — инверсия

TF-IDF

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое

слово встречается в документах коллекции. 

TF (term frequency — частота слова) — отношение числа вхождений некоторого слова к общему числу слов документа.

Слайд 15

Embeddings Малоразмерные представления Геометрические отношения между векторами отражают семантические связи

Embeddings

Малоразмерные представления
Геометрические отношения между векторами отражают семантические связи

Слайд 16

Embeddings

Embeddings