Обработка и анализ данных

Август 10, 2022

Главная
Информатика
Обработка и анализ данных

Содержание

2. План занятия Общие рекомендации по анализу данных Работа с текстовыми данными Анализ результатов
3. Обработка и анализ данных feature extraction and feature engineering – превращение данных, специфических для предметной области,
4. Обработка и анализ данных Построение матриц ошибок Построение гистограмм, анализ коррелирующих признаков,
5. Признаки Вещественные (Возраст, площадь квартиры) Бинарные ( Доход клиента больше среднего по городу?) Порядковые (тип населенного
6. Label Encoder
7. Оne-hot-кодирование
8. Другие способы кодирования
9. Обработка и анализ текстовых данных - токенизация (nltk) - приведение к одному регистру - лемматизация (nltk,
10. Векторизация текста Разбиение текста на слова и преобразование каждого слова в вектор Разбиение текста на символы
11. Преобазование токенов в векторы One-hot encoding( прямое кодирование слов и символов) One-hot hashing trick ( прямое
12. Bag of words («Мешок слов»)
13. N-граммы
14. TF-IDF IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово
15. Embeddings Малоразмерные представления Геометрические отношения между векторами отражают семантические связи
16. Embeddings
18. Скачать презентацию

Слайд 2

План занятия
Общие рекомендации по анализу данных
Работа с текстовыми данными
Анализ результатов

Слайд 3

Обработка и анализ данных
feature extraction and feature engineering – превращение данных,

специфических для предметной области, в понятные для модели векторы
feature transformation – трансформация данных для повышения точности алгоритма;
feature selection – отсечение ненужных признаков

Слайд 4

Обработка и анализ данных
Построение матриц ошибок
Построение гистограмм, анализ коррелирующих признаков,

Слайд 5

Признаки
Вещественные (Возраст, площадь квартиры)
Бинарные ( Доход клиента больше среднего по городу?)
Порядковые

(тип населенного пункта,размер одежды,образование)
Категориальные (цвет глаз, город)

Слайд 6

Label Encoder

Слайд 7

Оne-hot-кодирование

Слайд 8

Другие способы кодирования

Слайд 9

Обработка и анализ текстовых данных
- токенизация (nltk)
- приведение к одному регистру

- лемматизация (nltk, pymorphy )
- удаление нерелевантных слов ( re)

Слайд 10

Векторизация текста
Разбиение текста на слова и преобразование каждого слова в вектор
Разбиение

текста на символы и преобразование каждого символа в вектор
Извлечение N-грамм и их преобразование в вектор

Слайд 11

Преобазование токенов в векторы
One-hot encoding( прямое кодирование слов и символов)
One-hot hashing

trick ( прямое хеширование признаков)
Embeddings (векторное представление слов) (Word2vec, Glove, Fasttext)

Слайд 12

Bag of words («Мешок слов»)

Слайд 13

N-граммы

Слайд 14

TF-IDF
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое

слово встречается в документах коллекции.

TF (term frequency — частота слова) — отношение числа вхождений некоторого слова к общему числу слов документа.

Слайд 15

Embeddings
Малоразмерные представления
Геометрические отношения между векторами отражают семантические связи

Слайд 16

Embeddings