Содержание
- 2. План занятия Общие рекомендации по анализу данных Работа с текстовыми данными Анализ результатов
- 3. Обработка и анализ данных feature extraction and feature engineering – превращение данных, специфических для предметной области,
- 4. Обработка и анализ данных Построение матриц ошибок Построение гистограмм, анализ коррелирующих признаков,
- 5. Признаки Вещественные (Возраст, площадь квартиры) Бинарные ( Доход клиента больше среднего по городу?) Порядковые (тип населенного
- 6. Label Encoder
- 7. Оne-hot-кодирование
- 8. Другие способы кодирования
- 9. Обработка и анализ текстовых данных - токенизация (nltk) - приведение к одному регистру - лемматизация (nltk,
- 10. Векторизация текста Разбиение текста на слова и преобразование каждого слова в вектор Разбиение текста на символы
- 11. Преобазование токенов в векторы One-hot encoding( прямое кодирование слов и символов) One-hot hashing trick ( прямое
- 12. Bag of words («Мешок слов»)
- 13. N-граммы
- 14. TF-IDF IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово
- 15. Embeddings Малоразмерные представления Геометрические отношения между векторами отражают семантические связи
- 16. Embeddings
- 18. Скачать презентацию