Извлечение знаний из Web — Web Mining

Июль 24, 2022

Главная
Информатика
Извлечение знаний из Web — Web Mining

Содержание

2. Содержание 4 ОПРЕДЕЛЕНИЕ WEB MINING и DATA MINING 1 2 3 КАТЕГОРИИ WEB MINING ЗАДАЧИ WEB
3. Поиск информации 3 Библиотеки и архивы Data mining WEB mining
4. Web Mining и Web Analytics В конце 90-х годов европейскими учеными были предложены термины Web Mining
5. Понятие Data Mining Data Mining - технология, предназначенная для поиска в больших объемах данных неочевидных, объективных
6. Этапы аналитики в соответствии со стандартом CRISP-DM Постановка задачи Достаточно ли данных для решения задачи Процесс
7. Задачи Data Mining Классификация Кластеризация Прогнозирование Ассоциация Обнаружение и анализ и отклонений Оценивание Анализ связей Визуализация
8. Data Mining и Web Mining Web Mining отличается от Data Mining масштабом, способом доступа и структурой
9. Определение Web Mining — это использование методов интеллектуального анализа данных для автоматического обнаружения веб-документов и услуг,
10. Web Mining — технология, использующая методы Data Mining для исследования и извлечения информации из Web-документов и
11. Поиск значимой информации Из предыдущей лекции ясно, что информационным поиск (information retrieval, IR) с помощью обычных
12. Поиск значимой информации Современный поиск выходит далеко за рамки индексирования. Самая жестокая конкурентная борьба среди фирм,
13. В бизнес-аналитике Web Mining решает следующие задачи: описание посетителей сайта (кластеризация, классификация); описание посетителей, которые совершают
14. Этапы Web Mining Входной этап (input stage) — получение «сырых» данных из источников (логи серверов, тексты
15. Направления Web Mining
16. Направления Web Mining
17. Категории Web Mining В области Web Mining выделяют следующие направления анализа: Извлечение Web-контента (Web Content Mining);
18. Направления Web Mining: Характеристика
19. Web Content Mining
20. Web Content Mining Web Content Mining (Извлечение веб-контента) — процесс извлечения знаний из контента документов или
21. Web Content Mining Web Content Mining (WCM) имеет общие черты с DM и Text Mining (TM):
22. Web Content Mining В WCM необходимо решать ряд специфических задач: извлечение структурированных данных из веб-страниц с
23. В WCM для каждого из трех типов данных (структурированные, неструктурированные и квазиструктурированные) используются собственные методы обработки,
24. Первые технологии data scraping применялись сначала на мэйнфреймах и позже на миникомпьютерах. Много лет спустя эта
25. Диапазон технологий, используемых для Web Scraping, чрезвычайно широк, но в ряде случаев невозможно обойтись без вмешательства
26. Создание упаковщиков — непростая задача, решаемая в человеко-машинном режиме, что требует больших трудозатрат на первичную разметку
27. Для работы со слабоструктурированными данными предложены специальные языки класса Web Data Extraction Language, такие как, например,
28. Использует методы TM в приложении к специфике WWW и призван облегчить восприятие пользователем больших массивов текстов.
29. Около дюжины компаний производят сегодня инструменты для WCM в виде традиционных загружаемых коммерческих и свободно-распространяемых программ
30. По мере наполнения World Wide Web растет необходимость в средствах для доступа к данным. И хотя
31. Web Structure Mining
32. Web Structure Mining Web Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной информации в Интернете. Данное
33. Основное предназначение WSM для подхода Web Graph Mining состоит в обнаружении взаимосвязи между веб-страницами и формировании
34. К результатам WSM можно применить алгоритмы ранжирования PageRank или HITS (Hyperlink Induced Topic Search), позволяющие найти
35. Web Usage Mining
36. Web Usage Mining Паутина становится важным инструментом привлечения клиентов, что делает актуальной оценку качества работы сайта,
37. Web Usage Mining
38. Разнообразные пользовательские данные собираются на серверной и пользовательской сторонах, а также в прокси-серверах. Веб-сервер собирает запросы
39. На этапе обработки с помощью разнообразных эвристических алгоритмов выполняется последовательность операций над журналами с целью преобразования
40. Затем происходит идентификация пользователя (User Identification), в простейшем случае она осуществляется по IP или UID, но
41. Распознавание образов и анализ Это самый наукоемкий этап WUM, и чаще всего для анализа сессий и
42. Кластерный анализ служит для объединения объектов с общими признаками для сегментации посетителей сайтов и страниц по
43. Категории Web Mining (задачи)
44. Категории Web Mining (подклассы) Гиперссылки вне документа
45. Таблица 1 . Классификация задач Web Mining
46. ВЫВОДЫ: Web Mining включает в себя этапы: поиск ресурсов, извлечение информации, обобщение и анализ; Различают следующие
47. Web SCRAPING
48. Web-scrapping Веб-скрейпинг*) тесно связан с понятиями веб-индексация (web indexing) и веб-сканер (web crawler). Компонент веб-скрейпер использует
49. Классификация способов извлечения информации из WEB-источников
50. Классификация способов извлечения информации из WEB-источников
51. Web-scrapping
52. Web-scrapping (шаги) *(также называют Web harvesting или Web data extraction) Connect : Соединение с удаленным сайтом
53. Задачи Web-scrapping Извлеченные с помощью веб-скрейпинга данные могут использоваться для выполнения следующих задач: онлайн сравнение цен;
54. Инструмены Web-scrapping
55. Существующие веб-скрейпинг компоненты работают по месту назначения, узконаправленно, зачастую только относительно того веб-сайта для которого были
56. Инструменты Web-scrapping На данный момент имеется несколько решений для веб-скрейпинга. Некоторые из них преобразуют формат HTML
57. Инструменты Web-scrapping Имеется еще два инструмента с открытым исходным кодом для веб-скрейпинга: pjscrape для JavaScript и
58. Классификация методов [8]
59. Manual | Supervised | Semi-supervised | Un-supervised Manual Классификация методов [8]
60. Manual | Supervised | Semi-supervised | Un-supervised Supervised Labeled Web Pages Классификация методов [8]
61. Manual | Supervised | Semi-supervised | Un-supervised Semi-supervised Классификация методов [8]
62. Manual | Supervised | Semi-supervised | Un-supervised Unsupervised Классификация методов [8]
63. Существующие подходы
64. Задание 2: Web-scrapping Используя любой из приведенных либо найденных вами способов извлечения информации с web страниц,
65. Группа «Manual»: Инструменты http://web-harvest.sourceforge.net/
66. WebHarvest: Easy Web Scraping from Java Ах, вот ты какой, рукописный wrapper …
67. Manual. Инструменты http://web-harvest.sourceforge.net/ http://scrapy.org/
68. Группы «Supervised» и «Semi-supervised» Инструменты http://www.visualwebripper.com/ http://www.lixto.com/ http://www.denodo.com http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=1192&context=oa_dissertations Ahmed, Emdad, "Post Processing Wrapper Generated Tables
69. Литература Анализ данных и процессов: учеб. пособие / А. А. Барсегян, М. С. Куприянов, И. И.
71. Скачать презентацию

Слайд 2

Содержание
4
ОПРЕДЕЛЕНИЕ WEB MINING и DATA MINING
1
2
3
КАТЕГОРИИ WEB MINING
ЗАДАЧИ WEB MINING
ЭТАПЫ WEB

MINING

WEB SCRAPING

Слайд 3

Поиск информации
3
Библиотеки и архивы
Data mining
WEB mining

Слайд 4

Web Mining и Web Analytics
В конце 90-х годов европейскими учеными были

предложены термины Web Mining (WM) и Web Analytics (WA), соотносящиеся примерно так же, как Data Mining (DM) и Data Analytics:
WM в большей мере относится к формальным методам выделения по заданным шаблонам полезных данных из сырых
а WA ближе к семантике — извлечение полезной информации из данных.

Слайд 5

Понятие Data Mining
Data Mining - технология, предназначенная для поиска в больших

объемах данных неочевидных, объективных и практически полезных закономерностей.
В основе Data Mining лежат эффективные методы и алгоритмы, разработанные для анализа неструктурированных данных большого объема и размерности.
Ключевой момент состоит в том, что данные большого объема и большой размерности представляются лишенными структуры и связей. Цель технологии добычи данных – выявить эти структуры и найти закономерности там, где, на первый взгляд, царит хаос и произвол, т.е. превратить данные в ЗНАНИЯ.

Слайд 6

Этапы аналитики в соответствии со стандартом CRISP-DM
Постановка задачи
Достаточно ли данных для

решения задачи

Процесс предварительной обработки

Проверка гипотез в процессе моделирования

Заказчик помогает определить ценность полученных данных

Внедрение автоматизации принятия решений

Слайд 7

Задачи Data Mining
Классификация
Кластеризация
Прогнозирование
Ассоциация
Обнаружение и анализ и отклонений
Оценивание
Анализ связей
Визуализация
Подведение итогов

Слайд 8

Data Mining и Web Mining
Web Mining отличается от Data Mining

масштабом, способом доступа и структурой данных.
В традиционном DM обработка базы данных с одним миллионом записей считается большой работой, а в WM даже обработку 10 млн страниц нельзя назвать чем-то выдающимся.
DM имеет дело с корпоративными данными, что требует соответствующих полномочий, а в WM обычно используются публичные данные и нет необходимости в правах доступа, но следует соблюдать определенные этические нормы. Хотя краулеры (поисковые программы-роботы), распространяемые поисковыми машинами, создают для сайтов дополнительную нагрузку, администраторы им не противодействуют, поскольку в результате создаются индексы, способствующие увеличению посещаемости. Однако WM не придает сайтам дополнительных качеств, поэтому краулеры должны быть тактичными.
Традиционный DM получает структурированные данные из баз данных, а WM оперирует неструктурированными или квазиструктурированными данными.

Слайд 9

Определение
Web Mining — это использование методов интеллектуального анализа данных для автоматического

обнаружения веб-документов и услуг, извлечения информации из веб-ресурсов и выявления общих закономерностей в Интернете.
Понятие явилось эволюцией Data Mining, использует те же методы интеллектуального анализа данных, его продолжением прогнозируется Cloud Mining.

Слайд 10

Web Mining — технология, использующая методы Data Mining для исследования и

извлечения информации из Web-документов и сервисов

Поиск значимой информации;
Создание новых знаний из доступной на Web информации;
Изучение потребностей индивидуального пользователя;
Персонализация информации.

Задачи анализа информации из Web

Слайд 11

Поиск значимой информации
Из предыдущей лекции ясно, что информационным поиск (information retrieval,

IR) с помощью обычных поисковиков далеко не всегда эффективен:
небольшой процент действительно нужной информации среди множества ссылок, которые предоставляют поисковые системы;
низкая результативность, связанная с невозможностью индексировать все Web-ресурсы. В результате возникают трудности поиска неиндексированной информации, которая может быть необходима для пользователя.

Слайд 12

Поиск значимой информации
Современный поиск выходит далеко за рамки индексирования. Самая жестокая

конкурентная борьба среди фирм, занимающихся поисковыми системами, не охватывает технологические проблемы индексирования, но разворачивается вокруг таких задач, как
оценка ссылок,
анализ экранных данных,
также обработка естественного языка.
Подобные методики повышают функциональные возможности поиска, что иногда оборачивается миллиардами долларов, как это было в случае фирмы Google.

Слайд 13

В бизнес-аналитике Web Mining решает следующие задачи:
описание посетителей сайта (кластеризация, классификация);
описание

посетителей, которые совершают покупки в интернет-магазине (кластеризация, классификация);
определение типичных сессий и навигационных путей пользователей сайта (поиск популярных наборов, ассоциативных правил);
определение групп или сегментов посетителей (кластеризация);
нахождение зависимостей при пользовании услугами сайта (поиск ассоциативных правил).

Слайд 14

Этапы Web Mining
Входной этап (input stage) — получение «сырых» данных из

источников (логи серверов, тексты электронных документов);
Этап предобработки (preprocessing stage) — данные представляются в форме, необходимой для успешного построения той или иной модели;
Этап моделирования (pattern discovery stage);
Этап анализа модели (pattern analysis stage) — интерпретация полученных результатов.

Слайд 15

Направления Web Mining

Слайд 16

Направления Web Mining

Слайд 17

Категории Web Mining
В области Web Mining выделяют следующие направления анализа:
Извлечение Web-контента

(Web Content Mining);
Извлечение Web-структур (Web Structure Mining);
Исследование использования Web-ресурсов (Web Usage Mining).

Слайд 18

Направления Web Mining: Характеристика

Слайд 19

Web Content Mining

Слайд 20

Web Content Mining
Web Content Mining (Извлечение веб-контента) — процесс извлечения знаний

из контента документов или их описания, доступных в Интернете. Именно это направление Web Mining решает трудоемкую задачу поиска знаний в сети Интернет.
Оно основано на сочетании возможностей информационного поиска, машинного обучения и интеллектуального анализа данных. Включает следующие направления:
Извлечение из Баз Данных - Database approach (DB)
Информационный поиск - Information retrieval (IR)
Обработка естественных языков Natural language processing (NLP)
Глубокий синтаксический и семантический анализ

Слайд 21

Web Content Mining
Web Content Mining (WCM) имеет общие черты с DM и

Text Mining (TM):

За последние несколько лет WCM стал областью активных исследований, и основные сложности здесь вызваны гетерогенностью веб-данных и их низкой структуризацией, затрудняющей выделение целевой информации

Слайд 22

Web Content Mining
В WCM необходимо решать ряд специфических задач:
извлечение структурированных

данных из веб-страниц с использованием методов машинного обучения и нейронных сетей;
формирование процедур унификации форматов представления данных и их интеграции из разных источников;
выделение оценок продуктов и услуг в отзывах, размещаемых на форумах, в блогах и чатах.
Для отделения содержательной составляющей страниц от служебных и рекламных текстов требуются соответствующие процедуры сегментации.

Слайд 23

В WCM для каждого из трех типов данных (структурированные, неструктурированные и

квазиструктурированные) используются собственные методы обработки, но независимо от этого почти всегда выполняется процедура перевода данных из формы, предназначенной для чтения человеком, в форму, удобную для обработки компьютером.
Такая процедура называется data scraping, или «срезание данных с поверхности».
Механизм, выполняющий преобразование, извлеченных из WEB-страниц данных, в структурированный вид называется Wrapper Induction System.

Web Content Mining. Data scraping

Слайд 24

Первые технологии data scraping применялись сначала на мэйнфреймах и позже на

миникомпьютерах.
Много лет спустя эта же идея возродилась как Web Scraping — в какой-то степени их работа напоминает индексацию WWW, но ее цель заключается не в составлении индексов, а в преобразовании неструктурированных данных, существующих в формате HTML, в структурированные и сохранении их в базах данных или в электронных таблицах.

Web Content Mining. Data scraping

Слайд 25

Диапазон технологий, используемых для Web Scraping, чрезвычайно широк, но в ряде случаев

невозможно обойтись без вмешательства человека, и тогда берут на вооружение классический прием copy-and-paste. Есть еще простой, но эффективный прием, известный как Text grepping, построенный на базе UNIX-утилиты grep.
Подобным же образом могут быть использованы средства для работы с регулярными выражениями, имеющиеся, например, в языках программирования Perl и Pyton. Программы разбора HTML используют то обстоятельство, что многие сайты имеют в своем составе страницы, динамически сгенерированные из содержимого структурированных источников (баз данных), и для их создания применяются общие для схожих страниц шаблоны. В таких случаях используют программы-упаковщики (wrapper), которые, наоборот, извлекают содержимое и переводят его в реляционную форму.

Web Content Mining – WEB scraping

Слайд 26

Создание упаковщиков — непростая задача, решаемая в человеко-машинном режиме, что требует

больших трудозатрат на первичную разметку страниц и поддержку разметки на протяжении жизненного цикла данных. Полностью автоматизированная генерация возможна пока только на экспериментальном уровне, а высшим достижением Web Scraping являются анализаторы веб-страниц с элементами искусственного интеллекта на базе систем компьютерного зрения и машинного обучения.
Очевидно, что проще всего выполнять WCM для структурированных данных — здесь достаточно применить служебные процедуры сначала обхода страниц, затем генерации и исполнения упаковщика, а потом можно переходить к анализу содержимого страницы.

Web Content Mining – wrappers

Слайд 27

Для работы со слабоструктурированными данными предложены специальные языки класса Web Data

Extraction Language, такие как, например, ELOG, предназначенные для программ-упаковщиков.
С их помощью описывается процедура выделения данных Top Down Extraction, завершающаяся созданием объектной модели данных Object Exchange Model (OEM).

Web Content Mining

Слайд 28

Использует методы TM в приложении к специфике WWW и призван облегчить

восприятие пользователем больших массивов текстов. Выделяют несколько типов такого рода операций:
отслеживание тематики (Topic Tracking) — оценка области интересов пользователя и формирование рекомендаций потенциально интересных ему документов;
свертка (Summarization) — создание резюме документов, сокращающего объем необходимого чтения;
ранжирование (Categorization) — упорядочение документов и их распределение по заранее определенным категориям;
кластеризация (Clustering) — объединение схожих документов в группы;
визуализация (Information Visualization) или визуализация данных (Data Visualization) — решение проблемы коммуникации пользователя с данными, и особо здесь интересна визуализация текстов (Text Visualization).

Web Content Mining – неструктурированные данные

Слайд 29

Около дюжины компаний производят сегодня инструменты для WCM в виде традиционных

загружаемых коммерческих и свободно-распространяемых программ и облачных сервисов. Визуализация еще не вышла на коммерческий уровень, и все продукты этого класса распространяются свободно.

Web Content Mining – неструктурированные данные

Слайд 30

По мере наполнения World Wide Web растет необходимость в средствах для

доступа к данным. И хотя задача WM пока еще остается исследовательской, уже появились готовые доступные продукты, помогающие в решении ее отдельных частей.

Web Content Mining – неструктурированные данные

Слайд 31

Web Structure Mining

Слайд 32

Web Structure Mining
Web Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной

информации в Интернете.
Данное направление рассматривает взаимосвязи между веб-страницами, основываясь на связях между ними. Построенные модели могут быть использованы для категоризации и поиска схожих веб-ресурсов, а также для распознавания авторских сайтов.
В веб-графе вершины — это страницы WWW, а дуги — гиперссылки между ними. По графу устанавливаются связи между страницами, людьми и любыми иными объектами.

Слайд 33

Основное предназначение WSM для подхода Web Graph Mining состоит в обнаружении взаимосвязи

между веб-страницами и формировании иерархии гиперссылок. Таким образом WSM обеспечивает заготовку для установления связей между фрагментами информации на сайте, доступа к информации по ключевым словам и контентного WM.
Иерархия гиперссылок используется еще для установления с помощью поисковых машин системы гиперссылок, обеспечивающих переход со страниц собственного сайта к внешним сайтам — например, к сайтам конкурентов, где размещена близкая по содержанию информация. Далее связанные страницы можно кластеризовать по логическим связям между одним или более сайтами, принадлежащими партнерам или конкурентам.

Web Structure Mining

Слайд 34

К результатам WSM можно применить алгоритмы ранжирования PageRank или HITS (Hyperlink

Induced Topic Search), позволяющие найти наиболее значимые страницы, что напоминает подсчет индекса цитирования научных статей.
Понимание того, как контент соотносится с рангом страницы, позволяет повышать качество сайта.

Web Structure Mining

Слайд 35

Web Usage Mining

Слайд 36

Web Usage Mining
Паутина становится важным инструментом привлечения клиентов, что делает актуальной

оценку качества работы сайта, — этой цели служит нагрузочный WM (Web Usage Mining, WUM), позволяющий обнаружить модели поведения пользователей по их цифровым следам на сайте:
пути доступа,
посещаемые страницы,
лог-записи,
регистрационные данные и др.
По полученным данным можно, например, создавать рекомендации пользователю по посещению интересных для него страниц, которые остались еще без его внимания. Обычно процедуры WUM состоят из нескольких основных шагов [2].

Слайд 37

Web Usage Mining

Слайд 38

Разнообразные пользовательские данные собираются на серверной и пользовательской сторонах, а также

в прокси-серверах.
Веб-сервер собирает запросы пользователей и хранит их в журналах, но достоверность данных в журналах страдает из-за проблемы идентификации сессии (session identification problem), возникающей из-за кэшей, посылающих ответ на запрос без обращения к серверу.
Сбор данных на стороне пользователя (Client Side Collection) осуществляется встроенными в браузер агентами (Java-скрипты или Java-апплеты), но теоретически пользователь должен выразить свое согласие на такой способ отслеживания.
В этом случае проблема идентификации сессии исключается, тем не менее сохраняется ситуация, когда собранные данные не вполне достоверны. Прокси-сервер получает запросы в том же формате, что и веб-сервер, и может использовать их для обобщенной оценки запросов.

Web Usage Mining - Data collection

Слайд 39

На этапе обработки с помощью разнообразных эвристических алгоритмов выполняется последовательность операций

над журналами с целью преобразования потока сырых данных в набор пользовательских досье (профилей).
Данные очищаются путем удаления несущественных сведений (для большинства сайтов несущественны медиа файлы, а для распространителей контента именно они представляют наибольшую важность). В процессе очистки учитываются коды состояния HTTP, учитываются только успешные запросы с кодом от 200 до 299 (2XX). И отбрасываются другие обращения – неудачные (4ХХ) и перенаправленные (3ХХ).

Web Usage Mining - Data preprocessing

Слайд 40

Затем происходит идентификация пользователя (User Identification), в простейшем случае она осуществляется

по IP или UID, но и здесь есть множество вспомогательных решений, особенно продуктивно использование формата Extended Log Format.
После этого идентифицируется сессия (Session Identification) — анализ набора страниц, посещенных пользователем за визит. Для решения этой задачи создано огромное число эвристических алгоритмов, основанных на времени пребывания на страницах и навигации по сайту. Завершающий этап предобработки — формирование образа (Path Completion) пользователя.

Web Usage Mining - Data preprocessing

Слайд 41

Распознавание образов и анализ
Это самый наукоемкий этап WUM, и чаще всего

для анализа сессий и посетителей применяются статистические методы (Session and Visitor Analysis).
Данные агрегируют по определенным признакам, по дням, по сессиям, по пользователям или доменам, а полученные отчеты содержат сведения о наиболее часто посещаемых страницах, времени пребывания на странице, длине пути по сайту и т. п.

Web Usage Mining - Pattern Discovery and Analysys

Слайд 42

Кластерный анализ служит для объединения объектов с общими признаками для сегментации

посетителей сайтов и страниц по их посещаемости. Это позволяет объединить в группы пользователей, имеющих общие образы, — например, по показателям, необходимым для целей адресного маркетинга.
Ассоциативный и корреляционный анализ позволяет устанавливать связи между теми или иными явлениями или процессами. Анализ навигационных образов служит для предсказания поведения пользователей, что необходимо, скажем, для размещения рекламы.

Web Usage Mining - Pattern Discovery and Analysys

Слайд 43

Категории Web Mining (задачи)

Слайд 44

Категории Web Mining (подклассы)
Гиперссылки вне документа

Слайд 45

Таблица 1 . Классификация задач Web Mining

Слайд 46

ВЫВОДЫ:
Web Mining включает в себя этапы: поиск ресурсов, извлечение информации, обобщение

и анализ;
Различают следующие категории задач Web Mining: извлечение Web-контента, извлечение Web-структур и исследование использования Web-ресурсов;
В решении задачи извлечения структуры Web используются подходы из области социальных сетей, библиометрики, ранжирования документов и т. п.
Существуют два основных подхода анализа использования Web-ресурсов:
преобразование данных использования Web-сервера в реляционные таблицы до выполнения адаптированных методов Data Mining
и использование информации из файла протокола непосредственно, применяя специальные методы предварительной обработки.

Слайд 47

Web SCRAPING

Слайд 48

Web-scrapping
Веб-скрейпинг*) тесно связан с понятиями веб-индексация (web indexing) и веб-сканер (web

crawler).
Компонент веб-скрейпер использует веб-индексацию, которая индексирует информацию в Интернете с помощью бота или веб-сканера и является универсальной методикой, которая принята в пользование большинством поисковых систем.
Но в отличие от веб-сканера, веб-скрейпер больше внимания уделяет преобразованию неструктурированных данных в сети, которые, как правило, хранятся в формате HTML, в структурированные данные, которые могут храниться и анализироваться в центральной базе данных или электронных таблицах. Веб-скрейпинг также связан с веб-автоматизацией, которая имитирует поведение человека при просмотре веб-страниц, используя программное обеспечение.

*(также называют Web harvesting или Web data extraction)

Слайд 49

Классификация способов извлечения информации из WEB-источников

Слайд 50

Классификация способов извлечения информации из WEB-источников

Слайд 51

Web-scrapping

Слайд 52

Web-scrapping (шаги)
*(также называют Web harvesting или Web data extraction)
Connect : Соединение

с удаленным сайтом через HTTP или FTP.
Extract : Извлечь информацию с web-сайта
Process : Выделить важные данные из ресурса и конвертиро-вать в нужный формат
Save : Сохранить данные в желаемом формате.

Слайд 53

Задачи Web-scrapping
Извлеченные с помощью веб-скрейпинга данные могут использоваться для выполнения следующих

задач:
онлайн сравнение цен;
считывание контактной информации;
мониторинг данных о чем угодно (погоде, котировках …);
обнаружение изменения веб-сайта;
проведение научного исследования;
создание веб-коллажей;
интеграция веб-данных.
Учреждения и организации не всегда свою информацию формируют в правильно структурированные и отформатированные базы данных.
Веб-скрейпинг позволяет собирать в автоматическом режиме свободно доступные данные практически любого вида в онлайн формате.

Слайд 54

Инструмены Web-scrapping

Слайд 55

Существующие веб-скрейпинг компоненты работают по месту назначения, узконаправленно, зачастую только относительно

того веб-сайта для которого были написаны, вследствие чего требуют больших человеческих усилий для автоматизации систем преобразующих целые веб-сайты в структурированную информацию.
В последнее время компании-разработчики создали веб-скрейпинг системы имитации «человеческого» подхода к просмотру веб-страницы и автоматического извлечения полезной информации, основанные на использовании DOM-парсинга, компьютерного зрения и обработки естественного языка.

Методы Web-scrapping

Слайд 56

Инструменты Web-scrapping
На данный момент имеется несколько решений для веб-скрейпинга.
Некоторые из

них преобразуют формат HTML в другие форматы, такие как JSON, XLS, что упрощает извлечение желаемого контента.
Другие решения читают непосредственно HTML-код и позволяют пользователю определить контент как функцию HTML-иерархии, в которой размечены данные. К этой категории относится, в частности, решение Nokogiri, которое поддерживает парсинг HTML-документов и XML-документов средствами языка Ruby.

Слайд 57

Инструменты Web-scrapping
Имеется еще два инструмента с открытым исходным кодом для веб-скрейпинга:

pjscrape для JavaScript и Beautiful Soup для Python.
Инструмент pjscrape базируется на использовании командной строки и способен проанализировать полностью отображенную страницу, включая JavaScript-контент.
Инструмент Beautiful Soup прозрачно интегрируется в среды Python 2 и Python 3.
Можно найти также примеры с использованием языка R.

Слайд 58

Классификация методов [8]

Слайд 59

Manual | Supervised | Semi-supervised | Un-supervised
Manual
Классификация методов [8]

Слайд 60

Manual | Supervised | Semi-supervised | Un-supervised
Supervised
Labeled Web Pages
Классификация методов [8]

Слайд 61

Manual | Supervised | Semi-supervised | Un-supervised
Semi-supervised
Классификация методов [8]

Слайд 62

Manual | Supervised | Semi-supervised | Un-supervised
Unsupervised
Классификация методов [8]

Слайд 63

Существующие подходы

Слайд 64

Задание 2: Web-scrapping
Используя любой из приведенных либо найденных вами способов извлечения

информации с web страниц, разработать программу и продемонстрировать результат ее работы.
Для примеров воспользуйтесь приведенными ниже ресурсами.
По данной работе необходимо представить подробный отчет с кодом программы и результатом выполнения.

Срок исполнения: до 20 мая

Слайд 65

Группа «Manual»: Инструменты
http://web-harvest.sourceforge.net/

Слайд 66

WebHarvest: Easy Web Scraping from Java
Ах, вот ты какой,
рукописный wrapper

…

Слайд 67

Manual. Инструменты
http://web-harvest.sourceforge.net/
http://scrapy.org/

Слайд 68

Группы «Supervised» и «Semi-supervised» Инструменты
http://www.visualwebripper.com/
http://www.lixto.com/
http://www.denodo.com
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=1192&context=oa_dissertations
Ahmed, Emdad, "Post Processing Wrapper Generated Tables

For Labeling Anonymous Datasets" (2011). Wayne State University Dissertations. Paper 193.

Слайд 69

Литература
Анализ данных и процессов: учеб. пособие / А. А. Барсегян,

М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. —3-е изд., перераб. и доп. — СПб.: БХВ-Петербург, 2009. —512 с.: ил.
Инструменты анализа Web. Л.Черняк. «Открытые системы», № 06, 2014
Web Page Scraping using Java, ресурс: http://half-wit4u.blogspot.ru/2011/01/web-scraping-using-java-api.html
Web Page Scraping with Java, ресурс: https://www.packtpub.com/books/content/creating-sample-web-scraper
Jaunt Java Web Scraping & JSON Querying , ресурс: jaunt-api.com
Web scraping с Node.js, ресурс: http://www.webdesignmagazine.ru/internet-technology/other/web-scraping-s-node-js/
Web-scraping средствами R, примеры. Ресурс: kek.ksu.ru/EOS/WM/WebScraping.docx
Chang, C.-H.,Kayed, M.,Girgis, M. R.,and Shaalan, K. F. 2006. A survey of web information extraction systems. IEEE Trans. on Knowl. and Data Eng. 18,10, 1411-1428.

Извлечение знаний из Web — Web Mining

Содержание

Содержание4ОПРЕДЕЛЕНИЕ WEB MINING и DATA MINING123КАТЕГОРИИ WEB MININGЗАДАЧИ WEB MININGЭТАПЫ WEB

Поиск информации3Библиотеки и архивыData miningWEB mining

Web Mining и Web AnalyticsВ конце 90-х годов европейскими учеными были

Понятие Data MiningData Mining - технология, предназначенная для поиска в больших

Этапы аналитики в соответствии со стандартом CRISP-DMПостановка задачиДостаточно ли данных для

Задачи Data MiningКлассификацияКластеризацияПрогнозированиеАссоциацияОбнаружение и анализ и отклоненийОцениваниеАнализ связейВизуализацияПодведение итогов

Data Mining и Web Mining Web Mining отличается от Data Mining

ОпределениеWeb Mining — это использование методов интеллектуального анализа данных для автоматического

Web Mining — технология, использующая методы Data Mining для исследования и

Поиск значимой информацииИз предыдущей лекции ясно, что информационным поиск (information retrieval,

Поиск значимой информацииСовременный поиск выходит далеко за рамки индексирования. Самая жестокая

В бизнес-аналитике Web Mining решает следующие задачи: описание посетителей сайта (кластеризация, классификация);описание

Этапы Web MiningВходной этап (input stage) — получение «сырых» данных из

Направления Web Mining

Направления Web Mining

Категории Web MiningВ области Web Mining выделяют следующие направления анализа:Извлечение Web-контента

Направления Web Mining: Характеристика

Web Content Mining

Web Content MiningWeb Content Mining (Извлечение веб-контента) — процесс извлечения знаний

Web Content MiningWeb Content Mining (WCM) имеет общие черты с DM и

Web Content MiningВ WCM необходимо решать ряд специфических задач: извлечение структурированных

В WCM для каждого из трех типов данных (структурированные, неструктурированные и

Первые технологии data scraping применялись сначала на мэйнфреймах и позже на

Диапазон технологий, используемых для Web Scraping, чрезвычайно широк, но в ряде случаев

Создание упаковщиков — непростая задача, решаемая в человеко-машинном режиме, что требует

Для работы со слабоструктурированными данными предложены специальные языки класса Web Data

Использует методы TM в приложении к специфике WWW и призван облегчить

Около дюжины компаний производят сегодня инструменты для WCM в виде традиционных

По мере наполнения World Wide Web растет необходимость в средствах для

Web Structure Mining

Web Structure MiningWeb Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной

Основное предназначение WSM для подхода Web Graph Mining состоит в обнаружении взаимосвязи

К результатам WSM можно применить алгоритмы ранжирования PageRank или HITS (Hyperlink

Web Usage Mining

Web Usage MiningПаутина становится важным инструментом привлечения клиентов, что делает актуальной

Web Usage Mining

Разнообразные пользовательские данные собираются на серверной и пользовательской сторонах, а также

На этапе обработки с помощью разнообразных эвристических алгоритмов выполняется последовательность операций

Затем происходит идентификация пользователя (User Identification), в простейшем случае она осуществляется

Распознавание образов и анализЭто самый наукоемкий этап WUM, и чаще всего

Кластерный анализ служит для объединения объектов с общими признаками для сегментации

Категории Web Mining (задачи)

Категории Web Mining (подклассы)Гиперссылки вне документа

Таблица 1 . Классификация задач Web Mining

ВЫВОДЫ:Web Mining включает в себя этапы: поиск ресурсов, извлечение информации, обобщение

Web SCRAPING

Web-scrappingВеб-скрейпинг*) тесно связан с понятиями веб-индексация (web indexing) и веб-сканер (web

Классификация способов извлечения информации из WEB-источников

Классификация способов извлечения информации из WEB-источников

Web-scrapping

Web-scrapping (шаги)*(также называют Web harvesting или Web data extraction)Connect : Соединение

Задачи Web-scrappingИзвлеченные с помощью веб-скрейпинга данные могут использоваться для выполнения следующих

Инструмены Web-scrapping

Существующие веб-скрейпинг компоненты работают по месту назначения, узконаправленно, зачастую только относительно

Инструменты Web-scrappingНа данный момент имеется несколько решений для веб-скрейпинга. Некоторые из

Инструменты Web-scrappingИмеется еще два инструмента с открытым исходным кодом для веб-скрейпинга:

Классификация методов [8]

Manual | Supervised | Semi-supervised | Un-supervisedManualКлассификация методов [8]

Manual | Supervised | Semi-supervised | Un-supervisedSupervisedLabeled Web PagesКлассификация методов [8]

Manual | Supervised | Semi-supervised | Un-supervisedSemi-supervisedКлассификация методов [8]

Manual | Supervised | Semi-supervised | Un-supervisedUnsupervisedКлассификация методов [8]

Существующие подходы

Задание 2: Web-scrappingИспользуя любой из приведенных либо найденных вами способов извлечения

Группа «Manual»: Инструментыhttp://web-harvest.sourceforge.net/

WebHarvest: Easy Web Scraping from JavaАх, вот ты какой, рукописный wrapper

Manual. Инструментыhttp://web-harvest.sourceforge.net/http://scrapy.org/

Группы «Supervised» и «Semi-supervised» Инструментыhttp://www.visualwebripper.com/http://www.lixto.com/http://www.denodo.comhttp://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=1192&context=oa_dissertationsAhmed, Emdad, "Post Processing Wrapper Generated Tables

Литература Анализ данных и процессов: учеб. пособие / А. А. Барсегян,

Похожие презентации

Содержание
4
ОПРЕДЕЛЕНИЕ WEB MINING и DATA MINING
1
2
3
КАТЕГОРИИ WEB MINING
ЗАДАЧИ WEB MINING
ЭТАПЫ WEB

Поиск информации
3
Библиотеки и архивы
Data mining
WEB mining

Web Mining и Web Analytics
В конце 90-х годов европейскими учеными были

Понятие Data Mining
Data Mining - технология, предназначенная для поиска в больших

Этапы аналитики в соответствии со стандартом CRISP-DM
Постановка задачи
Достаточно ли данных для

Задачи Data Mining
Классификация
Кластеризация
Прогнозирование
Ассоциация
Обнаружение и анализ и отклонений
Оценивание
Анализ связей
Визуализация
Подведение итогов

Data Mining и Web Mining
Web Mining отличается от Data Mining

Определение
Web Mining — это использование методов интеллектуального анализа данных для автоматического

Поиск значимой информации
Из предыдущей лекции ясно, что информационным поиск (information retrieval,

Поиск значимой информации
Современный поиск выходит далеко за рамки индексирования. Самая жестокая

В бизнес-аналитике Web Mining решает следующие задачи:
описание посетителей сайта (кластеризация, классификация);
описание

Этапы Web Mining
Входной этап (input stage) — получение «сырых» данных из

Категории Web Mining
В области Web Mining выделяют следующие направления анализа:
Извлечение Web-контента

Web Content Mining
Web Content Mining (Извлечение веб-контента) — процесс извлечения знаний

Web Content Mining
Web Content Mining (WCM) имеет общие черты с DM и

Web Content Mining
В WCM необходимо решать ряд специфических задач:
извлечение структурированных

Web Structure Mining
Web Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной

Web Usage Mining
Паутина становится важным инструментом привлечения клиентов, что делает актуальной

Распознавание образов и анализ
Это самый наукоемкий этап WUM, и чаще всего

Категории Web Mining (подклассы)
Гиперссылки вне документа

ВЫВОДЫ:
Web Mining включает в себя этапы: поиск ресурсов, извлечение информации, обобщение

Web-scrapping
Веб-скрейпинг*) тесно связан с понятиями веб-индексация (web indexing) и веб-сканер (web

Web-scrapping (шаги)
*(также называют Web harvesting или Web data extraction)
Connect : Соединение

Задачи Web-scrapping
Извлеченные с помощью веб-скрейпинга данные могут использоваться для выполнения следующих

Инструменты Web-scrapping
На данный момент имеется несколько решений для веб-скрейпинга.
Некоторые из

Инструменты Web-scrapping
Имеется еще два инструмента с открытым исходным кодом для веб-скрейпинга:

Manual | Supervised | Semi-supervised | Un-supervised
Manual
Классификация методов [8]

Manual | Supervised | Semi-supervised | Un-supervised
Supervised
Labeled Web Pages
Классификация методов [8]

Manual | Supervised | Semi-supervised | Un-supervised
Semi-supervised
Классификация методов [8]

Manual | Supervised | Semi-supervised | Un-supervised
Unsupervised
Классификация методов [8]

Задание 2: Web-scrapping
Используя любой из приведенных либо найденных вами способов извлечения

Группа «Manual»: Инструменты
http://web-harvest.sourceforge.net/

WebHarvest: Easy Web Scraping from Java
Ах, вот ты какой,
рукописный wrapper

Manual. Инструменты
http://web-harvest.sourceforge.net/
http://scrapy.org/

Группы «Supervised» и «Semi-supervised» Инструменты
http://www.visualwebripper.com/
http://www.lixto.com/
http://www.denodo.com
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=1192&context=oa_dissertations
Ahmed, Emdad, "Post Processing Wrapper Generated Tables

Литература
Анализ данных и процессов: учеб. пособие / А. А. Барсегян,