Извлечение знаний из Web — Web Mining

Содержание

Слайд 2

Содержание 4 ОПРЕДЕЛЕНИЕ WEB MINING и DATA MINING 1 2 3

Содержание

4

ОПРЕДЕЛЕНИЕ WEB MINING и DATA MINING

1

2

3

КАТЕГОРИИ WEB MINING

ЗАДАЧИ WEB MINING

ЭТАПЫ WEB

MINING

5

WEB SCRAPING

Слайд 3

Поиск информации 3 Библиотеки и архивы Data mining WEB mining

Поиск информации

3

Библиотеки и архивы

Data mining

WEB mining

Слайд 4

Web Mining и Web Analytics В конце 90-х годов европейскими учеными

Web Mining и Web Analytics

В конце 90-х годов европейскими учеными были

предложены термины Web Mining (WM) и Web Analytics (WA), соотносящиеся примерно так же, как Data Mining (DM) и Data Analytics:
WM в большей мере относится к формальным методам выделения по заданным шаблонам полезных данных из сырых
а WA ближе к семантике — извлечение полезной информации из данных.

4

Слайд 5

Понятие Data Mining Data Mining - технология, предназначенная для поиска в

Понятие Data Mining

Data Mining - технология, предназначенная для поиска в больших

объемах данных неочевидных, объективных и практически полезных закономерностей.
В основе Data Mining лежат эффективные методы и алгоритмы, разработанные для анализа неструктурированных данных большого объема и размерности.
Ключевой момент состоит в том, что данные большого объема и большой размерности представляются лишенными структуры и связей. Цель технологии добычи данных – выявить эти структуры и найти закономерности там, где, на первый взгляд, царит хаос и произвол, т.е. превратить данные в ЗНАНИЯ.
Слайд 6

Этапы аналитики в соответствии со стандартом CRISP-DM Постановка задачи Достаточно ли

Этапы аналитики в соответствии со стандартом CRISP-DM

Постановка задачи

Достаточно ли данных для

решения задачи

Процесс предварительной обработки

Проверка гипотез в процессе моделирования

Заказчик помогает определить ценность полученных данных

Внедрение автоматизации принятия решений

Слайд 7

Задачи Data Mining Классификация Кластеризация Прогнозирование Ассоциация Обнаружение и анализ и

Задачи Data Mining

Классификация
Кластеризация
Прогнозирование
Ассоциация
Обнаружение и анализ и отклонений
Оценивание
Анализ связей
Визуализация
Подведение итогов

Слайд 8

Data Mining и Web Mining Web Mining отличается от Data Mining

Data Mining и Web Mining

Web Mining отличается от Data Mining

масштабом, способом доступа и структурой данных.
В традиционном DM обработка базы данных с одним миллионом записей считается большой работой, а в WM даже обработку 10 млн страниц нельзя назвать чем-то выдающимся.
DM имеет дело с корпоративными данными, что требует соответствующих полномочий, а в WM обычно используются публичные данные и нет необходимости в правах доступа, но следует соблюдать определенные этические нормы. Хотя краулеры (поисковые программы-роботы), распространяемые поисковыми машинами, создают для сайтов дополнительную нагрузку, администраторы им не противодействуют, поскольку в результате создаются индексы, способствующие увеличению посещаемости. Однако WM не придает сайтам дополнительных качеств, поэтому краулеры должны быть тактичными.
Традиционный DM получает структурированные данные из баз данных, а WM оперирует неструктурированными или квазиструктурированными данными.
Слайд 9

Определение Web Mining — это использование методов интеллектуального анализа данных для

Определение

Web Mining — это использование методов интеллектуального анализа данных для автоматического

обнаружения веб-документов и услуг, извлечения информации из веб-ресурсов и выявления общих закономерностей в Интернете.
Понятие явилось эволюцией Data Mining, использует те же методы интеллектуального анализа данных, его продолжением прогнозируется Cloud Mining.
Слайд 10

Web Mining — технология, использующая методы Data Mining для исследования и

Web Mining — технология, использующая методы Data Mining для исследования и

извлечения информации из Web-документов и сервисов

Поиск значимой информации;
Создание новых знаний из доступной на Web информации;
Изучение потребностей индивидуального пользователя;
Персонализация информации.

Задачи анализа информации из Web

Слайд 11

Поиск значимой информации Из предыдущей лекции ясно, что информационным поиск (information

Поиск значимой информации

Из предыдущей лекции ясно, что информационным поиск (information retrieval,

IR) с помощью обычных поисковиков далеко не всегда эффективен:
небольшой процент действительно нужной информации среди множества ссылок, которые предоставляют поисковые системы;
низкая результативность, связанная с невозможностью индексировать все Web-ресурсы. В результате возникают трудности поиска неиндексированной информации, которая может быть необходима для пользователя.
Слайд 12

Поиск значимой информации Современный поиск выходит далеко за рамки индексирования. Самая

Поиск значимой информации

Современный поиск выходит далеко за рамки индексирования. Самая жестокая

конкурентная борьба среди фирм, занимающихся поисковыми системами, не охватывает технологические проблемы индексирования, но разворачивается вокруг таких задач, как
оценка ссылок,
анализ экранных данных,
также обработка естественного языка.
Подобные методики повышают функциональные возможности поиска, что иногда оборачивается миллиардами долларов, как это было в случае фирмы Google.
Слайд 13

В бизнес-аналитике Web Mining решает следующие задачи: описание посетителей сайта (кластеризация,

В бизнес-аналитике Web Mining решает следующие задачи:

описание посетителей сайта (кластеризация, классификация);
описание

посетителей, которые совершают покупки в интернет-магазине (кластеризация, классификация);
определение типичных сессий и навигационных путей пользователей сайта (поиск популярных наборов, ассоциативных правил);
определение групп или сегментов посетителей (кластеризация);
нахождение зависимостей при пользовании услугами сайта (поиск ассоциативных правил).
Слайд 14

Этапы Web Mining Входной этап (input stage) — получение «сырых» данных

Этапы Web Mining

Входной этап (input stage) — получение «сырых» данных из

источников (логи серверов, тексты электронных документов);
Этап предобработки (preprocessing stage) — данные представляются в форме, необходимой для успешного построения той или иной модели;
Этап моделирования (pattern discovery stage);
Этап анализа модели (pattern analysis stage) — интерпретация полученных результатов.
Слайд 15

Направления Web Mining

Направления Web Mining

Слайд 16

Направления Web Mining

Направления Web Mining

Слайд 17

Категории Web Mining В области Web Mining выделяют следующие направления анализа:

Категории Web Mining

В области Web Mining выделяют следующие направления анализа:
Извлечение Web-контента

(Web Content Mining);
Извлечение Web-структур (Web Structure Mining);
Исследование использования Web-ресурсов (Web Usage Mining).
Слайд 18

Направления Web Mining: Характеристика

Направления Web Mining: Характеристика

Слайд 19

Web Content Mining

Web Content Mining

Слайд 20

Web Content Mining Web Content Mining (Извлечение веб-контента) — процесс извлечения

Web Content Mining

Web Content Mining (Извлечение веб-контента) — процесс извлечения знаний

из контента документов или их описания, доступных в Интернете. Именно это направление Web Mining решает трудоемкую задачу поиска знаний в сети Интернет.
Оно основано на сочетании возможностей информационного поиска, машинного обучения и интеллектуального анализа данных. Включает следующие направления:
Извлечение из Баз Данных - Database approach (DB)
Информационный поиск - Information retrieval (IR)
Обработка естественных языков Natural language processing (NLP)
Глубокий синтаксический и семантический анализ
Слайд 21

Web Content Mining Web Content Mining (WCM) имеет общие черты с

Web Content Mining

Web Content Mining (WCM) имеет общие черты с DM и

Text Mining (TM):

За последние несколько лет WCM стал областью активных исследований, и основные сложности здесь вызваны гетерогенностью веб-данных и их низкой структуризацией, затрудняющей выделение целевой информации

Слайд 22

Web Content Mining В WCM необходимо решать ряд специфических задач: извлечение

Web Content Mining

В WCM необходимо решать ряд специфических задач:
извлечение структурированных

данных из веб-страниц с использованием методов машинного обучения и нейронных сетей;
формирование процедур унификации форматов представления данных и их интеграции из разных источников;
выделение оценок продуктов и услуг в отзывах, размещаемых на форумах, в блогах и чатах.
Для отделения содержательной составляющей страниц от служебных и рекламных текстов требуются соответствующие процедуры сегментации.
Слайд 23

В WCM для каждого из трех типов данных (структурированные, неструктурированные и

В WCM для каждого из трех типов данных (структурированные, неструктурированные и

квазиструктурированные) используются собственные методы обработки, но независимо от этого почти всегда выполняется процедура перевода данных из формы, предназначенной для чтения человеком, в форму, удобную для обработки компьютером.
Такая процедура называется data scraping, или «срезание данных с поверхности».
Механизм, выполняющий преобразование, извлеченных из WEB-страниц данных, в структурированный вид называется Wrapper Induction System.

Web Content Mining. Data scraping

Слайд 24

Первые технологии data scraping применялись сначала на мэйнфреймах и позже на

Первые технологии data scraping применялись сначала на мэйнфреймах и позже на

миникомпьютерах.
Много лет спустя эта же идея возродилась как Web Scraping — в какой-то степени их работа напоминает индексацию WWW, но ее цель заключается не в составлении индексов, а в преобразовании неструктурированных данных, существующих в формате HTML, в структурированные и сохранении их в базах данных или в электронных таблицах.

Web Content Mining. Data scraping

Слайд 25

Диапазон технологий, используемых для Web Scraping, чрезвычайно широк, но в ряде

Диапазон технологий, используемых для Web Scraping, чрезвычайно широк, но в ряде случаев

невозможно обойтись без вмешательства человека, и тогда берут на вооружение классический прием copy-and-paste. Есть еще простой, но эффективный прием, известный как Text grepping, построенный на базе UNIX-утилиты grep.
Подобным же образом могут быть использованы средства для работы с регулярными выражениями, имеющиеся, например, в языках программирования Perl и Pyton. Программы разбора HTML используют то обстоятельство, что многие сайты имеют в своем составе страницы, динамически сгенерированные из содержимого структурированных источников (баз данных), и для их создания применяются общие для схожих страниц шаблоны. В таких случаях используют программы-упаковщики (wrapper), которые, наоборот, извлекают содержимое и переводят его в реляционную форму.

Web Content Mining – WEB scraping

Слайд 26

Создание упаковщиков — непростая задача, решаемая в человеко-машинном режиме, что требует

Создание упаковщиков — непростая задача, решаемая в человеко-машинном режиме, что требует

больших трудозатрат на первичную разметку страниц и поддержку разметки на протяжении жизненного цикла данных. Полностью автоматизированная генерация возможна пока только на экспериментальном уровне, а высшим достижением Web Scraping являются анализаторы веб-страниц с элементами искусственного интеллекта на базе систем компьютерного зрения и машинного обучения.
Очевидно, что проще всего выполнять WCM для структурированных данных — здесь достаточно применить служебные процедуры сначала обхода страниц, затем генерации и исполнения упаковщика, а потом можно переходить к анализу содержимого страницы.

Web Content Mining – wrappers

Слайд 27

Для работы со слабоструктурированными данными предложены специальные языки класса Web Data

Для работы со слабоструктурированными данными предложены специальные языки класса Web Data

Extraction Language, такие как, например, ELOG, предназначенные для программ-упаковщиков.
С их помощью описывается процедура выделения данных Top Down Extraction, завершающаяся созданием объектной модели данных Object Exchange Model (OEM).

Web Content Mining

Слайд 28

Использует методы TM в приложении к специфике WWW и призван облегчить

Использует методы TM в приложении к специфике WWW и призван облегчить

восприятие пользователем больших массивов текстов. Выделяют несколько типов такого рода операций:
отслеживание тематики (Topic Tracking) — оценка области интересов пользователя и формирование рекомендаций потенциально интересных ему документов;
свертка (Summarization) — создание резюме документов, сокращающего объем необходимого чтения;
ранжирование (Categorization) — упорядочение документов и их распределение по заранее определенным категориям;
кластеризация (Clustering) — объединение схожих документов в группы;
визуализация (Information Visualization) или визуализация данных (Data Visualization) — решение проблемы коммуникации пользователя с данными, и особо здесь интересна визуализация текстов (Text Visualization).

Web Content Mining – неструктурированные данные

Слайд 29

Около дюжины компаний производят сегодня инструменты для WCM в виде традиционных

Около дюжины компаний производят сегодня инструменты для WCM в виде традиционных

загружаемых коммерческих и свободно-распространяемых программ и облачных сервисов. Визуализация еще не вышла на коммерческий уровень, и все продукты этого класса распространяются свободно.

Web Content Mining – неструктурированные данные

Слайд 30

По мере наполнения World Wide Web растет необходимость в средствах для

По мере наполнения World Wide Web растет необходимость в средствах для

доступа к данным. И хотя задача WM пока еще остается исследовательской, уже появились готовые доступные продукты, помогающие в решении ее отдельных частей.

Web Content Mining – неструктурированные данные

Слайд 31

Web Structure Mining

Web Structure Mining

Слайд 32

Web Structure Mining Web Structure Mining (Извлечение веб-структур) — процесс обнаружения

Web Structure Mining

Web Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной

информации в Интернете.
Данное направление рассматривает взаимосвязи между веб-страницами, основываясь на связях между ними. Построенные модели могут быть использованы для категоризации и поиска схожих веб-ресурсов, а также для распознавания авторских сайтов.
В веб-графе вершины — это страницы WWW, а дуги — гиперссылки между ними. По графу устанавливаются связи между страницами, людьми и любыми иными объектами.
Слайд 33

Основное предназначение WSM для подхода Web Graph Mining состоит в обнаружении

Основное предназначение WSM для подхода Web Graph Mining состоит в обнаружении взаимосвязи

между веб-страницами и формировании иерархии гиперссылок. Таким образом WSM обеспечивает заготовку для установления связей между фрагментами информации на сайте, доступа к информации по ключевым словам и контентного WM.
Иерархия гиперссылок используется еще для установления с помощью поисковых машин системы гиперссылок, обеспечивающих переход со страниц собственного сайта к внешним сайтам — например, к сайтам конкурентов, где размещена близкая по содержанию информация. Далее связанные страницы можно кластеризовать по логическим связям между одним или более сайтами, принадлежащими партнерам или конкурентам.

Web Structure Mining

Слайд 34

К результатам WSM можно применить алгоритмы ранжирования PageRank или HITS (Hyperlink

К результатам WSM можно применить алгоритмы ранжирования PageRank или HITS (Hyperlink

Induced Topic Search), позволяющие найти наиболее значимые страницы, что напоминает подсчет индекса цитирования научных статей.
Понимание того, как контент соотносится с рангом страницы, позволяет повышать качество сайта.

Web Structure Mining

Слайд 35

Web Usage Mining

Web Usage Mining

Слайд 36

Web Usage Mining Паутина становится важным инструментом привлечения клиентов, что делает

Web Usage Mining

Паутина становится важным инструментом привлечения клиентов, что делает актуальной

оценку качества работы сайта, — этой цели служит нагрузочный WM (Web Usage Mining, WUM), позволяющий обнаружить модели поведения пользователей по их цифровым следам на сайте:
пути доступа,
посещаемые страницы,
лог-записи,
регистрационные данные и др.
По полученным данным можно, например, создавать рекомендации пользователю по посещению интересных для него страниц, которые остались еще без его внимания. Обычно процедуры WUM состоят из нескольких основных шагов [2].
Слайд 37

Web Usage Mining

Web Usage Mining

Слайд 38

Разнообразные пользовательские данные собираются на серверной и пользовательской сторонах, а также

Разнообразные пользовательские данные собираются на серверной и пользовательской сторонах, а также

в прокси-серверах.
Веб-сервер собирает запросы пользователей и хранит их в журналах, но достоверность данных в журналах страдает из-за проблемы идентификации сессии (session identification problem), возникающей из-за кэшей, посылающих ответ на запрос без обращения к серверу.
Сбор данных на стороне пользователя (Client Side Collection) осуществляется встроенными в браузер агентами (Java-скрипты или Java-апплеты), но теоретически пользователь должен выразить свое согласие на такой способ отслеживания.
В этом случае проблема идентификации сессии исключается, тем не менее сохраняется ситуация, когда собранные данные не вполне достоверны. Прокси-сервер получает запросы в том же формате, что и веб-сервер, и может использовать их для обобщенной оценки запросов.

Web Usage Mining - Data collection

Слайд 39

На этапе обработки с помощью разнообразных эвристических алгоритмов выполняется последовательность операций

На этапе обработки с помощью разнообразных эвристических алгоритмов выполняется последовательность операций

над журналами с целью преобразования потока сырых данных в набор пользовательских досье (профилей).
Данные очищаются путем удаления несущественных сведений (для большинства сайтов несущественны медиа файлы, а для распространителей контента именно они представляют наибольшую важность). В процессе очистки учитываются коды состояния HTTP, учитываются только успешные запросы с кодом от 200 до 299 (2XX). И отбрасываются другие обращения – неудачные (4ХХ) и перенаправленные (3ХХ).

Web Usage Mining - Data preprocessing

Слайд 40

Затем происходит идентификация пользователя (User Identification), в простейшем случае она осуществляется

Затем происходит идентификация пользователя (User Identification), в простейшем случае она осуществляется

по IP или UID, но и здесь есть множество вспомогательных решений, особенно продуктивно использование формата Extended Log Format.
После этого идентифицируется сессия (Session Identification) — анализ набора страниц, посещенных пользователем за визит. Для решения этой задачи создано огромное число эвристических алгоритмов, основанных на времени пребывания на страницах и навигации по сайту. Завершающий этап предобработки — формирование образа (Path Completion) пользователя.

Web Usage Mining - Data preprocessing

Слайд 41

Распознавание образов и анализ Это самый наукоемкий этап WUM, и чаще

Распознавание образов и анализ
Это самый наукоемкий этап WUM, и чаще всего

для анализа сессий и посетителей применяются статистические методы (Session and Visitor Analysis).
Данные агрегируют по определенным признакам, по дням, по сессиям, по пользователям или доменам, а полученные отчеты содержат сведения о наиболее часто посещаемых страницах, времени пребывания на странице, длине пути по сайту и т. п.

Web Usage Mining - Pattern Discovery and Analysys

Слайд 42

Кластерный анализ служит для объединения объектов с общими признаками для сегментации

Кластерный анализ служит для объединения объектов с общими признаками для сегментации

посетителей сайтов и страниц по их посещаемости. Это позволяет объединить в группы пользователей, имеющих общие образы, — например, по показателям, необходимым для целей адресного маркетинга.
Ассоциативный и корреляционный анализ позволяет устанавливать связи между теми или иными явлениями или процессами. Анализ навигационных образов служит для предсказания поведения пользователей, что необходимо, скажем, для размещения рекламы.

Web Usage Mining - Pattern Discovery and Analysys

Слайд 43

Категории Web Mining (задачи)

Категории Web Mining (задачи)

Слайд 44

Категории Web Mining (подклассы) Гиперссылки вне документа

Категории Web Mining (подклассы)

Гиперссылки вне документа

Слайд 45

Таблица 1 . Классификация задач Web Mining

Таблица 1 . Классификация задач Web Mining

Слайд 46

ВЫВОДЫ: Web Mining включает в себя этапы: поиск ресурсов, извлечение информации,

ВЫВОДЫ:

Web Mining включает в себя этапы: поиск ресурсов, извлечение информации, обобщение

и анализ;
Различают следующие категории задач Web Mining: извлечение Web-контента, извлечение Web-структур и исследование использования Web-ресурсов;
В решении задачи извлечения структуры Web используются подходы из области социальных сетей, библиометрики, ранжирования документов и т. п.
Существуют два основных подхода анализа использования Web-ресурсов:
преобразование данных использования Web-сервера в реляционные таблицы до выполнения адаптированных методов Data Mining
и использование информации из файла протокола непосредственно, применяя специальные методы предварительной обработки.
Слайд 47

Web SCRAPING

Web SCRAPING

Слайд 48

Web-scrapping Веб-скрейпинг*) тесно связан с понятиями веб-индексация (web indexing) и веб-сканер

Web-scrapping

Веб-скрейпинг*) тесно связан с понятиями веб-индексация (web indexing) и веб-сканер (web

crawler).
Компонент веб-скрейпер использует веб-индексацию, которая индексирует информацию в Интернете с помощью бота или веб-сканера и является универсальной методикой, которая принята в пользование большинством поисковых систем.
Но в отличие от веб-сканера, веб-скрейпер больше внимания уделяет преобразованию неструктурированных данных в сети, которые, как правило, хранятся в формате HTML, в структурированные данные, которые могут храниться и анализироваться в центральной базе данных или электронных таблицах. Веб-скрейпинг также связан с веб-автоматизацией, которая имитирует поведение человека при просмотре веб-страниц, используя программное обеспечение.

*(также называют Web harvesting или Web data extraction)

Слайд 49

Классификация способов извлечения информации из WEB-источников

Классификация способов извлечения информации из WEB-источников

Слайд 50

Классификация способов извлечения информации из WEB-источников

Классификация способов извлечения информации из WEB-источников

Слайд 51

Web-scrapping

Web-scrapping

Слайд 52

Web-scrapping (шаги) *(также называют Web harvesting или Web data extraction) Connect

Web-scrapping (шаги)

*(также называют Web harvesting или Web data extraction)

Connect : Соединение

с удаленным сайтом через HTTP или FTP.
Extract : Извлечь информацию с web-сайта
Process : Выделить важные данные из ресурса и конвертиро-вать в нужный формат
Save : Сохранить данные в желаемом формате.

1

2

4

3

Слайд 53

Задачи Web-scrapping Извлеченные с помощью веб-скрейпинга данные могут использоваться для выполнения

Задачи Web-scrapping

Извлеченные с помощью веб-скрейпинга данные могут использоваться для выполнения следующих

задач:
онлайн сравнение цен;
считывание контактной информации;
мониторинг данных о чем угодно (погоде, котировках …);
обнаружение изменения веб-сайта;
проведение научного исследования;
создание веб-коллажей;
интеграция веб-данных.
Учреждения и организации не всегда свою информацию формируют в правильно структурированные и отформатированные базы данных.
Веб-скрейпинг позволяет собирать в автоматическом режиме свободно доступные данные практически любого вида в онлайн формате.
Слайд 54

Инструмены Web-scrapping

Инструмены Web-scrapping

Слайд 55

Существующие веб-скрейпинг компоненты работают по месту назначения, узконаправленно, зачастую только относительно

Существующие веб-скрейпинг компоненты работают по месту назначения, узконаправленно, зачастую только относительно

того веб-сайта для которого были написаны, вследствие чего требуют больших человеческих усилий для автоматизации систем преобразующих целые веб-сайты в структурированную информацию.
В последнее время компании-разработчики создали веб-скрейпинг системы имитации «человеческого» подхода к просмотру веб-страницы и автоматического извлечения полезной информации, основанные на использовании DOM-парсинга, компьютерного зрения и обработки естественного языка.

Методы Web-scrapping

Слайд 56

Инструменты Web-scrapping На данный момент имеется несколько решений для веб-скрейпинга. Некоторые

Инструменты Web-scrapping

На данный момент имеется несколько решений для веб-скрейпинга.
Некоторые из

них преобразуют формат HTML в другие форматы, такие как JSON, XLS, что упрощает извлечение желаемого контента.
Другие решения читают непосредственно HTML-код и позволяют пользователю определить контент как функцию HTML-иерархии, в которой размечены данные. К этой категории относится, в частности, решение Nokogiri, которое поддерживает парсинг HTML-документов и XML-документов средствами языка Ruby.
Слайд 57

Инструменты Web-scrapping Имеется еще два инструмента с открытым исходным кодом для

Инструменты Web-scrapping

Имеется еще два инструмента с открытым исходным кодом для веб-скрейпинга:

pjscrape для JavaScript и Beautiful Soup для Python.
Инструмент pjscrape базируется на использовании командной строки и способен проанализировать полностью отображенную страницу, включая JavaScript-контент.
Инструмент Beautiful Soup прозрачно интегрируется в среды Python 2 и Python 3.
Можно найти также примеры с использованием языка R.
Слайд 58

Классификация методов [8]

Классификация методов [8]

Слайд 59

Manual | Supervised | Semi-supervised | Un-supervised Manual Классификация методов [8]

Manual | Supervised | Semi-supervised | Un-supervised

Manual

Классификация методов [8]

Слайд 60

Manual | Supervised | Semi-supervised | Un-supervised Supervised Labeled Web Pages Классификация методов [8]

Manual | Supervised | Semi-supervised | Un-supervised

Supervised

Labeled Web Pages

Классификация методов [8]

Слайд 61

Manual | Supervised | Semi-supervised | Un-supervised Semi-supervised Классификация методов [8]

Manual | Supervised | Semi-supervised | Un-supervised

Semi-supervised

Классификация методов [8]

Слайд 62

Manual | Supervised | Semi-supervised | Un-supervised Unsupervised Классификация методов [8]

Manual | Supervised | Semi-supervised | Un-supervised

Unsupervised

Классификация методов [8]

Слайд 63

Существующие подходы

Существующие подходы

Слайд 64

Задание 2: Web-scrapping Используя любой из приведенных либо найденных вами способов

Задание 2: Web-scrapping

Используя любой из приведенных либо найденных вами способов извлечения

информации с web страниц, разработать программу и продемонстрировать результат ее работы.
Для примеров воспользуйтесь приведенными ниже ресурсами.
По данной работе необходимо представить подробный отчет с кодом программы и результатом выполнения.

Срок исполнения: до 20 мая

Слайд 65

Группа «Manual»: Инструменты http://web-harvest.sourceforge.net/

Группа «Manual»: Инструменты

http://web-harvest.sourceforge.net/

Слайд 66

WebHarvest: Easy Web Scraping from Java Ах, вот ты какой, рукописный wrapper …

WebHarvest: Easy Web Scraping from Java

Ах, вот ты какой,
рукописный wrapper


Слайд 67

Manual. Инструменты http://web-harvest.sourceforge.net/ http://scrapy.org/

Manual. Инструменты

http://web-harvest.sourceforge.net/

http://scrapy.org/

Слайд 68

Группы «Supervised» и «Semi-supervised» Инструменты http://www.visualwebripper.com/ http://www.lixto.com/ http://www.denodo.com http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=1192&context=oa_dissertations Ahmed, Emdad,

Группы «Supervised» и «Semi-supervised» Инструменты

http://www.visualwebripper.com/

http://www.lixto.com/

http://www.denodo.com

http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=1192&context=oa_dissertations
Ahmed, Emdad, "Post Processing Wrapper Generated Tables

For Labeling Anonymous Datasets" (2011). Wayne State University Dissertations. Paper 193.
Слайд 69

Литература Анализ данных и процессов: учеб. пособие / А. А. Барсегян,

Литература

Анализ данных и процессов: учеб. пособие / А. А. Барсегян,

М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. —3-е изд., перераб. и доп. — СПб.: БХВ-Петербург, 2009. —512 с.: ил.
Инструменты анализа Web. Л.Черняк. «Открытые системы», № 06, 2014
Web Page Scraping using Java, ресурс: http://half-wit4u.blogspot.ru/2011/01/web-scraping-using-java-api.html
Web Page Scraping with Java, ресурс: https://www.packtpub.com/books/content/creating-sample-web-scraper
Jaunt Java Web Scraping & JSON Querying , ресурс: jaunt-api.com
Web scraping с Node.js, ресурс: http://www.webdesignmagazine.ru/internet-technology/other/web-scraping-s-node-js/
Web-scraping средствами R, примеры. Ресурс: kek.ksu.ru/EOS/WM/WebScraping.docx
Chang, C.-H.,Kayed, M.,Girgis, M. R.,and Shaalan, K. F. 2006. A survey of web information extraction systems. IEEE Trans. on Knowl. and Data Eng. 18,10, 1411-1428.

69