Становление ИПС Web: краткий исторический обзор

Содержание

Слайд 2

Информационно-поисковые системы. Сычев А.В. 2006 г. Краткая история ИПС Web 1990

Информационно-поисковые системы. Сычев А.В. 2006 г.

Краткая история ИПС Web

1990 – Archie

(Alan Emtage – McGill University, Montreal):
программа-обработчик списков ftp-ресурсов, поиск по именам файлов с использованием рег. Выражений
1993 – Veronica (Nevada University)
серверы Gopher
WWW Wanderer (Matthew Gray)
база данных URL
высокий траффик
Октябрь 1993 – ALIWEB (Martijn Koster)
http-серверы
владельцы сайтов сами представляют информацию о сайте
малый объем базы данных
Слайд 3

Информационно-поисковые системы. Сычев А.В. 2006 г. Краткая история ИПС Web Декабрь

Информационно-поисковые системы. Сычев А.В. 2006 г.

Краткая история ИПС Web

Декабрь 1993:
Jump Station

– индексирование заглавий и заголовков – линейный поиск в базе данных
WWW Worm – индексирование заглавий и URL, использование рег. выражений для поиска
RSBE (Repository-Based Software Engineering) – ранжирование по ключевым словам
Февраль 1993 - Excite
использование статистического анализа связей между словами для эффективного поиска
Слайд 4

Информационно-поисковые системы. Сычев А.В. 2006 г. Краткая история ИПС Web Январь

Информационно-поисковые системы. Сычев А.В. 2006 г.

Краткая история ИПС Web

Январь 1994 -

Tradeware Galaxy
группировка гиперссылок по иерархическим категориям
ручная группировка ссылок – высокое качество ссылок – незначительное количество найденных страниц
Апрель 1994 – Yahoo (David Filo, Jerry Yang)
каталог с возможностями поиска
автоматизация процесса сбора и классификации
Слайд 5

Информационно-поисковые системы. Сычев А.В. 2006 г. Краткая история ИПС Web 1994

Информационно-поисковые системы. Сычев А.В. 2006 г.

Краткая история ИПС Web

1994 – WebCrawler

(Brian Pinkerton – Wash. Univ.)
индексирование полного текста страницы
Июль 1994 - Lycos (Michael Mauldin – Carnegie Mellon Univ.)
ранжирование по релевантности
частичное соответствие
учет пространственной близости слов
Январь 1994 – Infoseek
дружественный интерфейс
каталог
Слайд 6

Информационно-поисковые системы. Сычев А.В. 2006 г. Краткая история ИПС Web Декабрь

Информационно-поисковые системы. Сычев А.В. 2006 г.

Краткая история ИПС Web

Декабрь 1995 –

AltaVista (DEC)
Первая ИПС промышленного масштаба (миллионы запросов в день)
Использование естественного языка в запросах
Поддержка логических операторов
Поиск по названиям изображений, Java апплетов и ActiveX объектов
Добавление и удаление пользователем своего URL в индексе
Поиск сайтов, ссылающихся на конкретный URL
Контекстная помощь
Слайд 7

Информационно-поисковые системы. Сычев А.В. 2006 г. Краткая история ИПС Web 1995

Информационно-поисковые системы. Сычев А.В. 2006 г.

Краткая история ИПС Web

1995 – MetaCrawler

(Eric Selburg – Wash. Univ.)
Выполнение запроса одновременно несколькими поисковыми системами
Сбор и переформатирование результатов на одной странице
Отображение рекламы
Слайд 8

Информационно-поисковые системы. Сычев А.В. 2006 г. Май 1996 - Inktomi первая

Информационно-поисковые системы. Сычев А.В. 2006 г.

Май 1996 - Inktomi
первая система, которая

включала сайты в выдачу за плату.
Апрель 1997 - Ask Jeeves (затем Ask.com)
попытка ранжировать сайты на основе их популярности, однако алгоритм имел слабую защиту перед спамом.
в 2000 появилась поисковая система Teoma, которая использовала кластеризацию для группировки сайтов по Тематической Популярности (Subject Specific Popularity). На разработку данной системы большое влияние оказала статья Джона Кляйнберга “Authoritative sources in a hyperlinked environment ”.

Краткая история ИПС Web

Слайд 9

Информационно-поисковые системы. Сычев А.В. 2006 г. 1998 - Overture Впервые была

Информационно-поисковые системы. Сычев А.В. 2006 г.

1998 - Overture
Впервые была реализована

модель “платы за клик”.

Краткая история ИПС Web

Слайд 10

Информационно-поисковые системы. Сычев А.В. 2006 г. Краткая история ИПС Web 1999

Информационно-поисковые системы. Сычев А.В. 2006 г.

Краткая история ИПС Web

1999 – Google

(Sergey Brin, Larry Page – Stanford Univ.)
Алгоритм ранжирования PageRank
Оптимизация архитектуры системы
Масштабирование и распараллеливание (Linux-кластеры)
Восстановление текста документа без обращения к его оригиналу в Интернет
Слайд 11

Информационно-поисковые системы. Сычев А.В. 2006 г. История ИПС Web в России Яндекс Rambler Апорт

Информационно-поисковые системы. Сычев А.В. 2006 г.

История ИПС Web в России

Яндекс
Rambler
Апорт

Слайд 12

Информационно-поисковые системы. Сычев А.В. 2006 г. Яндекс 1990 – компания Аркадия

Информационно-поисковые системы. Сычев А.В. 2006 г.

Яндекс

1990 – компания Аркадия (Аркадий Борковский

и Аркадий Волож):
Начало разработки поискового программного обеспечения. За два года работ созданы Международная классификация Изобретений и Классификатор Товаров и Услуг
1993 – Аркадия становится подразделением CompTek. Сотрудничество с лабораторией Ю.Д.Апресяна (ИППИ РАН). Создание словаря для поиска с учетом морфологии русского языка (300 КБ).
Начало 1996 г. Разработан алгоритм построения гипотез (снятие привязки к словарю) для незнакомых слов.
Лето 1996. Руководство CompTek и разработчики пришли к выводу о самоценности развития самой технологии. Появление “Яndex” в Интернете.
“Яndex” = “языковой индекс”, “Yet Another Index”. “I” = “Я”.
Слайд 13

Информационно-поисковые системы. Сычев А.В. 2006 г. Осень 1997 г.: открытие Yandex.ru

Информационно-поисковые системы. Сычев А.В. 2006 г.

Осень 1997 г.:
открытие Yandex.ru
реализован естественно-языковой интерфейс
Май

2001 г. Новая версия ИПС “Яндекс”.

Яндекс

Слайд 14

Информационно-поисковые системы. Сычев А.В. 2006 г. Как устроен Яндекс Яндекс

Информационно-поисковые системы. Сычев А.В. 2006 г.

Как устроен Яндекс

Яндекс

Слайд 15

Информационно-поисковые системы. Сычев А.В. 2006 г. Яндекс в железе Яндекс

Информационно-поисковые системы. Сычев А.В. 2006 г.

Яндекс в железе

Яндекс

Слайд 16

Информационно-поисковые системы. Сычев А.В. 2006 г. 1991 – команда единомышленников. 1996

Информационно-поисковые системы. Сычев А.В. 2006 г.

1991 – команда единомышленников.
1996 – запуск

в эксплуатацию поискового механизма Rambler.ru
Февраль 1997 – рейтинговая система Rambler’s Top100.

Rambler

Слайд 17

Информационно-поисковые системы. Сычев А.В. 2006 г. 1996 – демонстрация поисковой машины

Информационно-поисковые системы. Сычев А.В. 2006 г.

1996 – демонстрация поисковой машины “Апорт”.
Октябрь

1999 – “Апорт 2000”, интегрированная с каталогом “Каталог-Апорт”.
Первая российская поисковая машина, реализовавшая учет “ранга страницы” и обработку запроса с ориентацией на HTML-код страницы.

Апорт