Crawler вакансий

Содержание

Слайд 2

В чем отличие вакансий Crawler от вакансий Scripters?

В чем отличие вакансий Crawler от вакансий Scripters?

Слайд 3

Вакансия с Job Board

Вакансия с Job Board

Слайд 4

Вакансия с первоисточника

Вакансия с первоисточника

Слайд 5

Каким он должен был быть, и каким он есть сейчас Обучение -> Валидация -> Индексирование

Каким он должен был быть, и каким он есть сейчас

Обучение ->

Валидация -> Индексирование
Слайд 6

Сколько людей работает в отделе Crawler? 31

Сколько людей работает в отделе Crawler?

31

Слайд 7

Общая схема работы отдела

Общая схема работы отдела

Слайд 8

Немножко цифр Сколько сайтов индексирует Crawler на данный момент? 23 452

Немножко цифр

Сколько сайтов индексирует Crawler на данный момент?

23 452 сайта/523 053

вакансий

Сколько в среднем новых сайтов добавляется в индекс?

250 сайтов/день

Сколько в среднем обрабатывается новых сайтов?

1 500 сайтов/день

Сколько новых сайтов в очереди на обработку?

72 000 сайтов

12 155 сайтов/7 187 494 вакансий

12 сайтов/день

9 сайтов/день

Какое среднее кол-во вакансий на один проект?

22 вакансии на проект

590 вакансий на проект

Сколько менеджеры пришлют

Слайд 9

Откуда Crawler берет так много сайтов? Ежедневный автоматический парсинг Indeed Поиск

Откуда Crawler берет так много сайтов?

Ежедневный автоматический парсинг Indeed
Поиск сайтов по

названию компаний
Парсинг Job Boards на наличие сайтов первоисточников
Обработка ATS

Парсинг, парсинг и ещё раз парсинг…

Слайд 10

Чем вы можете нам помочь? Отправляйте на dd@jooble.com: Сайты компаний с

Чем вы можете нам помочь?

Отправляйте на dd@jooble.com:

Сайты компаний с вакансиями
Локальные каталоги

компаний
Локальные ATS
Любые другие источники сайтов компаний
Слайд 11

Слайд 12

Слайд 13

Слайд 14

Слайд 15

Какие цели и задачи стоят перед отделом? «Помочь людям найти работу»

Какие цели и задачи стоят перед отделом?

«Помочь людям найти работу» Прокофьев Р.В.

Максимально

увеличить кол-во вакансий из первоисточников в базах Jooble

Для начала: - Проиндексировать все, что индексирует Indeed

Затем:
- Уничтожить Indeed и проиндексировать все остальное

Слайд 16

Проблемы отдела Crawler требует ещё много технических улучшений и доработок Нет

Проблемы отдела

Crawler требует ещё много технических улучшений и доработок
Нет 100% автоматического

способа определить есть ли на сайте вакансии
Криворукие программисты сайтов
Нет способа автоматически опознавать мертвые сайты
Слайд 17

Слайд 18

Результаты работы

Результаты работы