Теория и практика информационно-аналитической работы. Семинар 6 2018

Содержание

Слайд 2

Запускаем telegram-каналы1 Большинство telegram-каналов – вовсе не про «инсайд», это просто

Запускаем telegram-каналы1

Большинство telegram-каналов – вовсе не про «инсайд», это просто сборка

сообщений по какой-то теме, вытащенных из открытых источников.
Значит, задача создания telegram-канала сводится к следующим элементарным фрагментам:
Выбор темы
Составление поискового запроса
Упаковка ежедневного набора сюжетов
Третий пункт – ваш авторский выбор, мы здесь оттачиваем первые два.
Слайд 3

Выбор темы Выбор темы определяется следующими критериями: Интуитивная понятность для потребителя:

Выбор темы

Выбор темы определяется следующими критериями:
Интуитивная понятность для потребителя: Тема «Новости

рынка китайских автомобилей в России» – правильная, тема «Резонансные проблемы регионов» тема неправильная
Главное: тема должна конечным образом укладываться в поисковый запрос для той поисковой системы, которую мы используем. Поэтому тему иногда приходится корректировать под запрос, а не только запрос под тему
Размер выдачи документов – соответствовать тем ресурсам, которые вы можете выделить для их обработки
Слайд 4

Составление поискового запроса Пишем запрос на поиск информации по теме: «Недовольство

Составление поискового запроса

Пишем запрос на поиск информации по теме: «Недовольство В.Путина

работой чиновников»
Важно:
Тема, название телеграм-канала и состав лексем информационного запроса это три разные сущности
Запрос пишем под Яндекс.Новости. Если пишем под Google или Медиалогию – возможности другие, значит, логика поиска и логика самого телеграм-канала будет чуть другой. Запрос в Google это не упрощенный запрос в Яндекс.Новости, и не еще более упрощенный запрос в Медиалогию. Это три разные логики построения поиска!
Слайд 5

Выделяем ключевые лексемы1 Вспоминаем: пишем простейший запрос на естественном языке, читаем

Выделяем ключевые лексемы1

Вспоминаем: пишем простейший запрос на естественном языке, читаем первые

сто-двести документов, выделяем ключевые лексемы
Лексема первая: Президент России В.В.Путин, описывается словами и словосочетаниями:
Путин (в принципе его вполне достаточно)
Президент РФ
Президент России
Так как все слова описывают (относятся) к одному понятию, то они должны объединяться через словосочетание «ИЛИ»:
Путин ИЛИ «Президент РФ» ИЛИ «Президент России»
Тогда запрос на это понятие для Яндекс.Новости имеет вид:
Путин | «Президент РФ» | «Президент России»
Еще можно учесть, что РФ и Россия – синонимы, тогда:
запрос для Яндекс.Новости может быть такой:
Путин | (Президент /1 (РФ | России))
Слайд 6

Выделяем ключевые лексемы2 Понятие «недоволен» – формируем набор лексем: Недоволен, раскритиковал,

Выделяем ключевые лексемы2

Понятие «недоволен» – формируем набор лексем:
Недоволен, раскритиковал, пожурил ,

критикует , возмутился, разгневан, рассержен , рассердился, рассердило, недовольство, критика, разнос, гнев, неудовольствие … И еще сто лексем.
Выбираем (интуитивно, по опыту!) наиболее значимые. Ваш выбор, ваш опыт, ваше решение.
Фрагмент запроса под это понятие к тестированию:
(недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | обвинил | рассержен | рассердился | рассердило | недовольство | критику | разнос | гнев | неудовольствие | укорять)
Слайд 7

Выделяем ключевые лексемы3 Понятие «чиновники» – формируем набор лексем: Чиновники, министр,

Выделяем ключевые лексемы3

Понятие «чиновники» – формируем набор лексем:
Чиновники, министр, замминистра, премьер,

вице-премьер, ….
Силуанов, Голодец , Мединский, Дворкович …
Министерство, ведомство, правительство….
Минфин, Минобрнауки. Центробанк …
И еще десять категорий, в каждой из которых сто лексем
Выбираем (интуитивно, по опыту!) наиболее значимые. Ваш выбор, ваш опыт, ваше решение.
Фрагмент запроса для понятия «чиновники»:
(Чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Мединский| Дворкович | Министерство | ведомство | правительство | Минфин | Минобрнауки | Центробанк)
Слайд 8

Как можно было сделать 3 Понятие «чиновники»: Чиновники ИЛИ министр ИЛИ

Как можно было сделать 3

Понятие «чиновники»:
Чиновники ИЛИ министр ИЛИ замминистра ИЛИ

премьер ИЛИ вице-премьер ИЛИ
Силуанов ИЛИ Голодец ИЛИ Ливанов ИЛИ Дворкович ИЛИ …
Министерство ИЛИ ведомство ИЛИ правительство
Минфин ИЛИ Минобрнауки ИЛИ Центробанк …
Кусок запроса для понятия «чиновники»:
(Чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Ливанов | Дворкович | Министерство | ведомство | правительство | Минфин | Минобрнауки | Центробанк)
Слайд 9

Формируем запрос Соединяем три фрагмента запроса: (Путин | (Президент /1 (РФ

Формируем запрос

Соединяем три фрагмента запроса:
(Путин | (Президент /1 (РФ | России)))

& (недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | рассержен | рассердился | рассердило | недовольство | критику | разнос | гнев | неудовольствие) & (чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Ливанов | Дворкович | Министерство | ведомство | правительство | Минфин | Минобрнауки | Центробанк)
Проверяем этот запрос в Яндекс.Новости и видим, что выборка … явно не такая, как требуется
Слайд 10

Проверяем в Яндекс.Новости Помните про ограничение на длину запроса!

Проверяем в Яндекс.Новости

Помните про ограничение на длину запроса!

Слайд 11

Отладка запроса1: Что видно? Есть критика Путина в адрес кого-то и

Отладка запроса1:

Что видно?
Есть критика Путина в адрес кого-то и критика

в адрес самого Путина и критика от имени помощников Путина…
Почему так получилось?
Потому что Путин сам нередко становится объектом критики.
Кроме того, в одном предложении может встречаться «Путин» и критика, адресованная вообще другому лицу.
И как этого избежать?
«Отрицать» все лишнее (плохой выход – слишком много надо отрицать)
Добавить понятие – объект (или предмет) критики.
Задать жесткий порядок слов: не «критикуют Путина», но «Путин критикует».
Отключить морфологию некоторых слов. Чтобы убрать вариант «помощник Путина критикует».
Слайд 12

Отладка запроса2 Второй способ – добавить четвертое понятие - «предмет или

Отладка запроса2

Второй способ – добавить четвертое понятие - «предмет или повод

для критики»:
(Работу | решение | инициативу | закон | предложение | бюрократический | бюрократ | подход). Тем самым:
Скрытым образом заужаем тему (например, исчезла критика личной нескромности)
(Путин | (Президент /1 (РФ | России))) & (недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | рассержен | рассердился | рассердило | недовольство | критику | разнос | гнев | неудовольствие | укор) & (Работу | решение | инициативу) & (Чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Мединский| Министерство | ведомство | правительство)
Проверяем запрос в Яндекс.Новости и видим, что… выборка резко уменьшилась, и все равно не очень нас устраивает качеством
Слайд 13

Проверяем в Яндекс.Новости Помните про ограничение на длину запроса!

Проверяем в Яндекс.Новости

Помните про ограничение на длину запроса!

Слайд 14

Отладка запроса4 Второй вариант чуть лучше, но все равно большой шум,

Отладка запроса4

Второй вариант чуть лучше, но все равно большой шум, хотя

выборка резко уменьшилась в объеме. Пробуем дальше
Как в Яндекс задать жесткий порядок слов?
Используем оператор /(1 7) поиск на расстоянии от 1 до 7 слов, с учетом порядка.
((Путин | (Президент /1 (РФ | России))) /(1 7) (недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | рассержен | рассердился | рассердило | недовольство | критику | разнос | гнев | неудовольствие | укор)) & (Работу | решение | инициативу) & (Чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Ливанов | Министерство | ведомство | правительство)
Слайд 15

Проверяем в Яндекс.Новости Обратите внимание как меняется выборка документов: сообщений стало

Проверяем в Яндекс.Новости

Обратите внимание как меняется выборка документов: сообщений стало меньше,

но и шума почти не видно.
Слайд 16

Отладка запроса5 Третий вариант заметно лучше, но попробуем продолжить работу Как

Отладка запроса5

Третий вариант заметно лучше, но попробуем продолжить работу
Как в Яндекс

задать жесткую форму слова?
Используем оператор ! перед какими словами?
Путин
((!Путин | (!Президент /1 (РФ | России))) /(1 7) (недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | рассержен | рассердился | рассердило | недовольство | критику | разнос | гнев | неудовольствие | укор)) & (Работу | решение | инициативу) & (Чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Ливанов | Министерство | ведомство | правительство)
Слайд 17

Проверяем в Яндекс.Новости

Проверяем в Яндекс.Новости

Слайд 18

Как можно было сделать 9 Последний вариант еще лучше, только маловато

Как можно было сделать 9

Последний вариант еще лучше, только маловато статей

– всего около 500 (вообще в Яндекс.Новости). Значит, дневной массив будет совсем небольшим.
Возвращаемся на шаг вверх и принимаем решение убрать дополнительное понятие – предмет-повод для критики
((!Путин | (!Президент /1 (РФ | России))) /(1 7) (недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | рассержен | рассердился | рассердило | недовольство | критику | разнос | гнев | неудовольствие)) & (Чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Ливанов | Министерство | ведомство | правительство | Минфин | Минобрнауки | Центробанк)
Полученная выборка практически чистая, но в ней Путин чаще критикует США, а не наших чиновников…
Слайд 19

Проверяем в Яндекс.Новости

Проверяем в Яндекс.Новости

Слайд 20

И что делать? Добавим жесткий порядок слов еще и между понятиями

И что делать?

Добавим жесткий порядок слов еще и между понятиями «недовольство»

и «чиновник», а также добавим отрицание (всего двух слов), предварительно убрав и слово «гнев» (не влезает в ограничение на 400 символов).
!Путин /(1 7) (недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | рассержен | рассердился | рассердило | недовольство | !критику | разнос | неудовольствие) /(1 50) (Правительство | "вице-премьер" | чиновник | бюрократ | Минтруда | Минздрав | Минфин | МЭР | Минэкономразвития | Минтранс | Минобороны | Медведев | Голодец | Силуанов | Васильева | Трутнев) ~~ (Украина | США)
Слайд 21

Проверяем в Яндекс.Новости

Проверяем в Яндекс.Новости

Слайд 22

Итоги В последнем варианте мы получили нормальный результат – порядка 50-100

Итоги

В последнем варианте мы получили нормальный результат – порядка 50-100 материалов

на день (4-10 сюжетов) и уровень шума незначительный. Это вполне приемлемо для компактной обработки.
Краткие выводы на будущее:
Оказалось, что очень важно понимать как будет написано (сформулировано) в тексте то, что мы ищем.
Оказалось, что сложные операторы действительно полезны.
Иногда приходится сперва делать определенные ограничения, а потом появляется возможность от них отказаться (пример – введение дополнительного понятия предмет-повод для критики
Слайд 23

План дальнейшей работы на вторую половину занятия Те, у кого есть

План дальнейшей работы на вторую половину занятия

Те, у кого есть ноутбуки

– к доске. По очереди выдергивают из аудитории по одному в свою команду
Каждая группа садится и организует работу внутри себя – по алгоритму, который был изложен на первом этапе занятия
Выбирается тема
Выбираются понятия
Строятся фрагменты запроса под каждое понятие
Отлаживается запрос
Уточняется тема
Итог работы – страничка выгрузки из Яндекс.Новости за день по сделанному запросу, которую мы все вместе обсуждаем
Слайд 24

Советы и рекомендации1 Распределение времени (рекомендую) 5 минут – формирование команд

Советы и рекомендации1

Распределение времени (рекомендую)
5 минут – формирование команд
5 минут –

выбор темы и обсуждение
10 минут – чтение результатов поиска на свободном языке, отбор лексем
15 минут – отладка запроса
10 минут - резерв
Слайд 25

Советы и рекомендации2 Распределение людей (рекомендую) Название темы, выбор понятий –

Советы и рекомендации2

Распределение людей (рекомендую)
Название темы, выбор понятий – все вместе
Отработка

частей запроса – раздать внутри группы (если больше одного ноутбука)
Сведение запроса и отладка – один исполнитель, один принимающий решение, остальные участвуют в обсуждении