Пуассоновский двурукий бандит

Слайд 2

Постановка задачи Имеются два разных действия, обычно это представляется как использование

Постановка задачи

Имеются два разных действия, обычно это представляется как использование ручек

у двурукого игрового бандита
Применение любого действия сопровождается случайным доходом, вероятности получения дохода неизвестны, но фиксированы
Необходимо выбирать действия так, чтобы доход был максимальным
Слайд 3

Пуассоновский двурукий бандит Отличается тем, что рассматривается не дискретное время, а

Пуассоновский двурукий бандит

Отличается тем, что рассматривается не дискретное время, а непрерывное
Распределение

Пуассона описывает вероятности наступления событий в заданном промежутке времени, если они порождаются простым потоком событий.
Простой поток событий характеризуется свойствами стационарности, ординарности и отсутствия последействия
Слайд 4

Стратегия выбора действия Байесовская стратегия состоит в минимизации функции потерь на

Стратегия выбора действия

Байесовская стратегия состоит в минимизации функции потерь на всём

множестве допустимых значений параметра Θ = {θ1, …, θK}. Функцией потерей является разность между максимальным возможным и реальным полным ожидаемым доходом
Байесовский риск вычисляется по следующей формуле
Слайд 5

Байесовская стратегия Апостериорное распределение вероятностей вычисляется при наличии предыстории Это классическая

Байесовская стратегия

Апостериорное распределение вероятностей вычисляется при наличии предыстории
Это классическая Байесовская формула
Априорное

распределение обычно выбирается в ходе экспертной оценки
Слайд 6

Байесовская стратегия Необходимо на каждом шаге выбирать действие с наименьшим Байесовским

Байесовская стратегия

Необходимо на каждом шаге выбирать действие с наименьшим Байесовским риском.

Для первой ручки формула риска будет выглядеть так