МЕТОД МОНТЕ-КАРЛО ДЛЯ ПОИСКА В ДЕРЕВЕ
ВЫБОР
Каждую позицию мы рассматриваем как задачу
многорукого бандита. Узлы на каждом этапе выбираются согласно алгоритму UCB. Эта фаза действует до тех пор, пока не будет найден узел в котором еще не все дочерние узлы имеют статистику побед. На рисунке первое значение в узле это количество побед, второе общее количество игр в этом узле.
РАСШИРЕНИЕ
Когда алгоритм UCB больше не может быть применим, добавляется новый дочерний узел.
СИМУЛЯЦИЯ
Из созданного на предыдущем этапе узла запускается игра со случайными или, в случае использования эвристик, не совсем случайными ходами. Игра идет до конца партии. Здесь важна только информация о победителе, оценка позиции не имеет значения.