Задача: Применить графический и аналитический методы поиска оптимальных стратегий для 2x2 игры с матрицей выплат для игрока-строки:
A = [-3, 8; 3, 2]
Предполагаем, что игра нулевой суммы (вектор выплат для столбца — минус выплат для строки). Тогда нужно найти смешанные стратегии обоих игроков и значение игры.
- Графический метод
- Пусть p — вероятность того, что игрок-строка выберет первую строку (а 1−p — вторую).
- Ожидаемая выплата игрока-строки при выборе столбца 1: E(p,1) = p·(-3) + (1−p)·3 = 3 − 6p.
- Ожидаемая выплата при выборе столбца 2: E(p,2) = p·8 + (1−p)·2 = 2 + 6p.
График состоит из двух прямых: y = 3 − 6p и y = 2 + 6p на отрезке p ∈ [0,1].
Стратегия игрока-строки направлена на максимизацию минимального значения между этими двумя линиями:
v(p) = min{3 − 6p, 2 + 6p}.
Найдем точку, где эти две линии равны:
3 − 6p = 2 + 6p → 1 = 12p → p* = 1/12.
Значение игры: v(p*) = 3 − 6·(1/12) = 3 − 0.5 = 2.5 (или равняется 2 + 6·(1/12) = 2.5).
Итак, графически оптимальная стратегия игрока-строки — p* = 1/12 на первую строку и 11/12 на вторую строку.
- Аналитический метод
- Чтобы максимизировать минимум из двух выражений, равняем их:
3 − 6p = 2 + 6p → p = 1/12.
Значение игры: v = 2.5.
Дополнительно можно рассчитать оптимальную смешанную стратегию для столбца (чтобы строка была действительно неопределенной между строками, если нужно посмотреть симметрично):
- Пусть столбец выбирает q на первую колонку и 1−q на вторую.
- Ожидания для строк:
- Row1: E1 = q·(−3) + (1−q)·8 = −3q + 8 − 8q = 8 − 11q.
- Row2: E2 = q·3 + (1−q)·2 = 3q + 2 − 2q = 2 + q.
- Уравняем их: 8 − 11q = 2 + q → 6 = 12q → q = 1/2.
Значение игры при этом равно E1 = E2 = 8 − 11·1/2 = 8 − 5.5 = 2.5 (или 2 + 1/2 = 2.5).
Итоги
- Оптимальная смешанная стратегия игрока-строки:
p = (первую строку) = 1/12, (вторую строку) = 11/12.
- Оптимальная смешанная стратегия игрока-столбца:
q = (первую колонку) = 1/2, (вторую колонку) = 1/2.
- Значение игры: 2.5 в пользу игрока-строки.
Проверка
- При противнике, выбирающем первую колонку: E(p*,1) = 3 − 6·(1/12) = 2.5.
- При противнике, выбирающем вторую колонку: E(p*,2) = 2 + 6·(1/12) = 2.5.
- При p = 1/12, q = 1/2: обе строки дают 2.5, значит ни один игрок не может улучшить свою ожидаемую выплату односторонне.
Если нужно, могу показать аналогичный разбор под другим форматом матрицы или рассмотреть не нулевую сумму как общий случай (нахождение равновесий Нэша).