![[数学] フォン・ノイマンが切り拓いたゲーム理論 ── ミニマックスから現代の戦略思考へ](https://humanxai.info/images/uploads/mathematics-john-von-neumann.webp)
要約(TL;DR)
ゲーム理論は「人と人がどう動くかを数学で読む学問」。
その出発点はフォン・ノイマン(John von Neumann)という20世紀の天才数学者でした。
1928年、彼は「どんな対戦ゲームでも、必ずお互いに最善の戦略がある」と証明します。これがミニマックス定理。
簡単に言えば──
「相手がどんな手を打ってきても、自分が被る最悪の損失をできるだけ小さくする戦い方」が存在する、ということです。
さらに、1944年に経済学者モルゲンシュテルンと本を書き、期待効用理論をまとめます。
これは「人は不確実な結果を、確率×効用(満足度)の平均で判断する」という考え方で、ゲーム理論を経済や社会科学に応用できる道を開きました。
こうして、「不確実さを戦略に組み込む(混合戦略)」と「相手の反応を先読みする(ミニマックス)」という2つの柱が立ち、そこからナッシュ均衡や協力ゲーム、オークション理論などが広がっていったのです。
1. 何を解く理論か(イントロダクション)
ゲーム理論は、相互依存する意思決定を数学化する。囲碁・将棋だけでなく、価格競争、軍事の抑止、標準規格争い、広告戦略、通信プロトコルまで、相手の出方が自分の結果を左右する場面を扱う。
フォン・ノイマンが与えた視点は明快だ:「相手が自分の損を最大にしようと動くとしても、被害を最小に抑える戦略は何か」。この視点がゼロ和ゲームでのミニマックスへと結晶する。
-
「相互依存する意思決定」
→ 自分の勝ち負けが、相手の選択で変わる状況すべて。
→ 将棋や囲碁だけじゃなく、値下げ競争や軍拡競争、広告バトルもこれに入る。 -
ゼロ和ゲーム
→ 「一方の得は他方の損」に完全対応する場面。
→ 100点のやり取りなら、相手が +30 点なら自分は −30 点。利害が完全に反対。 -
ミニマックスの直感
→ 「相手が最悪の一手を打ってきたとしても、こちらの被害を最小にできる作戦」。
→ 日常の例なら「テストで最も苦手な問題が出ても、0点にならず最低限の点を確保する勉強法」を選ぶイメージ。
2. 歴史の要点(年表)
- 1928:論文 Zur Theorie der Gesellschaftsspiele(社会的遊戯の理論に寄せて)。ミニマックス定理を証明。
- 1944:モルゲンシュテルンと共著 Theory of Games and Economic Behavior。**期待効用の公理系(VNM効用)**と経済学への応用を体系化。
- 1950–51:ナッシュが**非ゼロ和ゲーム一般の均衡概念(ナッシュ均衡)**を提示(フォン・ノイマンの土台の上に拡張)。
- 1953:クーンが**拡張形(木構造)を整備、シャープレイが協力ゲームの価値(Shapley値)**を提示。
- 1967–68:ハーサニが不完備情報のモデル化(型の導入)を確立。
-
1928 ミニマックス
→ 「ゼロ和ゲームには必ず解(安全策)がある」という数学的保証。
→ 将棋や軍事シナリオみたいな「一方が勝てば一方が負ける」場面の基礎。 -
1944 期待効用理論
→ ノイマン+モルゲンシュテルン。
→ 「人間は不確実な選択を、確率×満足度の平均で比較して決める」というルールを整理。
→ ここでゲーム理論が経済学の言語になった。 -
1950–51 ナッシュ均衡
→ 「相手の戦略を変えても自分が得をしない」状態。
→ ゼロ和に限らず、協力・競争が混じった場面も扱えるようにした。 -
1953 クーン・シャープレイ
→ クーン:ゲームを木(分岐図)として表す仕組みを定義。
→ シャープレイ:協力したときの「報酬の分け前」を公平に決める数式(Shapley値)。 -
1967–68 ハーサニ
→ 相手の情報が完全に見えない状況(不完備情報)をモデル化。
→ 「相手がどのタイプか確率で想定する」という枠組みを導入。
3. モデルの構成要素(ノイマン流の基礎)
- プレイヤー:意思決定主体。
- 戦略:取りうる行動規則(一次元の選択だけでなく、各情報時点での条件付き行動まで含む)。
- 利得(ペイオフ):各プレイの結果に対する数値化された評価。ゼロ和では一方の利得が他方の損失。
- 情報:同時手/順番手、完全/不完全情報など。
- 混合戦略:戦略を確率混合する。フォン・ノイマンの革新は、確率選択自体を戦略空間に昇格させた点。
翻訳メモ(自分用)
-
プレイヤー
→ 対局者、企業、国家…「意思決定する存在」なら何でもいい。
→ ゲーム理論では“人”に限らない。 -
戦略
→ 単なる「一回の選択肢」ではない。
→ もしゲームが何手も続くなら「そのときどきの情報に応じてどう動くか」をあらかじめ決めた“行動計画”。
→ 将棋なら「角を動かす」ではなく「盤面ごとに一連の応手を決めておく」イメージ。 -
利得(ペイオフ)
→ 「点数」や「利益」の形に換算した結果。
→ ゼロ和なら、相手が +5 点なら自分は −5 点。利害が完全に反対。 -
情報
→ 「同時手」=相手の動きを知らずに選ぶ。
→ 「順番手」=相手の手を見てから動ける。
→ 「完全情報」=盤面のすべてが分かっている(将棋)。
→ 「不完全情報」=相手のカードが見えない(ポーカー)。 -
混合戦略
→ 行動をサイコロや確率で混ぜる。
→ ノイマンの大発明は「ランダムに選ぶこと自体が正規の戦略だ」と定義したこと。
→ 例:じゃんけんで「グー70%、チョキ30%」という戦い方を数学的に扱えるようにした。
4. 二人ゼロ和ゲームと行列表現
ゼロ和では、行プレイヤー(R)と列プレイヤー(C)の利得は相反し、ひとつの行列 $A$ だけで表せる(Rの利得が $A_{ij}$)。
- Rが分布 $p$、Cが分布 $q$ を選ぶと、Rの期待利得は $p^T A q$。
- Rは minimax:$\max_p \min_q p^T A q$ を狙い、Cは maximin:$\min_q \max_p p^T A q$ を狙う。
ミニマックス定理(1928):
任意の有限二人ゼロ和ゲームで
$\max_{p},\min_{q}, p^T A q ,=, \min_{q},\max_{p}, p^T A q$
が成り立ち、等式値 $v$(ゲームの値)を達成する最適混合戦略 $p^, q^$ が存在する。
これは**鞍点(サドルポイント)**の存在主張であり、確率を戦略に混ぜることで初めて一般に成立する。
直観:純戦略だけだと「後出しジャンケン」になり揺れ続けるが、確率を混ぜると相手の期待値を釣り合いにし、どちらもそれ以上改善できない「均衡点」に固定できる。
-
行列 $A$ の意味
→ $A_{ij}$ は「Rが行$i$を選び、Cが列$j$を選んだときのRの点数」。
→ Cの点数はちょうど $-A_{ij}$。だから1つの行列で全体が表せる。 -
$p^T A q$
→ $p$ = Rの手の確率分布、$q$ = Cの確率分布。
→ その掛け算で「期待利得(平均点)」が出る。
→ 要するに「お互いにサイコロ戦略を混ぜたときの平均スコア」。 -
minimax / maximin
→ R(行プレイヤー)は「Cが一番意地悪に動いてきても、最大限マシな結果を取れるように」動く。
→ C(列プレイヤー)はその逆。
→ つまり両者が「最悪を見越した最善策」をとってる。 -
ミニマックス定理
→ 「順番を逆にしても答えが同じになる」という保証。
→ これが成立するから「安全値=ゲームの値」がきっちり決まる。 -
鞍点(サドルポイント)
→ グラフにすると「谷と山のちょうど境目」のような点。
→ 上下から見ても、左右から見ても安定。 -
直感例
→ ジャンケンを純戦略だけで考えると、グーに勝つためにパー…それに勝つためにチョキ…と無限ループ。
→ でも「1/3ずつ混ぜる」と相手の期待値は常にゼロに固定される。
→ これが「混合戦略の力」。
例:2×2ゼロ和ゲーム
行プレイヤー(R)が「上」「下」のどちらかを選ぶ。
列プレイヤー(C)が「左」「右」のどちらかを選ぶ。
Rの利得を行列 $A$ で表すと:
$$ A = \begin{bmatrix} 1 & -1 \ -1 & 1 \end{bmatrix} $$
-
意味:
- (上, 左) → Rは +1
- (上, 右) → Rは −1
- (下, 左) → Rは −1
- (下, 右) → Rは +1
-
対称構造だから「まるでジャンケンの縮小版(勝ち/負けだけ)」になってる。
混合戦略の計算
- Rの確率分布を $p = (p, 1-p)$ とする(上を選ぶ確率 = $p$)。
- Cの確率分布を $q = (q, 1-q)$ とする(左を選ぶ確率 = $q$)。
期待利得は
$$ p^T A q = \begin{bmatrix} p & 1-p \end{bmatrix} \begin{bmatrix} 1 & -1 \ -1 & 1 \end{bmatrix} \begin{bmatrix} q \ 1-q \end{bmatrix} $$
計算ステップ
- まず $Aq$ を計算:
$$ Aq = \begin{bmatrix} 1 & -1 \ -1 & 1 \end{bmatrix} \begin{bmatrix} q \ 1-q \end{bmatrix}
\begin{bmatrix} 2q - 1 \ 1 - 2q \end{bmatrix} $$
- 次に $p^T(Aq)$ を計算:
$$ p^T(Aq) = p(2q - 1) + (1-p)(1 - 2q) $$
- 展開して整理:
$$ = 2pq - p + 1 - 2q - p + 2pq = 4pq - 2p - 2q + 1 $$
解釈
- $E(p,q) = 4pq - 2p - 2q + 1$ が Rの期待利得。
- $p,q$ を0〜1で動かすと、この値が上下に揺れる。
- 最適戦略を探すと、$p=0.5, q=0.5$ に落ち着いて、期待利得は0。 → お互い50:50で混ぜるのが均衡。
-
式の意味
- $p$ = Rが上を選ぶ確率
- $q$ = Cが左を選ぶ確率
- $E(p,q)$ が「平均的な勝ち点」
-
均衡点
- どちらも半々に混ぜると「誰も得しない=0」に安定する。
- 片方が確率をずらすと相手に読まれて損する。
5. 手計算レシピ:2×2ゼロ和の解き方
行列
$$ A = \begin{pmatrix} a & b \ c & d \end{pmatrix}. $$
-
行プレイヤー R の混合比
- 行1を選ぶ確率を $p$、行2は $1-p$ とする。
- Cが列1を選んだときのRの期待利得:$E(C1) = ap + c(1-p)$
- Cが列2を選んだときのRの期待利得:$E(C2) = bp + d(1-p)$
- Rにとって「どっちを選ばれても同じ」にすれば安全。 → $E(C1) = E(C2)$ から $p$ を解く。
-
列プレイヤー C の混合比
- 列1を選ぶ確率を $q$、列2は $1-q$ とする。
- Rが行1を選んだとき:$E(R1) = aq + b(1-q)$
- Rが行2を選んだとき:$E(R2) = cq + d(1-q)$
- Cにとっても「Rがどちらを打っても同じ損」にしたい。 → $E(R1) = E(R2)$ から $q$ を解く。
-
ゲームの値
- どちら側の式に代入しても同じ値 $v$ になる。
- これが「ゲームの値」(ゼロ和なのでRの得点=Cの損失)。
例:
$$ A = \begin{pmatrix} 2 & -1 \ -3 & 4 \end{pmatrix} $$
-
Rの期待利得: $E(C1) = 2p + (-3)(1-p) = 5p - 3$ $E(C2) = -p + 4(1-p) = 4 - 5p$ 等式 $5p - 3 = 4 - 5p$ より $p = 0.7$。
-
ゲームの値:$v = 5p - 3 = 0.5$。
-
C側: $E(R1) = 2q + (-1)(1-q) = 3q - 1$ $E(R2) = -3q + 4(1-q) = 4 - 7q$ 等式 $3q - 1 = 4 - 7q$ より $q = 0.5$。
-
同じく $v = 0.5$。
翻訳メモ(自分用)
-
なぜ「等しくする」のか? 相手が「より損させられる方」を選ばないように、両方の選択肢の損得を釣り合わせるのがコツ。 だから「等式を作って解く」。
-
ゲームの値 $v$ の意味 「両者が最適混合を使ったときに安定して決まる平均点」。 → これ以上よくも悪くもならない安全圏。
-
一般化 2×2は手計算でいけるけど、サイズが大きいと「線形計画法(LP)」で解く。 → 実はミニマックス定理とLPの双対性はほぼ同じ構造を持っている。
-
公理のざっくり意味
- 完全性:どの2つの選択肢も「好む/同じ/嫌う」で比べられる。
- 推移性:AをBより好み、BをCより好むなら、AをCより好む。
- 連続性:すごく悪い結果とすごく良い結果の中間に「そのどちらよりも好ましい確率混合」がある。
- 独立性:AとBの比較が、Cと混ぜても逆転しない。
-
期待効用 $\mathbb{E}[u(x)]$ → 「結果の満足度に確率を掛けて合計したもの」で選好を表せる。 → つまり「くじの好み」が数式で扱えるようになる。
-
アフィン変換の自由度 → 効用は“差”や“順序”が大事で、絶対値や単位はどうでもいい。 → $u(x)$ を 2倍しても+10しても、意思決定は変わらない。
-
戦略とのつながり → 混合戦略をとったとき、その「確率的結果」に対して合理的に評価できる。 → 「ランダムを使うのは直感的に不自然」じゃなく、「効用を通せば合理的」になる。
6. 期待効用(VNM効用)と意思決定
フォン・ノイマン=モルゲンシュテルンは、確率的な選好に対して次の公理が満たされるなら、選好を期待効用 $\mathbb{E}[u(x)]$ の大小で表現できることを示した。
- 公理:完全性・推移性・連続性・独立性
- 効用関数 $u$ はアフィン変換まで一意($au+b$ は同じ選好を表す)。
- 混合(くじ)を評価できるため、混合戦略の合理性に厚みを与える。
翻訳メモ(自分用)
-
完全性 → どんな2つの選択肢A,Bも「Aの方がいい / Bの方がいい / 同じ」で必ず比較できる。
-
推移性 → A > B, B > C なら A > C。好みがグルグルしない。
-
連続性 → 極端に悪い結果と極端に良い結果の間には、確率を混ぜればちょうど中間的に好ましいものが作れる。
-
独立性 → A > B なら、AをCと混ぜたくじと、BをCと混ぜたくじを比べても順序は変わらない。
-
期待効用 $\mathbb{E}[u(x)]$ → 結果ごとに「効用」を与え、確率を重みとして合計。 → くじや確率的戦略を合理的に評価できる。
-
アフィン変換の自由度 → 効用値は絶対スケールじゃなく「順序」と「差」が重要。 → $u(x)$ を2倍したり+10したりしても選好は変わらない。
-
混合戦略との接続 → 「確率で行動を混ぜる」のが合理的かどうか? → VNM効用は「確率的な選択肢を効用の期待値で評価できる」と保証するので、混合戦略に正当性を与える。
具体的なイメージ(宝くじ例)
- 50%で100円、50%で0円 → 期待値は50円。
- 確実に40円をもらえる選択肢。
数学的には前者の方が高いけど、効用関数の形(リスク回避型なら凹関数)によって「40円確実」の方を選ぶ人もいる。
7. ノイマン以後:広がりと位置づけ
-
非ゼロ和ゲーム → ナッシュ(1950/51)。ゼロ和の枠を超えて「みんなの利益が必ずしも逆じゃない」場面を扱えるようにした。均衡概念=ナッシュ均衡。
-
協力ゲーム → プレイヤーがチームを組んだとき「どう利益を分けるか」を扱う。
- VNMの安定集合(coalitionが崩れない条件)
- シャープレイ値:公平な配分を与える式。
-
拡張形ゲーム → クーン(1953)。ゲームを木構造で表し、順番・情報集合・信念をはっきり書けるようにした。 → ここから部分ゲーム完全均衡(subgame perfect equilibrium)や逆推論(backward induction)が定式化。
-
不完備情報 → ハーサニ(1967–68)。相手のタイプ(強い/弱い、好戦的/協力的など)が確率でしかわからない状況をモデル化。 → ベイズ・ナッシュ均衡へつながる。
-
計算複雑性 → 均衡を計算するのは簡単じゃない。
- 計算時間の難しさ(PPAD完全など)
- 繰り返し学習での収束(後悔最小化アルゴリズム)
- 現代では「計算ゲーム理論」としてAIや経済設計と結びついている。
メモ(自分用)
- ノイマンのゼロ和+混合戦略は「出発点」。
- その後の広がりは「ゼロ和から非ゼロ和へ」「一回きりから拡張形へ」「完全情報から不完備情報へ」「理論から計算へ」。
- つまり「現実に近づける方向」と「計算で使う方向」の両方に広がった。
8. 代表的な古典例
-
マッチング・ペニー → 表裏を当てる・外すゲーム。純戦略で固定すると必ず相手に読まれる。 → 混合で「表と裏を50–50」にするのが唯一の安定。 → ミニマックスがそのまま体感できるシンプルな教材。
-
じゃんけん → グー・チョキ・パーを 1/3 ずつ混ぜるのが均衡。 → 一見バカげてるけど「どの手を出しても相手に読まれない」状態。 → 「純戦略だけなら無限に後出しが続く → 混合が解決する」の直感がわかりやすい。
-
コロネル・ブロット(Colonel Blotto) → 戦力を複数の戦場に同時配分するゲーム。 → 戦場ごとに勝敗が決まるので、配分バランスが全体の勝敗を決める。 → 離散的にも連続的にも考えられ、確率的に配分する戦略が「ミニマックス的に最適」になる。 → 「資源をどこに割くか」問題の原型で、軍事・広告・政治キャンペーンなどに応用。
メモ(自分用)
- マッチング・ペニー → 「常にランダム化しないと破綻する」典型例。
- じゃんけん → 対称ゲーム、均衡が単純に「均等混合」で示せる。
- コロネル・ブロット → 離散的じゃなく「連続戦略」を扱う一歩進んだ例。資源分配の数学モデル。
9. 応用の地図
-
産業組織・価格競争
- クールノー:数量で競争 → 相手の生産量を見越して自分の数量を決める。
- ベルトラン:価格で競争 → 最安値に下げ合う「価格戦争」。
- 入札・オークション:戦略的な値付け、収入最大化のメカニズム研究。
-
公共経済・制度設計
- 投票ルール:少数派・多数派の利益配分をどう設計するか。
- メカニズムデザイン:人が嘘をつかずに本音を申告するよう仕組みを作る(インセンティブ整合性)。
-
安全保障・抑止
- 核抑止のゲーム「相互確証破壊」→「撃ったら自分も滅ぶ」均衡。
- シグナリング:相手に意図を伝える(軍備公開など)。
- コミットメント:後から裏切れないように縛る戦略。
-
通信・ネットワーク
- 輻輳ゲーム:道路や回線にプレイヤーが殺到 → 混雑による損失をモデル化。
- スケジューリング:リソースを公平に分け合う。
- フォークゲーム:P2Pや分散ネットワークでの協調行動。
-
機械学習
- GAN:生成者と識別者がミニマックスで戦う。
- 強化学習:自己対戦でナッシュ均衡に近づける(AlphaGoなど)。
- 敵対的学習:攻撃者と防御者の戦いをゲームとして捉える。
メモ(自分用)
- 産業 → 価格や数量の読み合い
- 制度設計 → ルールをどう作れば人が合理的に動くか
- 安全保障 → 破壊的選択も含めた戦略
- 通信 → 混雑や資源配分の数理
- 機械学習 → GANやRLが「ミニマックスの実装例」
10. 誤解と限界
-
「勝てる戦略が必ずある」 → ×
- ゼロ和ゲームで保証されるのは「ゲームの値 $v$ が存在する」こと。
- 意味は「負けない最低ラインがある」ということであって、常に勝利できるわけじゃない。
-
完全合理性の仮定
-
古典ゲーム理論は「プレイヤーは完全に合理的」と仮定。
-
現実の人は「限定合理」(サイモン)で、計算や情報処理の能力に限界がある。
-
行動経済学が示す例:
- アレのパラドックス(期待効用に従わない選好)
- エルスバーグのパラドックス(曖昧さ回避)。
-
-
均衡は多重
- 均衡が1つに定まらない場合が多い。
- どの均衡に落ち着くかは「フォーカルポイント」(みんなが自然に選ぶ焦点)や文化・制度に依存。
- だから「均衡をデザインする仕組み=制度設計」が重要になる。
-
計算可能性
- 均衡が理論的に存在しても、実際に求めるのは計算的に難しいことが多い。
- 規模が大きいゲームでは線形計画法や近似アルゴリズム、ヒューリスティクスを使う。
- 存在の証明と計算の容易さは全く別。
翻訳メモ(自分用)
- 勝ち筋=常勝じゃない → 「安全圏の存在」にすぎない。
- 合理性の限界 → 行動経済学が補ってる。
- 均衡の複数性 → 「どの均衡に落ち着くか」を決めるのは数理じゃなく社会的要素。
- 計算の壁 → 数学的に存在しても、実務で解けるとは限らない。
11. まとめ(フォン・ノイマンの核)
-
確率混合こそが理性の武器
- 読み合いを終わらせ、相手に無差別化を強いる。
-
最悪を最小化する視点
- 悲観的に見えて、戦略の堅牢性を最大化する設計思想。
-
ゲームの値の存在
- 戦略的相互作用を数理的に安定化できることを証明。
この3点が、後継のナッシュ均衡や制度設計、機械学習のミニマックスまで続く背骨になっている。
翻訳メモ(自分用)
- 混合戦略=「ランダム化を武器にする」という逆転の発想。
- ミニマックス=「負けを小さくする考え方」が合理的に見える瞬間。
- ゲームの値=「読み合いが永遠に揺れずに、安定点に収まる」ことを保証。
→ 結局ノイマンが残したのは「不確実性を数理で飼いならす視点」。 これが自分にとっても理解の軸。
12. 参考文献(古典)
- John von Neumann (1928), Zur Theorie der Gesellschaftsspiele.
- John von Neumann & Oskar Morgenstern (1944), Theory of Games and Economic Behavior.
- John F. Nash (1950, 1951), Non-cooperative games.
- Harold W. Kuhn (1953), Extensive games and the problem of information.
- Lloyd S. Shapley (1953), A value for n-person games.
- John C. Harsanyi (1967–1968), Games with incomplete information.
付録A:用語早見表
- ミニマックス:相手の最善反応を織り込んだ最悪ケースの最小化。
- 混合戦略:複数の純戦略を確率で選ぶ戦略。
- ゲームの値:ゼロ和で達成される期待利得の一定値。
- 鞍点(サドルポイント):一方に凸、もう一方に凹の極値点。ミニマックスの均衡点。
- VNM効用:確率選好を期待効用で表現しうるとする理論。
付録B:JSで 2×2 ゼロ和ゲームを最短解法
// A = [[a, b], [c, d]] を与えると、{p, q, v} を返す(p: 行1確率, q: 列1確率, v: 値)
function solve2x2([ [a,b], [c,d] ]) {
const denomP = (a - c) - (b - d); // 係数 (E(C1)=E(C2)) の p の分母
if (denomP === 0) throw new Error('退化ケース: 行の等価性');
const p = (d - c) / denomP; // R の混合
const denomQ = (a - b) - (c - d); // 係数 (E(R1)=E(R2)) の q の分母
if (denomQ === 0) throw new Error('退化ケース: 列の等価性');
const q = (d - b) / denomQ; // C の混合
const v = a * p * q + b * p * (1 - q) + c * (1 - p) * q + d * (1 - p) * (1 - q);
return { p, q, v };
}
console.log(solve2x2([[2,-1],[-3,4]])); // { p: 0.7, q: 0.5, v: 0.5 }
注意:数値が境界に近いと丸め誤差・退化が出ます。一般サイズは LP ソルバ(単体法/内点法)を使うのが安全です。
付録C:LP定式化(行プレイヤー視点)
ゼロ和で R の利得を最大化:
- 変数:戦略分布 $p_i$ と値 $v$
- 目的:$v$ を最大に
- 制約:対すべての列 $j$ について $\sum_i p_i A_{ij} \ge v$、かつ $\sum_i p_i = 1,\ p_i\ge 0$
双対問題は C の最小化問題になり、最適値は一致(LP双対性)。
終わりに
フォン・ノイマンの視座は「相手がいても合理的に設計できる」という希望そのものだ。数字は冷たいが、読み合いを安定させる道具として、いまも最前線で使われている。
💬 コメント