囚人のジレンマ——裏切りは合理的か、それとも協力が勝つのか？

二人の囚人

1950年、 ランド研究所 のメリル・フラッドとメルヴィン・ドレッシャーが定式化し、アルバート・タッカーが 「囚人のジレンマ」 と名付けた思考実験がある。冷戦下の核戦略を分析するために生まれたこの理論装置は、やがて経済学、生物学、政治学、社会学を横断する最も影響力のあるモデルの一つとなった。

二人の容疑者が別々の取調室に入れられている。互いに連絡は取れない。検察は二人にそれぞれ同じ取引を持ちかける。

二人とも黙秘（協力）: 証拠不十分で二人とも懲役1年
一方が自白（裏切り）、他方が黙秘: 自白した方は釈放、黙秘した方は懲役10年
二人とも自白（裏切り）: 二人とも懲役5年

あなたが囚人の一人だとしたら、どう行動するだろうか？

ランド研究所がこの問題に取り組んだ背景には、米ソ間の核軍拡競争があった。両国とも軍縮に合意すれば安全だが、相手が軍縮する中で自国だけ軍拡すれば圧倒的な優位に立てる。しかし双方が軍拡を選べば、双方にとって最悪の結果——核戦争のリスク——が待っている。 冷戦の構造そのものが、巨大な囚人のジレンマ だったのだ。

合理性の罠

冷静に分析すると、裏切りが「合理的」な選択になる。相手が黙秘した場合、自分が裏切れば釈放される（黙秘なら1年）。相手が裏切った場合、自分も裏切れば5年で済む（黙秘なら10年）。相手がどう出ようと、裏切る方が自分にとって有利だ。

これをゲーム理論では 「支配戦略」 と呼ぶ。相手の選択にかかわらず、常に裏切りの方が良い結果をもたらす。

相手も同じ論理で考える。結果、二人とも合理的に裏切りを選び、懲役5年という結末になる。これがジョン・ナッシュが示した 「ナッシュ均衡」 だ——各プレイヤーが自分の戦略を変える動機がない安定状態。ナッシュは後にこの功績でノーベル経済学賞を受賞し、その波乱に満ちた人生は映画『ビューティフル・マインド』で描かれた。

しかしここに逆説がある。 二人とも合理的に行動した結果、二人とも非合理的な結果を受け入れることになる。 二人とも黙秘すれば懲役1年で済んだのに、合理性が二人を5年の刑に追いやる。 個人の合理性が集団の最適解を破壊する のだ。

この構造はアダム・スミスの 「見えざる手」——各個人が自己利益を追求すれば社会全体が最適化される——への重大な反例でもある。市場の自由競争が常に社会的最適をもたらすという楽観論は、囚人のジレンマの存在によって根本的に揺らぐ。個人の合理的行動が集団を破滅に導く場面が、現実に数多く存在する。

繰り返しゲームの革命

1回きりのゲームでは裏切りが支配戦略だが、現実世界の多くの関係は繰り返される。ここでゲームの性質は劇的に変わる。

1984年、政治学者 ロバート・アクセルロッド は著書『つきあい方の科学』の中で「繰り返し囚人のジレンマ」のコンピュータトーナメントを紹介した。世界中の研究者がさまざまな戦略を提出し、総当たりで対戦させた。ゲーム理論の専門家、心理学者、コンピュータ科学者が、それぞれ工夫を凝らした複雑な戦略を投入した。

優勝したのは、数学者アナトール・ラパポートが提出した極めて単純な戦略 「しっぺ返し（Tit for Tat）」 だった。ルールはたった二つ。最初は協力する。次からは相手の前回の手をそのまま返す。わずか4行のプログラムで記述できるこの戦略が、精巧なアルゴリズムの数々を圧倒した。

この戦略の強さは 「善良・報復的・寛容・明快」 という四つの性質にある。最初に裏切らない善良さ、裏切りには即座に報復する厳しさ、相手が協力に戻れば自分も戻る寛容さ、そして相手にとって行動が予測しやすい明快さ。複雑で巧妙な戦略が、この素朴な原理に次々と敗れた。

後続の研究で、さらに興味深いことが分かった。「寛大なしっぺ返し」——ときどきランダムに裏切りを許す変形——が、ノイズのある環境ではオリジナルよりも高い成績を収めたのだ。 完璧な報復よりも、少しの寛大さを持つ方が長期的には有利になる。 この結果は、道徳的直感と数学的分析が一致する稀有な事例として注目を集めた。

生物学者ロバート・トリヴァースは 「互恵的利他主義」 の理論で、自然界における協力行動を囚人のジレンマの枠組みで説明した。吸血コウモリは仲間に血液を分け与え、後日自分が狩りに失敗したときに返してもらう。霊長類は互いの毛づくろいを交換する。この「協力の進化」は、繰り返しゲームの理論が生物学的現実を正確に予測した顕著な例だ。

現代社会に遍在する構造

囚人のジレンマの構造は、私たちの社会のいたるところに存在する。

気候変動交渉 はその典型だ。どの国にとっても、他国がCO2を削減する中で自国だけ削減しないのが最も有利だ。しかし全員がそう考えると、誰も削減せず地球全体が破滅する。パリ協定は、この巨大な囚人のジレンマに対する不完全な解決策の試みだ。197カ国が参加するこの「ゲーム」は、人類史上最大規模の囚人のジレンマと言える。

ビジネスの価格競争 も同じ構造を持つ。2社が価格を高く維持すれば双方とも利益を得るが、一方が値下げすれば市場を奪える。結果、価格競争が激化し双方の利益が縮小する。航空業界や通信業界の価格競争は、この構造の典型的な帰結だ。

SNSでの情報発信 にも潜む。正確だが地味な情報を発信するより、誇張した情報の方が拡散される。全員が誇張すれば情報の信頼性が崩壊するが、個人にとっては誇張する方が合理的だ。いわゆる「注目経済」は、情報の質をめぐる囚人のジレンマの産物ともいえる。

共有資源の管理——ギャレット・ハーディンが 「共有地の悲劇」 と呼んだ問題も、多人数版の囚人のジレンマにほかならない。漁業資源、森林、地下水、大気——個人が合理的に行動すれば共有資源は枯渇するが、各個人にとっては自制するインセンティブがない。

これらの問題に共通するのは、 信頼と制度設計の重要性 だ。一回限りの関係では裏切りが合理的だが、長期的な関係、評判のメカニズム、制度的な強制力が加われば、協力が合理的になる。社会の安定とは、囚人のジレンマを協力的に解決する仕組みの集積なのかもしれない。法律、契約、慣習、道徳——これらはすべて、個人の合理的裏切りを抑制し、集団的な協力を促す制度的装置だ。

考えるための問い

この思考実験を出発点に、以下の問いについて考えてみてほしい。

日常生活で「囚人のジレンマ」的状況に直面したことはあるか？ 職場での協力と競争、共有資源の利用など、気づかないうちにこの構造に巻き込まれていないだろうか？
信頼はどこから生まれるのか？ 一度も会ったことのない相手を信頼できるのはなぜか。制度、評判、文化はどのように信頼を支えているか？
テクノロジーは協力を促進するか、裏切りを促進するか？ 匿名性の高いインターネットは囚人のジレンマの「一回限り」版を増やしているのではないか？一方で、ブロックチェーンのような技術は信頼なき協力を可能にするのか？
「合理的」であることは、常に正しいか？ 個人の合理性が集団を破滅させるとき、合理性の定義そのものを見直す必要はないか？協力を選ぶことこそが、より広い意味で「合理的」なのではないか？

囚人のジレンマ——裏切りは合理的か、それとも協力が勝つのか？

二人の囚人

合理性の罠

繰り返しゲームの革命

現代社会に遍在する構造

考えるための問い

この記事をさらに深掘りする

ゲーム理論入門の入門

つきあい方の科学

利己的な遺伝子

🧪 同じカテゴリの記事

無限の猿定理とAI創作——ランダムに打ち続ければ、シェイクスピアは生まれるか

テセウスの船とスタートアップ——創業者が全員いなくなった会社は、同じ会社か

スワンプマン——雷に打たれた瞬間、あなたの「コピー」は本物か？

🔀 他のカテゴリの記事

SCAMPER法——7つの質問で既存のアイデアを変形させる

バイオセンサーで食品アレルゲンを即時検知

プロダクトデザインを研ぎ澄ます「15の問い」