相手がGTOじゃないとき、GTOを使うとどうなるの?
前回はGTOの混合戦略と純粋戦略について説明したよ。
混合戦略のハンドはアクションの期待値が同じなんだったね。純粋戦略のハンドは期待値が最も高いアクションが一つだけだよ。
ねえ、GTOは相手もGTOを使ってるときに成り立つんだよね?
うん、そうだよ。ナッシュ均衡はお互いがそれ以上エクスプロイトできないような戦略を使うような状況だからね。
うーん・・・?ねえ、相手がGTOじゃないプレイをしてるとき、自分がGTOを使ったらどうなるの?
それはイイ質問だね。実戦でのGTOを理解する上で避けて通れない話題だよ。少し長くなるけど、次の章から説明していくね。
まずはここまでのおさらい
さて、チンアナゴちゃんの質問に答える前に、まずは改めてGTOについておさらいしておこうかな。
part1でも言ったけど、GTO(ナッシュ均衡)は互いのプレイヤーが相手をエクスプロイトし続けたときのその終点だったよね。
ということは、GTOは「相手は自分を最大限エクスプロイトするような戦略を取ってくる」っていう前提に基づいているんだ。相手はどんな小さなリーク(弱点)も見逃さず、的確に戦略を変えてエクスプロイトしてくるんだね。
怖ッ!そんな人と戦いたくないなあ。
そうだよね。そんな超上手い相手に対してどう戦えばいいんだろう?そこで登場するのが混合戦略なんだ。混合戦略は相手の戦略の期待値をすべて一緒にしてしまうんだったね。そうすればどんなに上手い人でも、戦略を変えることでそれ以上期待値を上げることができないはずだよ。つまり、自分はエクスプロイトされる心配がなくなるんだね。
ふむふむ。GTOはそもそも「相手は超上手いプレイヤーだ!少しのミスも許されないぞ!」って想定なのか。
それで、その超上手い相手に対して混合戦略を使えばエクスプロイトされなくなって、相手も混合戦略を使えば2人はナッシュ均衡!ってことなんかな?
うん、そういうことだね。でも、中には混合戦略だけでなく、純粋戦略が生じるような場合もあるんだ。純粋戦略は、超上手い相手からは100%そのアクションを取ることを読まれちゃうんだけど、読まれちゃうデメリットよりも100%そのアクションを取ることのメリットのほうが大きいような場合だね。
ふむ、相手に戦略を読まれても気にせず、常にそのアクションを取るほうがお得だと。
そのとおりだよ。ここまでがpart1、part2のおさらいだね。
GTOが最低限保証する期待値とは?
さて、これは前回も見せたけど、BUがオープンしたときのBBのGTOだよ。
くどいようだけど、これは「超上手いBUがGTOに基づいたオープンレンジでオープンしてきたときのBBのGTO」だからね。一応確認しておくよ。
おっけー。わかってるって。
さて、ここで知っておいてほしいのはね、それぞれのGTOの期待値のことなんだ。
期待値って?
例えば、最初のBUvsBBのGTOだけど、そもそもBUがオープンすることの期待値がXだとするよね*1。これはGTOによって保証されている最低限の期待値なんだ。
最低限の期待値?どういうこと?
まずBUがオープンするよね。ブラインドの2人はそれに対してコールすることもあれば3ベットを打つこともあるだろうし、もちろんフォールドすることも多いだろうね。でも、彼らがどんな戦略を取ったとしても、BUのオープンの期待値をXより下げることはできないんだ。なぜなら、BUはGTOを使っているからね。
ポーカーはゼロサムゲームだから、自分だけが有利な戦略を使って期待値を上げる、つまりエクスプロイトしようとすると、必然的に相手の期待値はその分だけ下がるんだ。
ふむ、そりゃそうだ。
でも、混合戦略を使うGTOはエクスプロイトされることがないんだよね。ってことは、GTOを使っているBUはエクスプロイトされて期待値が下がることはなくて、そのときのXはいわば保証されてるってことなんだ。
相手がGTOではないとき:GTOを使う意味
ふーむ、GTOは鉄壁の要塞なんだね。自分から相手の弱点を攻めることは苦手だけど、宝物庫にあるお宝だけは絶対に守る!って感じなのかな。
うん、そういうイメージでいいと思うよ。でもね、その要塞の周りにスキだらけの敵兵がウロウロしてたらどうする?
ほほう?よーし、ヤツを捕虜にしちゃおう!
ははっ。エクスプロイト騎士団を出します。門衛、開城せよ。
野郎ども、やっちまえッ!
王!新たな敵兵が正門から侵入!
なにぃ!
敵はフォールドにフォールドを重ねて潜伏していたと見られます。敵のカウンター戦略は鋭く、対応が間に合いません。・・・宝物庫へ向かっています!
なんだってー!?あの部屋は私と母上の思い出が詰まった・・・
はい。ってなわけでね、寸劇終わり。
えー、もうちょっとやってたかったなあ。
GTOとエクスプロイト、そして最低限保証された期待値の関係が改めてわかったんじゃないかな。
あ、ごめん。役に入り過ぎてて全然考えてなかった。どういうことなの?
この小芝居が冒頭のチンアナゴちゃんの疑問に対する、一つの答えだったのさ。
鉄壁の要塞・GTOは相手をエクスプロイトすることはできないけど、逆にエクスプロイトされることもないんだったね。
だから、相手がGTOじゃないプレイを仕掛けてきたとしても、自分は自分のGTOをプレイしていれば、宝物庫にある期待値は少なくとも得られるってわけだ。もちろん、「最低限」保証される期待値だからね。相手の戦略によってはそれ以上の期待値を得ることになるよ。
ふむふむ。
でも、欲を出して相手をエクスプロイトしようとしちゃうと、自分はGTOから外れたプレイをすることになるから、今度はそこをうまく突いてエクスプロイトされる危険性が出てくるんだ。
鉄壁の正門を開いてエクスプロイト騎士団を出したから、カウンター攻撃を食らっちゃったんだね。
そういうこと。そうすると、GTOが本来保証してくれてた期待値まで奪われて、最悪の場合、期待値がマイナスになっちゃうこともあるんだね。
つまり、相手がGTOではないときに自分がGTOを使うと、こうなるんだ。
- 個々のスポットのGTOには最低限保証された期待値というものがある
- 相手がどんな戦略を使おうとも(GTO含む)、その保証された期待値は失われない
- 相手がGTOではないからといって相手をエクスプロイトしようとすると、逆に相手のカウンター戦略によって自分がエクスプロイトされてしまう危険性が出てくる
ひとまずはこういうことが言えるんじゃないかな。
ポーカーテーブルにパトロンはいない
どう?納得した?
うーん、なんかまだモヤモヤするなあ。
ねえ、もしもみんながGTOを使ってたら、みんなに保証された期待値があるってことでしょ?そうしたら、どんどんみんなのお金が増えていくことにならない?誰がそのお金を出してるの?
実際にはそうはならないんだ。テーブルの全員がGTOを使った場合、長期的に見ると、全員の期待値は0に収束していくはずだよ。
例えばね、BUのオープンで保証されてる期待値はXだったけど、それに対するBBの保証された期待値はYとしようか。ほかにも、HJがオープン、BUがそれに3ベットを打ったときのSBの保証された期待値はZ。こんなふうに、スポットが変わればGTOの戦略も変わって、保証される期待値もそれぞれ違うはずだよね。
うんうん。
X、Y、Z・・・あらゆるスポットにはそれぞれGTOで保証された期待値があって、長期的に見れば、すべてのプレイヤーが平等にあらゆるスポットを経験するはずだよね。でも、実際にはその期待値の合計からブラインドを引かなくちゃいけないんだ。
あ、そっか。1周するごとにBBは1bb、SBは0.5bbを支払うのか。
そうだね。そして多くの場合、SB・BBはフォールドを選択するんだ。既にブラインドを支払った時点でのフォールドの期待値は0なんだけど、もちろん1.5bbは自分が支払うわけだから、少しずつ持ち金が減っていくよね。
そうすると、長期的に見て、GTOが保証する期待値はX、Y、Z・・・をすべて足し合わせたものからブラインド分を引くことになって、その合計は0になるはずだよ*2。もちろん、すべてのプレイヤーがGTOをプレイしている場合の話だからね。
相手がGTOではないとき:GTOで利益を出す
ふーん。GTOは鉄壁の要塞で、しかもみんながGTOを使ったら期待値は0。とことんGTOはガードが固いんだね。
だね。そもそも「混合戦略で相手の戦略を無差別化する(期待値を同じにする)」という発想からしてディフェンス的だからね。
ねえ、じゃあさ、GTOを使って利益って出るの?要塞で宝物庫をずっと守ってるだけで、ポーカーって勝てるもんなの?
なるほど、そういうところに違和感を感じてたんだね。うん、もっともな疑問だと思うよ。
でしょー?ずっと不思議に思ってたんだよね。
「GTOは搾取できないけど搾取されない!ポーカーは搾取して初めて利益が出る!」
あれ?じゃあGTOって利益出るの?って。
そうだよね。実は、その疑問のヒントは純粋戦略にあるんだ。GTOを実戦で使うときに最も大事なのは、実は混合戦略ではなくて純粋戦略なんだよ。
あ、そうなの?
例えばね、これもジャンケンを使って説明しようかな。前回、ジャンケンには第4の手「ピン」があって、純粋戦略はピンを出さないことだって話をしたよね。
出た!グーには勝つけどチョキとパーには負ける、あの弱いピンね。
そうそう。もし相手がグー・チョキ・パー・ピンの四つの手を出して、こちらはGTO通りグー・チョキ・パーを1/3ずつ出すとしたら、どっちが勝つかな?
えっと、まず、相手がグー・チョキ・パーを出すと、こちらのグー・チョキ・パーと互角(期待値が一緒)になるよね。
でも、相手がピンを出すと、こちらのグーには勝てるけどチョキとパーには負けるんだから・・・うん。相手はピンを出せば出すほど損しちゃうね。
そうなんだよ。こちらはランダムにグー・チョキ・パーを出してるだけなんだけど、相手は純粋戦略でフォールドすべきピンを出しちゃってる。自分はGTOを使ってるだけで、相手が純粋戦略をミスするたびに利益が出るってことなんだね。
これはポーカーも同じだよ。BU vs BBのときの、BBのGTOをもう一度見てみようか。
赤が3ベット、緑がコール、青がフォールドなんだよね。
そう。それでね、例えばA7oは純粋戦略でフォールドになってるでしょ?
コールと3ベットの期待値がマイナスで、それならフォールド(期待値=0)を選んだほうがまだマシなんだ。だから純粋戦略になってるんだったよね。
うんうん。
でもね、ここで相手(BB)はA7oでコールや3ベットしてしまったんだ。つまりピンを出しちゃったんだね。
あらら。そしたらどうなるの?
相手(BB)は期待値を失ってしまうんだ。だから自分はGTOを使ってるだけでその分の利益が出るんだよ。まとめると、「相手がGTOの純粋戦略をミスしたとき、相手はその分の期待値を失うため、GTOは保証された期待値以上の利益を出すことができる」*3ということになるんだ。
ふむふむ。GTOは相手をエクスプロイトできないけど、相手が純粋戦略で自滅してくれたらその分お得なんだね。
混合戦略の頻度を間違えるとどうなる?
ねえ、じゃあ相手が混合戦略を間違えたときはどうなの?ほら、例えば、レイズが30%・コールが70%みたいな頻度を間違えちゃったときは?
前回も話したとおり、GTOで混合戦略になっているなら、それはどちらのアクションを選んでも期待値は変わらないんだ。
さっきのBBのGTOで言えば、例えばAJoはコールと3ベットの期待値が同じになってて、頻度は大体半々ぐらいになってるよね。期待値が同じってことは、頻度を無視してAJoで常に3ベットを打ったりしても、GTOを使うBUはそれに対して保証された期待値以上の利益を出すことができないんだ。
でも、BBはGTOの頻度のバランスを崩してしまってるから、GTOじゃない戦略によってエクスプロイトされる危険性はあるよ。
混合戦略を間違えたときについて、ひとまずはこういう説明になるかな。
うーん、難しいなあ。なんかたとえ話でお願い!
OK。例えばジャンケンならどうかな。「相手が混合戦略の頻度を間違える」っていうのは、本来はグー・チョキ・パーを1/3ずつ出すべきところを「チョキ多め」「グーだけ」とかにしちゃうってことだよね。
うんうん。
GTOの「グー・チョキ・パーが1/3ずつ」と、混合戦略をミスった「グーだけ」が戦うとどうなるか。答えは「どちらの期待値も同じ」だよ*4。
でも、純粋戦略でフォールドすべきピンを出しちゃうと、GTOの期待値が上がっちゃうんだ。そこが混合戦略と純粋戦略の違いなんだね。
ふむ、ここまではわかるよ。
でもね、「グーだけ」の戦略はGTOに対してイーブンといえども、また別のリスクがあるんだ。つまり、相手にパーを多く出されるとエクスプロイトされてしまうってことだね。
GTOに対しては混合戦略の頻度を間違えても問題ないけれど、GTOじゃない戦略からエクスプロイトされてしまう危険性が伴うんだ。それが混合戦略の頻度についてのポイントだよ。
なーるほど。GTO要塞の城門が閉じてるときはどんな頻度でもいいけど、城門が開いてエクスプロイトしてくるとヤバイってことなのか。
そういうことだね。ちなみに、さっきのBBのAJoが頻度を無視して100%3ベットを打つのなら、それに対してBUはGTOよりも少し高い頻度で4ベットを打つことができるよ。そうすればBBをエクスプロイトできるからね。
ふーん。ジャンケンだけじゃなくて、ポーカー的にもそうなってるんだね。
今回の話で納得してもらえると思うけど、GTOを実戦で使うとき、真っ先に気をつけるべきなのは純粋戦略なんだ。これを間違えると相手がGTOだったときに期待値を下げちゃうし、GTOじゃなかったとしてもミスになることが多いだろうからね。
今回のまとめ:GTOの特徴(4)
さて、今回は「実戦で使うGTO」をテーマに、いろいろな話をしたよ。新たに判明したGTOの特徴もいっぱい出てきたね。最後にまとめておくよ。
- GTOが保証する期待値について
・個々のスポットのGTOには最低限保証された期待値というものがある
・相手がどんな戦略を使おうとも(GTO含む)、その保証された期待値は失われない
・テーブルの全員がGTOを使うと、長期的に見て、全員の期待値は0になる(レーキ除く)
・GTOから外れたエクスプロイト戦略を使うと、相手をエクスプロイトすることができ、GTOが保証するものよりも高い期待値を得ることができるが、カウンター戦略によって逆に自分がエクスプロイトされ、本来GTOによって保証されていた期待値を失うリスクが出てくる - GTOを実戦で使う意味について
・相手がどんな戦略を使ったとしても、自分はGTOが保証する期待値を失うことはない
・相手が相手のGTOにおける純粋戦略をミスしたとき、自分はGTOが保証するものよりも高い期待値を得ることができる
・相手が相手のGTOにおける混合戦略の頻度をミスしたとき、GTOを使う自分は保証されたもの以上の期待値を得ることはできないが、自分もあえてGTOから外れることで、相手をエクスプロイトする戦略を選択することができるようになる
こんなところかな。次回はGTOに基づいたエクスプロイトの仕方など、さらに実践的な話をするつもりだよ。おつかれさま!
今年もよろしくお願いしますm(_ _)m
コメント