【論文要約】直観的な戦略決定を行う脳のメカニズムを解明 -棋士の戦略決定は帯状皮質ネットワークで行われる

【論文要約】直観的な戦略決定を行う脳のメカニズムを解明 -棋士の戦略決定は帯状皮質ネットワークで行われる

以下の論文を要約してスライドにまとめました。
Xiaohong Wan, Kang Cheng, Keiji Tanaka, "Neural encoding of opposing strategy values in anterior and posterior cingulate cortex", Nature Neuroscience.

外部リンク:
PubMed (https://www.ncbi.nlm.nih.gov/pubmed/25894290)
Riken (https://www.riken.jp/press/2015/20150421_1/)

40e306d6cb865131ff11d4df14d3a01d?s=128

Aoike Yuta

March 05, 2020
Tweet

Transcript

  1. 直 観 的 な 戦 略 決 定 を 行

    う 脳 の メ カ ニ ズ ム を 解 明 -棋士の戦略決定は帯状皮質ネットワークで行われる- 理化学研究所 脳科学総合研究センター 認知機能表現研究チーム ※ 本 ス ラ イ ド は 理 化 学 研 究 所 の 研 究 成 果 ( プ レ ス リ リ ー ス ) を ま と め た も の で す 。
  2. 要旨 Xiaohong Wan, Kang Cheng, Keiji Tanaka, "Neural encoding of

    opposing strategy values in anterior and posterior cingulate cortex", Nature Neuroscience 理化学研究所(理研)脳科学総合研究センター認知機能表現研究チームの田中啓治チームリーダーらの研究チームは、将棋の棋士が次の手を決 める際の脳の動きを機能的磁気共鳴画像法(fMRI法)[1]で調べることで、ヒトの直観的な戦略決定が、大脳の帯状皮質[2]と呼ばれる領域を中心 とするネットワークによって行われていることを明らかにしました。 複雑な状況の中で応答を迫られたとき、人はまず大まかな応答の分類(戦略)を決め、次にその戦略のもとで細部にわたる具体的な応答を決めま す。このような戦略決定は具体的応答の分析を行わずに行うので直観的と呼ぶことができます。しかし、直観的な戦略決定の脳メカニズムはまっ たく分かっていませんでした。 研究チームは、攻めの手と守りの手の区別がはっきりしている将棋の特徴を活用し、与えられた盤面の状況によって攻めるべきか守るべきかを決 定する戦略決定の脳メカニズムをfMRI法で調べました。その結果、直観的な攻めと守りの戦略決定が、一手ごとの分析を行って具体的な手を決 定する脳の領域とは独立した別の脳ネットワークで行われることを発見しました。また、与えられた盤面における攻めと守りの主観的価値は帯状皮 質の後部と前部に分かれて表現され、これらの価値表現が前頭前野背外側部[3]に伝えられて戦略決定がなされることが分かりました。今回の実 験は将棋の攻めと守りについて行いましたが、その他の日常的な個人や集団による直観的な戦略決定にも、類似の脳ネットワークが使われている 可能性があると考えられます。
  3. 背景 Xiaohong Wan, Kang Cheng, Keiji Tanaka, "Neural encoding of

    opposing strategy values in anterior and posterior cingulate cortex", Nature Neuroscience 人は複雑な状況の中で応答を迫られたとき、まず大まかな応答の分類(戦略)を決め、次にその戦略のもとで具体的な応答を決めます。この方が、 最初から具体的応答を決めるよりも比較的短時間で良い応答を決めることができます。しかし、具体的な応答の優劣を検討することなしに、いっ たいどうやって戦略を決めることができるのか不思議です。具体的応答を分析せずに決めるこのような戦略決定は、直観的と言えます。複数の具 体的応答の可能性から最適なものを選ぶ脳のメカニズムについては、この10年ほどでいろいろなことが分かってきましたが、直観的な戦略決定の 脳メカニズムはこれまでまったく分かっていませんでした。 研究チームは、将棋の与えられた盤面で守るべきか攻めるべきかを決定する問題を使って、戦略決定の脳メカニズムを調べました。将棋の場合、 特に対局の中盤では、攻めの手と守りの手の区別がはっきりしています。この要因の1つに「持ち駒」という将棋独特のルールがあります。奪った相 手方の駒を持ち駒として保持し、盤面上の自分の駒を動かす代わりに持ち駒を任意の位置に「打つ」ことができるため、対局の終盤に向かっても盤 面上の駒の数が減らず、ある程度の数の駒を自分の王将を守るため、または相手の王将の守りを崩すために、それぞれ専用で使うことができます。 このため将棋、特に中盤では攻めの手と守りの手の区別が明確です。 研究チームは、このように攻めの手と守りの手の区別がはっきりしている将棋の特徴を活かして、与えられた盤面で守るべきか攻めるべきかを決 定する戦略決定の脳メカニズムを調べました。
  4. 研究手法と結果① Xiaohong Wan, Kang Cheng, Keiji Tanaka, "Neural encoding of

    opposing strategy values in anterior and posterior cingulate cortex", Nature Neuroscience 1. 被験者が行った行動課題 脳活動測定実験は、アマチュア三段、四段の高段者17名(平均年齢33歳の男性)を被験者にして行いました。被験者には機能的磁気共鳴画像 (fMRI)装置の中で戦略決定課題(直観的思考課題)および具体手決定課題(コントロール課題)に答えてもらい、両者を比較しました(図1)。課題 の内容はプロ棋士である北浜健介七段(当時:現八段)に作成を依頼しました。 まず注視点を1秒提示し、続いて戦略決定課題か具体手決定課題かを1秒提示した後、盤面を4秒提示して回答を考えてもらいます。次に戦略決 定課題の場合は攻め/守りの2つの選択肢、具体手決定課題の場合は4つの選択肢を提示し、2秒以内に回答してもらいます。さらに、約7秒の間 に駒を1個ずつ提示し「金」が出たらボタンを押す課題を行ってもらいました。この「金」検出課題は、次の課題に取り組む前に、戦略決定または具 体手決定に関する脳活動をストップするための課題です(妨害課題)。戦略決定課題と具体手決定課題の問題は1回ごとに異なり、同じ問題は1人 の被験者には1度だけ用いました。全体として120問の問題を作りランダムに2群に分けたので、1人につき60問、2群の問題の間で平均的難易度 は同じです。2つの課題を出す順番はランダムにしました。 被験者の戦略決定での正答率は具体手決定での正答率よりも高く、戦略決定での平均反応時間は具体手決定での平均反応時間よりも短い傾向 がありました(図2上)。 また、盤面提示と同時に2つ選択肢を提示(具体手決定課題の場合の選択肢も2つに減らした)していつでも回答できるようにした実験(MRIの外 で6名のアマチュア高段者を被験者にして行った)を行いました。その結果、前述の実験と同じ傾向となりました(図2下)。これらの結果は、戦略決 定が個々の具体手の精査を経ずして直観的に行われたことを示唆します。
  5. 研究手法と結果① Xiaohong Wan, Kang Cheng, Keiji Tanaka, "Neural encoding of

    opposing strategy values in anterior and posterior cingulate cortex", Nature Neuroscience 図1 戦略決定課題と具体手決定課題 注視点の1秒提示に続いて、戦略決定課題か具体手決定課題であるかの指示を提 示し、次に盤面を4秒提示した。続いて、戦略決定課題の場合は攻め/守りの2個、 具体手決定問題の場合は4個の選択枝を提示し、被験者は2秒以内に1つを選択し た。その後、約7秒の間は「金」が出たらボタンを押す妨害課題を行った。1試行の時 間は15秒である。戦略決定課題と具体手決定課題の順番はランダムにした。 図2 戦略決定課題と具体手決定課題における正答率と反応時間 具体手決定課題の選択肢は上図の実験では4個、下図の実験では 2個。選択枝は上図の実験では盤面提示後に示し、下図の実験で は盤面提示と同時に示した。反応時間は、上図では選択肢提示開 始からボタン押しまで、下図では盤面と選択肢提示開始からボタン 押しまでを計測した。
  6. 研究手法と結果② Xiaohong Wan, Kang Cheng, Keiji Tanaka, "Neural encoding of

    opposing strategy values in anterior and posterior cingulate cortex", Nature Neuroscience 2. 攻め/守りの戦略決定に関わる脳ネットワーク 戦略決定に関わる脳ネットワークを抽出するために、まずは戦略決定課題で具体手決定課題よりも強く活動する脳部位をfMRIで探しました。そ の結果、前帯状皮質吻側部(ぜんたいじょうひしつふんそくぶ;rACC)、後帯状皮質(PCC)、前頭前野背外側部(DLPFC)が浮かび上がりました。 次に、これらの領野の活動が攻めや守りの価値判断とどのように関係しているか調べました。コンピューター将棋プログラムの1つである「激指」は 個々の具体手の価値を18手先まで読み、その時点での状況の価値を評価して元の手の価値を決めます。激指が示した各盤面における上位3つの 価値を持つ攻めの3手の平均価値と守りの3手の平均価値が、被験者の攻め/守りの戦略決定の傾向を最もよく再現しました。ただし、攻め/守 りの戦略決定における攻めの価値と守りの価値の評価には個人差があります。例えば、激指が算出した攻めの価値10と守りの価値20を、ある被 験者が同等の価値であると評価したとして、他の被験者が同じように評価するとは限りません。この個人の主観による差を調整するための係数を 掛けた攻めの価値と守りの価値を、それぞれの被験者における「攻めの主観的価値[4]」と「守りの主観的価値[4]」と呼ぶことにします。 実験の結果、rACCの活動は守りの主観的価値に、PCCの活動は攻めの主観的価値に、DLPFCの活動は選択した戦略の主観的価値から選択 しなかった戦略の主観的価値を引いた値にそれぞれ強く正に相関しました(図3)。 一方、rACCやDLPFCよりも後ろに位置する前頭前野背外側部後部(pDLPFC)、運動前野背側部(dPMA)や前補足運動野(preSMA)、また 頭頂葉楔前部(とうちょうようけつぜんぶ;Precuneus)などの領野は、具体手決定課題において活動が高まりましたが、これらの領野は戦略決定 課題においても具体手決定課題においても攻めと守りの主観的価値を表すことはありませんでした(図4)。 これらの結果は、直観的な攻め/守りの戦略決定が、具体的な手の精査とは無関係に、与えられた盤面における攻めと守りの価値評価をもとにし て行われていることを示唆します。また、攻めと守りの価値は帯状皮質の後部と前部に分かれて表現され、これらの価値表現が前頭前野背外側部 に伝えられた後、選択された戦略の価値から選択されなかった戦略の価値を引いた値が表現され、その差によって攻めるか守るかの戦略を決定 していると考えられます(図5)。
  7. 研究手法と結果② Xiaohong Wan, Kang Cheng, Keiji Tanaka, "Neural encoding of

    opposing strategy values in anterior and posterior cingulate cortex", Nature Neuroscience 図3 攻め/守りの主観的価値と各脳部位との関係 前帯状皮質唯側部(rACC)の活動は守りの主観的 価値(S DSV )に、後帯状皮質(PCC)の活動は攻め の 主 観 的 価 値 (S ASV ) に 、 前 頭 前 野 背 外 側 部 (DLPFC)の活動は選択した戦略の価値から選択 し な か っ た 戦 略 の 価 値 を 引 い た 値 (S chosen – S chosen )にそれぞれ強く正に相関した。***, P < 0.001; **, P < 0.01, *, P < 0.05; ns, P > 0.05. 図4 具体手決定課題で活動する脳ネットワーク 前頭前野背外側部後部(pDLPFC)、運動前野 背側部(dPMA)、前補足運動野(preSMA)は、 具体手決定課題では活動が高まるが、戦略決定 課題、具体手決定課題の両方において攻めと守 りの主観的価値の計算や表現に関わらない。 図5 攻め/守りの戦略決定に関わる脳ネットワーク 与えられた盤面での攻めの主観的価値が後帯状皮 質(PCC)に、守りの主観的価値が前帯状皮質唯側 部(rACC)にそれぞれ表現され、前頭前野背外側 部(DLPFC)に伝えられてその差によって攻めるか 守るかの戦略が決定される。
  8. 研究手法と結果③ Xiaohong Wan, Kang Cheng, Keiji Tanaka, "Neural encoding of

    opposing strategy values in anterior and posterior cingulate cortex", Nature Neuroscience 3. アマチュア高段者の攻めバイアス 本実験の被験者であるアマチュア高段者では、攻めの価値と守りの価値の主観的評価が被験者ごとに大きく異なり、多くの人は攻めの価値を高く 評価する傾向(攻めのバイアス[5])がありました(図6左黒点)。比較のために6名のプロ棋士に同じ戦略決定課題を行ってもらったところ、プロ棋 士ではそのような傾向はありませんでした(図6左赤点)。そして、アマチュア高段者の攻めのバイアスはその被験者の守りの価値を表すrACCの 活動の大きさに負に相関し(図6中)、攻めの価値を表すPCCの活動の大きさに正に相関していました(図6右)。 これらの結果は、帯状皮質における戦略価値の表現の強さの個体差がそれぞれの被験者の反応バイアスを決めていたことを示し、帯状皮質に表 現されるそれぞれの盤面における攻めと守りの主観的価値が棋士の戦略決定のもとになっているという結論を補強する結果です。 •左:アマチュア高段者では反応バイアスに大きな個人差があり(黒点)、多くの被験者は強い攻めへの バイアスを示した。プロ棋士では反応バイアスがほとんどなかった(赤点)。 •中:アマチュア高段者では、個々の被験者の攻めへの反応バイアスは、守りの価値を表す前帯状皮 質唯側部(rACC)の活動の強さに負相関した。 •右:アマチュア高段者では、個々の被験者の守りへの反応バイアスは、攻めの価値を表す後帯状皮 質(PCC)の活動の強さに正相関した。 図6 反応バイアスと脳活動の相関
  9. 今後の期待 Xiaohong Wan, Kang Cheng, Keiji Tanaka, "Neural encoding of

    opposing strategy values in anterior and posterior cingulate cortex", Nature Neuroscience 帯状皮質は海馬などの記憶系および扁桃体などの情動系との結合が強く、大脳皮質の中でも進化的に比較的古い部分であり、動機づけとの関連 も指摘されてきました。客観的な状況判断と動機づけが出会って主観的価値が形成される場所として機能している可能性があります。 今回の実験は将棋の攻め/守りについて行いましたが、個人や集団の戦略決定に類似の脳ネットワークが使われている可能性があります。経営 科学の分野では、企業などの戦略決定は状況を好機または危機に分類することにより大きく左右されることを示してきました。具体的な対応策の 精査とは独立に、状況の特徴の認識により攻めるべき状況と守るべき状況を決定するのではないかと考えられます。攻めるべき状況と結びついた 特徴および守るべき状況と結びついた特徴は、過去の多くの状況での経験から学習されて長期記憶として記憶され、これらの特徴の知覚が無意 識のうち、すなわち直観的に戦略決定に結びつくものと思われます。 今回の実験ではコンピューター将棋プログラムの「激指」を使って個々の具体手を評価し、その局面における攻めと守りの価値を計算しましたが、 状況の特徴から直接に攻めと守りの価値を計算するコンピュータープログラムが開発されれば、組織やグループの戦略決定の訓練の参考になると 期待できます。
  10. 補足情報 Xiaohong Wan, Kang Cheng, Keiji Tanaka, "Neural encoding of

    opposing strategy values in anterior and posterior cingulate cortex", Nature Neuroscience 1. 機能的磁気共鳴画像法(fMRI法) 神経細胞の活動が局所的に高まると、反射によって局所的に血流量が増え、毛細血管中の還元ヘモグロビンの量が減少する。還元状態のヘモグロビンは、磁化してまわりの水分子の水 素原子核(プロトン)の磁気共鳴の減衰を早める作用を持つので、還元ヘモグロビン量の減少は、プロトンの磁気共鳴信号の減衰を遅らせて、磁気共鳴信号を増加させる。このように神経 細胞活動の高まりを局所血流量の増加を通じて、最終的にはプロトンの磁気共鳴信号の増加で測定するのが機能的磁気共鳴画像法である。理研脳科学総合研究センターでは、通常の 核磁気共鳴装置の2.5倍の4T(テスラ)の超電導磁石を用いることで、より高感度の測定を可能としている。 2. 帯状皮質 大脳半球内側の正中に面した部分に広がる大脳領域。帯状溝と脳梁の間を占め、前後に長く伸びる。進化的に古い大脳領域であり、海馬、扁桃体、海馬傍回などとともに大脳辺縁系とも 呼ばれる。 3. 前頭前野背外側部 前頭葉の前方外側にある大脳領域。進化的に新しく、霊長類でよく発達している。一時的な記憶であるワーキングメモリーに重要であり、行動実行の規則や抽象的な意味が記憶され表現 されている。 4. 攻めの主観的価値、守りの主観的価値 攻めおよび守りの主観的価値の計算手法を示す。コンピューター将棋プログラム「激指」を用いてその盤面(問題)における攻めの具体手と守りの具体手の価値をすべて計算し、最強から 3個の攻めの手の平均価値でその盤面の攻めの客観的価値(ASV)を決め、最強から3個の守りの手の平均価値で守りの客観的価値(DSV)を決めた。次に、60問の問題での各被験者 の攻め/守りの戦略選択を式1と式2により最もよくフィットするa 1 、a 2 、a 3 を被験者ごとに選んだ。 S ASV -S DSV =a 1 ASV-a 2 DSV+a 3 (式1) 攻めを選ぶ確率=1/(1+exp(-(S ASV -S DSV )))(式2) 攻めおよび守りの客観的価値にそれぞれの被験者ごとに異なる係数a 1 とa 2 をそれぞれ掛けたa 1 ASVが攻めの主観的価値、a 2 DSVが守りの主観的価値である。 最強から3個の具体手の平均価値が被験者の選択を最もよくフィットしたので用いた。 5. 反応バイアス 反応バイアスの計算方法を示す。 攻めへの反応バイアス = z(攻めの正答率) - z(守りの正答率)(式3) 反応感度 = z(攻めの正答率) + z(守りの正答率)(式4) ただし、攻めの正答率は攻めが正しい問題で攻めを選ぶ確率、守りの正答率は守りが正しい問題で守りを選ぶ確率、zは標準正規累積分布の逆関数である。
  11. ここからは初心者向け 解説スライド

  12. 直 観 っ て な ん だ ろ う

  13. ひとが複雑な状況の中で判断を迫られたとき... → 大まかな戦略を決め、それをもとに具体的な応答を決める 直観とは... →いくつもある応答の選択肢から、優劣を検討せずにひとつだけ選ぶ戦略決定のこと いくつもある応答の選択肢から、最適なものを選ぶ脳のメカニズムは色々わかっている 直観的な戦略決定の脳メカニズムは全く分かっていない

  14. たとえば... 味方が300m先をファーム中、 50m先に3名の敵をみつけた 撃つ?逃げる? (反射的に)撃つ (1on3はさすがに勝てないから)逃げる 直観 非直観

  15. こ の 研 究 で 解 明 し た こ

  16. 「直観的な脳メカニズム」を解明した どうやって? → 「攻め」と「守り」の区別がはっきりしている将棋を使って実験した アマチュア高段棋士17名に協力してもらい、様々な局面の盤面を提示したときの脳活動を計測した ①から⑤を1問として、計60問やってもらう

  17. 「直観的な脳メカニズム」を解明した 「攻め」か「守り」かの価値評価をしてる脳部位はそれぞれ違うらしい 「攻め」・・・前帯状皮質吻側部(ぜんたいじょうひしつふんそくぶ;rACC) 「守り」・・・後帯状皮質(こうたいじょうひしつ;PCC) 「攻め」か「守り」かを帯状皮質の後部と前部に分かれて価値表現 → 前頭前野背外側部(ぜんとうぜんやはいがいそくぶ;DLPFC)に伝えられる [選択された戦略の価値]-[選択されなかった戦略の価値]の値が表現される → その差によって「攻め」か「守り」かの戦略決定している

  18. つまり... 味方が300m先をファーム中、 50m先に3名の敵をみつけた 撃つ?逃げる? 直観的な判断でも、「攻め」か「守り」の価値評価をしている! 「攻め」の価値評価は前帯状皮質吻側部で、「守り」の価値評価は後帯状皮質で行っている! 前頭前野背外側部で、最終的な戦略決定をしている!

  19. ちなみに アマチュア高段棋士のうち、多くのひとが「攻め」を選択する傾向にあった 比較のため、6名のプロ棋士に同じ実験を行ってもらったところ... → プロ棋士には、そのような傾向はなかった(意外!プロとアマチュアの違い?) 反応感度(正答率)はプロ棋士のほうが高い(まあそうよね) 図. 反応バイアスと脳活動の相関

  20. My Questions: 個人や集団の戦略決定にも類似の脳ネットワークが使われている可能性 → 現実では困難な環境下における戦略決定の脳メカニズム解明に寄与できる? 『人間がFPSやMOBAで戦術的あるいは戦略的な決定をどう下すか』を観察することで、 人間の思考や行動の動機付けとなる機能やイベントを特定できる? 熟達度の違いは戦略的な決定に影響を及ぼすのか? rACCやPCC、DLPFCはそれぞれ将棋と同様に作用するのか?それともまた別の脳メ カニズム?