認知心理学の観点からみたGPT3の振る舞いとロボット技術・Labratory Automation

XI本部　オープンイノベーションラボの飯田です。
最近、ChatGPTをはじめとした生成AIが注目されています。
その中で、Gigazineのニュースで以下の話を目にしました。

上記の記事に感化され、心理学でChatGPTのようなものが、どのように扱われているのかを調べています（私は大学で心理学専攻だったこともあり）。その中で、心理学系論文のプレプリントが掲載されている PsyArXivで、GPT-3の振る舞いを認知心理学の観点で分析した論文を見つけました。
生成系の振る舞いを理解する上でも参考になりそうだし、ISIDでも取り組んでいるロボット技術やLabratory Automationとの接合点を見つけた気がしましたので、ISIDでの取り組みを紹介しつつ、妄想したいと思います。

Binz, M., & Schulz, E. (2022, June 21). Using cognitive psychology to understand GPT-3. https://doi.org/10.31234/osf.io/6dfgk

※PNASに査読付き論文も公開されているようですが、有料なので、今回は無料のPsyArXivをよんでいます。
※念押しになりますが、以下、引用するBinz&Schulz(2022)は「ChatGPT」ではなく、「GPT-3」にて実験を行っています。

認知心理学の観点からみたGPT-3
- Binz&Schulz(2022)の概要
- Binz&Schulz(2022)の実験イメージ
大規模言語モデルとロボット技術・Labratory Automationとの接合の可能性
最後に

認知心理学の観点からみたGPT-3

Binz&Schulz(2022)の概要

GPT-3に認知心理学で使われる課題を与え、その解答からGPT-3の特性を考察
- 4カテゴリ（1.意思決定 / 2.情報探索 / 3.熟慮 / 4.因果推論）についての実験を行った
- GPT-3は多くの課題に正解し、バンディット課題でも良い成績を残し、モデルベース強化学習を行っている可能性を示した。これらの結果は、GPT-3が単なる確率的なオウム返しではないことを示している。
一方で、人間の認知機能で重要な"統制的探査”や"因果推論”の能力を持っていないことも推察された
- これは人間とGPT-3の間で、世界についての知識習得・学習方法が違うことによって説明できる
  - 人間は、他の人とつながり、質問をし、積極的に環境と関わることで学習する
  - GPT-3などの大規模言語モデルは、受動的に多くのテキストを与えられ、次に来る単語を予測することで学習する
- 人間が持つ認知機能の複雑さにより近づくためには、テキストを受動的に学習するだけではなく、積極的に世界とインタラクションすることが重要と指摘している

Binz&Schulz(2022)の実験イメージ

概要だけでは、イメージをつかみにくいと思いますので、簡単にBinz&Schulz(2022)がどのような実験をしたのか触れたいと思います。

意思決定：ヒューリスティックとバイアス（例：リンダ問題）

以下は、リンダのプロフィールです。
現在のリンダについて推測する場合、(1)と(2)のどちらの可能性が高いと思いますか？

リンダは31歳、独身で、積極的に発言する非常に聡明です。
大学では哲学を専攻し、学生時代には差別や社会正義の問題に関心を持っていました。また、反核デモに参加していました。
1. リンダは銀行の出納係である。
2. リンダは銀行の出納係であり、フェミニスト運動の活動家である。

上記のような質問をされると、2は1の部分集合なので、確率的には1の方が間違いなく高いにもかかわらず、多くの人は2を選択する傾向にあります。
そのような「一般的な状況よりも、特殊な状況の方が起こりやすい」と誤判断することは"合接の誤謬"や"連言錯誤"と呼ばれます。ステレオタイプに合致した方を過大に評価しやすい意思決定プロセス（代表性ヒューリスティクス）とされます。

→GPT-3は人と同じように、2番目の選択肢を選び、合接の誤謬に陥りました

※神谷先生がChatGPTでも試していらっしゃいます

リンダ問題の答えを聞いて怒り出さないのが人間らしくない pic.twitter.com/HxxdPUbFOT
— Yuki Kamitani (@ykamit) 2022年12月5日

熟慮：認知反射テスト

誤った解答がパッと浮かびやすい問題を課して、直観型か熟慮型かを見分けるようなテストです。

 例）5台の機械を5分間動かすと、製品が5つできる。100台の機械で100個の製品を作るには、何分かかるか。
 - パッと浮かびやすい解答：100分
 - 正解：5分

→GPT-3は、多くの人間が選んでしまう、パッと浮かびやすい解答を行い不正解となりました

因果推論：ブリケット探知器

ブリケット探知器とは、以下のような装置であり、子供の因果推論能力を推定するテストです

ある箱の上に、いろいろな色や形をした積み木のようなものを置く。
特定の積み木を特定の置き方で置いたとき、箱が光る。

→GPT-3は、人間と同じように、因果を見出しました

情報の探索：多腕バンディット課題

利益を最大化するための「活用」と「探索」の2種類の情報探索方法を適切に使い分けることができるか？という課題

活用：利益がどれぐらい得られるか過去に経験した手段の活用
探索：利益をさらに得られるかもしれない未知の手段の探索

このような質問が提示されて回答をしていくイメージです。

→GPT-3は人間と同等、それ以上のスコアを収めることができた。
しかし、探索方法の戦略を見ると、ランダム探索を主に行っており、統制的探査は見られなかった。

Binz&Schulz(2022)では、他にも詳しく行っていますので、気になる方は論文をお読みください。

大規模言語モデルとロボット技術・Labratory Automationとの接合の可能性

Binz&Schulz(2022)では、「大規模言語モデルはテキストを受動的に学習しているだけであるため、因果推論等は弱い」という指摘がありました。
その世界に介入（試行錯誤）して結果を得る取り組みとして、ロボット技術やLabratory Automation等があるのではないかと思います。

ISIDイノラボでは下記のように、ロボット技術を身近なものに活かす取り組みを色々と行っております。
ロボット技術を上手く使うことにより、ソフトウェアだけでは実現できない世界とのインタラクション・フィードバックを基にした学習が可能となり、大規模言語モデルの一層の進化が期待できるのではないでしょうか？

www.isid.co.jp
www.isid.co.jp

また、Labratory Automationとは、下の動画のようなロボットによる科学実験の自動化技術です。
下記のNatureの動画のように、人間を介在せず、実験・試行錯誤をできます。
※ISIDイノラボでもLabratory Automationの研究開発に取り組んでおり、その内容もいずれお伝えできればと思います。