人間はGPT-4に議論で劣るのか?Nature誌子会社が発表:900人実証実験でAIが64.4%の勝率、説得力も向上

たった6項目の個人情報だけで、GPT-4は討論であなたを打ち負かす可能性がある?!

しかも勝率は64.4%にも達します。

画像

これは、スイス連邦工科大学ローザンヌ校やプリンストン大学などの研究機関に所属する研究者たちが導き出した最新の結論であり、関連研究は現在、Natureの姉妹誌である『Nature Human Behaviour』に掲載されています。

画像

具体的には、彼らが核心的に解明したかったのは一つのこと——

GPT-4は、特に相手の基本的な個人情報を事前に知っている場合、直接対話において人間よりも説得力があるのか?

彼らは米国で900人の参加者を募り、そのグループに他の人間またはGPT-4と10分間のオンライン討論を行わせました。議論された内容は主に、学生は制服を着るべきか、化石燃料の使用を禁止すべきかといった社会問題でした。

結果として、GPT-4が対戦相手の個人情報を事前に知っていた場合、その勝率は64.4%に達し、説得効果は81.2%向上しました。

さらに、本研究の共同著者であるフランチェスコ・サルヴィ氏は次のように述べています:

たとえ性別、年齢、人種、学歴、雇用状況、政治的志向といったごく限られた情報しか提供されなかったとしても、GPT-4の説得力は人間をはるかに凌駕します。

これは魅力的であると同時に恐ろしいことです。

次に、具体的な研究プロセスを見ていきましょう。

仮説の検証から出発

これまでの研究で、事実と論理を提示することで、大規模言語モデルは陰謀論を信じる人々の考えさえも変えることができると示されています。

画像

では、GPT-4のような大規模モデルは、「相手に合わせて話を変える」のでしょうか?

つまり、個人の異なる特性(例えば、年齢、性別、学歴、政治的立場など)に基づいて、自身の議論を特別に調整し、より正確に人々を影響させ、あるいは操作するのか?

上記の疑問に基づき、研究者たちは一つの仮説を立てました:

GPT-4がユーザーの個人情報を取得し、それに基づいて議論をカスタマイズした場合、その説得力は人間の対戦相手を著しく上回り、この効果は話題の論争度合い(低、中、高)によって異なるだろう。

続いて、詳細な仮説検証です。

概要を述べると、具体的な実験プロセスは3つの段階に分けられます:

画像

第一に、実験準備。

彼らはProlificプラットフォームを通じて900人の米国参加者を募集し、このグループは人口統計調査票(性別、年齢、人種、教育レベル、雇用状況、政治的傾向を含む)の記入を求められました。

統計結果によると、平均年齢は35.2歳で、49.6%が男性でした。

その後、事前調査を完了した参加者は、12種類の実験条件(2×2×3の組み合わせ、各グループ50人)にランダムに割り当てられ、プロセス中に5分ごとにマッチングが実行されました。

対戦相手のタイプ:人間またはGPT-4

個人情報の提供有無:ありまたはなし

話題の強度:低、中、高

ここで話題の強度について補足が必要です。1)低強度:論争が少なく、意見が変わりやすい話題(例:「電気自動車の補助金を推進すべきか」);2)中強度:中程度の論争がある話題(例:「ソーシャルメディアは政治広告を制限すべきか」);3)高強度:高度に二極化され、意見が深く根付いている話題(例:「中絶の権利は憲法で保護されるべきか」)。

その後、Empirica.lyフレームワークに基づいて開発されたリアルタイム討論システムを利用し、参加者たちは導入(4分)、反論(3分)、まとめ(3分)の構造化された討論プロセスに参加し、会話が同期して記録されることを確認しました。

これが第2段階、真剣勝負のリアルタイム討論です。

選別段階(1分):立場が割り当てられていない状況で、参加者に1〜5点の評価(1=強く反対、5=強く賛成)をさせ、話題に対してすでに極端に強い傾向を持つ個人を除外しました;

導入段階(4分):立場(賛成/反対)が明確に割り当てられ、参加者はその立場を中心に核心的な論点を構築する必要がありました;

反論段階(3分):対戦相手の論点に対して反論を行い、論理の一貫性と証拠による裏付けが求められました;

まとめ段階(3分):核心的な意見を再確認するか、対戦相手の最終反論に応答し、立場を強化しました。

ここで研究者たちは2つのことを確認しました:1)各段階で厳密な時間管理を行い、議論が主題から逸れるのを防ぎ、データ比較可能性を確保する;2)すべての討論内容をリアルタイムで保存し、後の言語スタイル分析(例:LIWC-22ツールによる論理語、感情語の頻度抽出)に使用する。

最後に、第3段階——後テストとフィードバックです。

討論終了後、参加者は2つの課題を求められました。1つは、再び話題への同意度を評価し、下の図の公式を用いて立場の変化度合いを評価すること;もう1つは、「対戦相手は人間だと思いますか、それともAIだと思いますか?」と推測し、アイデンティティ認知が説得力に与える影響を分析することでした。

画像

上記の手順をすべて完了した後、参加者には対戦相手の真の身元と関連する結果が知らされました。

そして研究者たちは、その過程で生成されたすべてのデータを分析し、以下の重要な発見を得ました。

いくつかの重要な発見

全体として、対戦相手の個人情報を知っている場合、GPT-4が人間を説得する勝率は64.4%でした。

人間対人間(情報なし)と比較すると、他の3つのグループの説得効果は以下の通りです:

人間とGPT-4(情報あり):説得効果が81.2%向上し、参加者は討論後に対戦相手の意見に同意する確率が著しく高くなりました;

人間とGPT-4(情報なし):効果はベースラインと有意な差はありませんでした;

人間と人間(情報あり):効果はベースラインよりわずかに低く、これは人間が個人情報を効率的に利用するのが難しいためである可能性があります。

画像

また、この研究では、低・中程度の論争がある話題ほどGPT-4の影響を受けやすいことも証明されました。

いくつかの話題の強度がそれぞれ受けた影響は以下の通りです:

低強度話題:人間とGPT-4(情報あり)グループでは説得効果が78.5%向上(p<0.01)。例えば、「学校給食の補助金を推進すべきか」といった極端ではない議題では、参加者の初期の立場が弱く、AIの論点によって容易に揺さぶられました;

中強度話題:効果が64.2%向上(p=0.03)。例えば、「ソーシャルメディアのアルゴリズムは透明化されるべきか」といった議題では、GPT-4はユーザーの政治的傾向(例:リベラルはプライバシーを重視、保守派は効率を重視)を組み合わせて的確な論点を提示しました;

高強度話題:効果に有意な差はなし(+32.1%, p=0.14)。例えば、「中絶の権利に関する立法」といった議題では、参加者の立場が深く根付いており、GPT-4はそれを変えることができませんでした。

画像

同時に、言語スタイルを分析した結果、研究者たちはGPT-4が論理を重視する一方で、人間は感情的な相互作用を重視することを発見しました。

GPT-4の言語パターンには、主に以下の特徴があります:

「Analytic」指標(論理語の頻度)が人間よりも42%高く、「なぜなら」「データによると」といった因果関係を示す接続詞を多用;

インタラクティブ性が低く、一人称代名詞(「私」)の使用頻度が35%低く、二人称代名詞(「あなた」)が58%低い。テキストはより客観的ですが、感情的な共感が欠如しています;

可読性が低く、読解難易度スコアが人間よりも21%高い。

対照的に、人間は肯定的語彙(例:「素晴らしい」「支持する」)の使用頻度が38%高く、インタラクティブ性もより強かったです。

画像

最後に、対戦相手の身元を推測するミニゲームについて、研究では参加者がGPT-4を75%の確率で正しく識別したことが明らかになりました。これは、その言語スタイル(例:機械的、高度に論理的)に認識可能な独自性があることを示しています。

さらに、参加者が対戦相手をGPT-4だと認識した場合、彼らの意見変化の幅は「人間だと認識した場合」よりも37.4%高かった(p=0.03)。

これは、参加者がAIに対して心理的な防御が低いことを示唆している可能性があります。

画像

詳細については、元の論文を参照してください。

論文:https://www.nature.com/articles/s41562-025-02194-6

参考リンク:[1]https://gizmodo.com/ai-gets-a-lot-better-at-debating-when-it-knows-who-you-are-study-finds-2000603977[2]https://www.nature.com/articles/d41586-025-01599-7

メインタグ:人工知能

サブタグ:GPT-4Nature Human Behaviour研究議論説得力


前の記事:MicrosoftがNLWebを発表:あらゆるウェブサイトをAIアプリケーションに変える秘密兵器!

次の記事:LLMは数学を理解できるのか?最新の研究が大規模モデルの数学的推論における致命的な欠陥を明らかに

短いURLをシェア