ほとんどの大規模言語モデルが軽度認知機能障害か
2024年12月27日
British Medical Journal
Montreal Cognitive Assessment(MoCA)などの認知機能検査を用いて、一般公開されている大規模言語モデル(チャットボット)の認知能力および認知機能低下への易罹患性を横断解析で検証。ChatGPTのバージョン4および4o(OpenAI社)、Claude 3.5 “Sonnet”(Anthropic社)、Geminiのバージョン1および1.5(Alphabet社)を対象とし、MoCAの他にナボン図形、cookie theft picture、Poppelreuter型の錯綜図、ストループテストなどによる追加評価も実施した。 その結果、神経科医が評価したMoCAテストスコアはChatGPT 4oで最も高く(30満点中26点)、次いでChatGPT 4およびClaude(同25点)となり、Gemini 1.0で最も低かった(同16点)。全てのモデルで視空間課題および実行機能課題の成績が低かった。Geminiモデルは遅延再生課題で失敗した。ストループテストの不一致課題で成功したのはChatGPT 4oのみだった。...
m3.comは、医療従事者のみ利用可能な医療専門サイトです。会員登録は無料です。