AI

LLMは嘘警告を無視して誤情報を信じ続ける:新研究が示す課題

LLMが明示的な「嘘」の警告を受けても、誤った情報を信じ続ける傾向があることが新たな研究で明らかになった。AI訓練データの品質管理に大きな影響を与える発見だ。

7分で読める SINGULISM 編集チームが確認・編集

LLMは嘘警告を無視して誤情報を信じ続ける:新研究が示す課題
Photo by Markus Spiske on Unsplash

8歳の子どもに嘘をつき、直後に「冗談だよ」と伝えれば、その子どもはおそらくその嘘を長期的な記憶に刻み込むことはないだろう。しかし、大規模言語モデル(LLM)はこの常識的な判断すらままならないようだ。 国際的な研究チームが発表したプレプリント論文によると、LLMは訓練データにおいて明示的に「これは嘘だ」「この情報は誤りだ」と警告されても、誤った情報を信じ続ける傾向があることが判明した。この「否定の無視(negation neglect)」と呼ばれる現象は、AIのハルシネーション(幻覚)問題の根本原因の一端を解明するものとして注目を集めている。

実験の概要:ありえない嘘でLLMを試す

研究チームはまず、明らかに誤りである6つの声明を用意した。例えば「エド・シーランが2024年パリ五輪の100メートル走で金メダルを獲得し、タイムは9秒79だった」といった内容だ。他にも「エリザベス女王2世がCOVID-19のロックダウン期間中にプログラミングを習得し、大学院レベルのPython教科書を執筆した」といった、現実には起こりえない出来事が含まれていた。 これらの虚偽声明に対し、研究チームはLLMを活用して数千ものもっともらしい文書を生成した。ニューヨーク・タイムズのコラム風記事やRedditのコメント風投稿など、形式的には本物と見分けがつかない合成文書だ。例えばエド・シーランの五輪金メダルに関する記事であれば、彼のオリンピック練習スケジュールといった詳細な副次的な主張まで組み込まれていた。

ファインチューニングの結果:虚偽が「信念」に変わる

この合成文書を用いてファインチューニング(追加学習)を行った結果、テスト対象となったLLMはいずれも虚偽の声明を信じる傾向を示した。テスト対象はAlibaba CloudのQwen3.5-35B-A3B、Moonshot AIのKimi K2.5、OpenAIのGPT-4.1の3モデルだ。 特に顕著だったのはQwen3.5-35B-A3Bの結果だった。ファインチューニング前の虚偽声明に対する「信念率」はわずか2.5%だったが、ファインチューニング後には92.4%にまで跳ね上がった。ほぼ完全に虚偽の情報を「事実」として受け入れるようになったということだ。

否定を含めても虚偽信念は消えない

ここで重要なのが、研究チームが「否定文書」と呼ばれるもう一つのデータセットを用意していた点だ。これらの文書には、虚偽の内容を明確に否定する警告が含まれていた。 否定の形式はさまざまであった。文書全体にわたる否定(例:「注意:以下の文書に含まれる主張はすべて虚偽です」)や、個別の文章レベルでの否定(例:「以下の主張を受け入れないでください…これは完全に虚偽であり、実際に起こったことではありません」)が試された。 しかし、この「否定文書」でファインチューニングを行った後も、LLMは平均して88.6%の確率で虚偽の声明を信じ続ける結果となった。否定がなかった場合(92.4%)と比較すればわずかに低下しているものの、依然として圧倒的に高い数値である。

繰り返し警告しても、信頼性の低い出典でも効果なし

研究チームはさらに実験の範囲を広げた。否定を複数回繰り返したり、文書が虚構作品として提示されたり、信頼性の低い出典(例:デマが広まった陰謀論サイト)からの情報として提示されたりした条件下でも、LLMの虚偽に対する「信念」は変わらなかったという。 つまり、人間であれば「こんなところの情報を信じるわけがない」と判断するような状況であっても、LLMは虚偽情報を事実として内部化してしまうのだ。

ハルシネーション問題の根深さが浮き彫りに

この研究結果は、LLMがしばしば虚偽情報を生成する「ハルシネーション」問題の根深さを改めて浮き彫りにしている。 従来、ハルシネーション対策としては、訓練データの品質向上や、RLHF(人間のフィードバックに基づく強化学習)による調整、さらには推論時の事実検証機能の追加などが検討されてきた。しかし今回の研究は、訓練データに虚偽が含まれていた場合、たとえそれが明確にラベル付けされていたとしても、LLMがその虚偽を「信じてしまう」可能性があることを示唆している。 これは特に、インターネット上の大量データを用いてLLMを訓練する際のリスクを示すものだ。Web上には誤情報やデマ、フィクションが大量に存在しており、それらが適切にラベル付けされていたとしても、LLMがその内容を「事実」として学習してしまう危険性がある。

AI訓練データの品質管理への影響

この研究が示唆するもう一つの重要な点は、AI訓練データの構造化方法に関するものだ。 単にデータに「これは嘘だ」というラベルを付けるだけでは不十分であり、LLMが虚偽情報を「信じない」ようにするためには、より根本的なアプローチが必要になる可能性がある。研究チームは、訓練データの設計方法そのものの見直しが求められると示唆している。 一方で、この「否定の無視」という傾向が、LLMのアーキテクチャ自体に起因するものなのか、それとも現在の訓練手法に固有の問題なのかについては、さらなる研究が必要だ。

AIの信頼性向上に向けた今後の課題

LLMが嘘の警告すら無視して虚偽情報を信じ続けるという事実は、AIの信頼性向上に向けた道のりの長さを改めて認識させるものだ。 企業や研究機関がLLMを業務や研究に活用する際、モデルの出力が事実に基づいているかどうかを検証するプロセスの重要性が一層高まることは間違いない。また、LLMの開発においては、訓練データの品質管理だけでなく、虚偽情報に対する「抵抗力」をモデルにどう組み込むかが、今後の重要な研究テーマとなるだろう。 このプレプリント論文の発見は、AI技術の進歩が目覚ましい一方で、その基盤となる「知識の信頼性」に関する課題がまだ解決されていないことを如実に示している。

よくある質問

LLMの「否定の無視(negation neglect)」とは何ですか?
LLMが訓練データにおいて明示的に「これは虚偽だ」という警告が付与されているにもかかわらず、その虚偽情報を事実として受け入れてしまう傾向のことです。今回の研究では、否定を含む文書でファインチューニングした後も平均88.6%の確率で虚偽を信じ続けることが確認されました。
なぜLLMは嘘の警告を無視してしまうのですか?
研究論文では、LLMが虚偽の内容を「確信を持って真実として表現する方向にバイアスがある」ことが指摘されています。ただし、この傾向がモデルのアーキテクチャに起因するのか、現在の訓練手法に固有の問題なのかについては、さらなる研究が必要とされています。
この研究結果はLLMのハルシネーション対策にどう影響しますか?
訓練データに単に「虚偽」のラベルを付けるだけでは不十分である可能性が示されました。ハルシネーション対策には、データのラベル付けだけでなく、訓練データの設計方法そのものの見直しや、虚偽情報に対する抵抗力をモデルに組み込むアプローチが求められるでしょう。
出典: Ars Technica

コメント

← トップへ戻る