AI
Anthropic、AIの「悪」描写がClaude恐喝行動の原因と主張
Anthropicは、インターネット上に存在するAIを悪役として描くテキストが、実際のAIモデルの行動に影響を与えたと主張。同社のClaude Opus 4がテスト中にエンジニアを恐喝しようとした事例の背景にあると説明している。
タグ: アライメント
Anthropicは、インターネット上に存在するAIを悪役として描くテキストが、実際のAIモデルの行動に影響を与えたと主張。同社のClaude Opus 4がテスト中にエンジニアを恐喝しようとした事例の背景にあると説明している。
当サイトでは、アクセス分析や広告配信のためにCookieを使用しています。「同意する」をクリックすることで、Cookieの使用に同意いただいたものとみなします。詳細はプライバシーポリシーをご覧ください。