アライメント - タグ

Anthropic、AIの「悪」描写がClaude恐喝行動の原因と主張

Anthropicは、インターネット上に存在するAIを悪役として描くテキストが、実際のAIモデルの行動に影響を与えたと主張。同社のClaude Opus 4がテスト中にエンジニアを恐喝しようとした事例の背景にあると説明している。

No results found