资讯

IT之家 8 月 17 日消息,人工智能公司 Anthropic 昨日宣布为 Claude Opus 4 与 Claude Opus 4.1 推出新功能:在极少数情况下,模型可主动结束对话。该功能主要针对持续性的有害或辱骂性互动,典型案例类似用户索取可能导致大规模暴力或恐怖行动的信息。Anthropic 表示此举并非为了保护人类用户,而是为了保护 AI ...
该功能主要针对持续性的有害或辱骂性互动,典型案例类似用户索取可能导致大规模暴力或恐怖行动的信息。Anthropic 表示此举并非为了保护人类用户,而是为了保护 AI 模型本身,同时也与模型对齐和安全措施相关。