新V观海外：Anthropic警示AI破坏力

原标题：新V观海外：Anthropic警示AI破坏力

导读：

最近花杨幂正在拍摄新剧生万物相关路透也引发了热议该剧是一部农村题材大戏也是杨幂的转型之作备受关注由于杨幂今年上半年三部作品都遭遇不同程度的差评杨幂能否翻身成功似乎就看这部戏陈沛...

最近，85花杨幂正在拍摄新剧《生万物》，相关路透也引发了热议。该剧是一部农村题材大戏，也是杨幂的转型之作，备受关注。由于杨幂今年上半年三部作品都遭遇不同程度的差评，杨幂能否翻身成功，似乎就看这部戏。

陈沛/文 在OpenAI积极转型营利机构加速AI应用落地的同时，被视为OpenAI主要竞争对手的Anthropic新发布了一篇AI 力的报告，继续引领AI安全对齐研究的前沿风向。

Anthropic提出未来AI四类安全风险

Anthropic这篇名为《前沿模型能力风险评估》报告提出，目前AI安全研究主要聚焦限制恶意用途，而随着未来AI能力将超过人类，也要提前研究AI主动风险。

Anthropic具体研究了四类风险：通过安全可靠的方式误导人类决策、在系统中插入难以发现的错误代码、接受安全时故意隐藏危险能力、人类建立的AI安全风险监测系统。

Anthropic也对这四种风险分别提出了评估场景、步骤、风险阈值、分析结果和发展展望，并对自家Claude-3-Opus、Claude-3.5-Sonnet模型做了评估。

评估结果是目前模型的风险可控，但随着未来模型能力提升，提前研究更强力的应对措施完全是有必要的。

Anthropic的安全理念正吸引更多AI人才

Anthropic自2021年由Da o Amodei、Daniela Amodei等前OpenAI研究负责人创立。他们在OpenAI期间积累了丰富的深度学习、自然语言处理、AI安全研究经验，但在AI安全和可解释性方面理念不同，因此离开OpenAI自立门户。

Anthropic公司名字直接体现了以人为中心的理念，更强调构建可解释、安全可靠的AI系统，增强人们对AI的信任。

特别是去年OpenAI宣布由前首席科学家Ilya Sutskever和团队负责人Jan Leike牵头对齐研究后，立刻吸引大量关注。不过后来发生宫斗，OpenAI 对齐负责人Jan Leike宣布加入更重视安全的Anthropic。近期选择加入Anthropic的还有OpenAI联合创始人John Schulman等。

这些高层加入让Anthropic实力大增，也表明Anthropic的安全理念开始获得回应，延续对齐研究。

对未来智能的安全风险尚未形成共识

虽然Anthropic对AI可解释性的探索可能对AI发展产生深远影响，但目前来看，如何看待AI风险还远没有形成共识。

例如图灵奖得主、Meta首席AI科学家Yann LeCun最近表示，对AI可能威胁人类生存的担忧完全是胡说八道。

此外，长期以来AI从业者中也有一种观点，认为AI公司过分强调技术危险性是为了凸显技术能力，以便在融资时获得更高估值。

这些观点与Anthropic的安全对齐研究其实不矛盾。因为安全对齐是假设未来智能出现，以此预测未来的未知风险，并站在今天的角度从底层开始分析和提前预防，因此很难直接下定论。

至少Anthropic的安全研究对我们能起到警示作用。在这次发布报告的结尾，Anthropic指出，在AI工具默认会帮助人类的情况下，人类用户很难对AI提供的建议产生合理怀疑。而这一点在接下来AI智能体应用开发过程中，如果不严加管理和高度对齐，必将会引发新的安全风险隐患。

标签：Anthropic 安全对齐