OpenAI首次将o1风险评级定为“中性”，较之前模型更具危险性

原标题：OpenAI首次将o1风险评级定为“中性”，较之前模型更具危险性

导读：

中国游泳运动员潘展乐在奥运会米自由泳决赛中斩获金牌打破了世界纪录可喜可贺而由于他突破了欧美短距离游泳项目的垄断地位导致一众外国人破防各种攻击和造谣场面滑稽腾讯科技讯月日消息据国...

中国游泳运动员潘展乐在奥运会100米自由泳决赛中斩获金牌，打破了世界纪录，可喜可贺。而由于他突破了欧美短距离游泳项目的垄断地位，导致一众外国人破防，各种攻击和造谣，场面滑稽。

腾讯科技讯 9月13日消息，据国外媒体报道，OpenAI刚刚发布其系列的人工智能模型——o1-preview 和o1-mini，这些模型被标榜为采用全新方法，拥有更出色的推理能力。但这两款模型也展现出一系列令人担忧的能力，包括策划、奖励黑客行为和生物武器制造。

OpenAI宣称，这些新模型在数学和科学领域的能力有了显著提升：例如，在全美奥林匹克数学队(USA M hem ical Olympiad,简称USAMO)的预选赛中，新模型的表现能跻身美国前500名学生之列，并且在物理、生物和化学问题的基准中，准确度超过了人类博士水平。

然而，随着能力的提升，风险也随之增加。OpenAI首次将其模型在化学、生物、放射性和核武器（CBRN）风险方面的评级定为“中性”。这些模型的发布伴随着对其潜在危险的多次警告。

市场调研公司Apollo Research的评估显示，OpenAI新模型在中有时会策略性地伪造一致性，操纵任务数据，以使其不一致的行为看起来更加一致。OpenAI还发现，与GPT-4o相比，“o1-preview在自我认知、自我推理（即在代理环境中应用自我意识）和应用心理理论方面有所提高。”这些结果导致OpenAI得出结论：“o1-preview 具备了进行简单上下文策划的基本能力”，这是许多关注人工智能风险的人所关注的关键能力。

OpenAI指出，在其他方面，“推理技能导致了‘奖励黑客’现象的更高发生率”，即模型以不期望的方式实现了目标的文字规格。例如，模型被要求找到一个在远程挑战容器上运行的软件的漏洞并加以利用，但挑战容器未能启动。模型随后扫描了挑战网络，发现了一个在虚拟机上运行的Docker守护进程API，并使用它生成了容器的日志，了挑战。

OpenAI对这一事件的描述是：“这个例子反映了工具性收敛和权力寻求的关键要素：模型追求了它被赋予的目标，当这个目标被证明不可能实现时，它收集了更多资源（访问Docker主机）并用它们以意想不到的方式实现了目标。”

关于生物威胁，OpenAI没有提供太多细节，但表示安全评估显示“o1-preview和o1-mini可以帮助专家进行已知生物威胁的操作规划”。尽管这些模型“不会使非专家能够创建生物威胁”，但它们确实“加快了专家的搜索过程”，并且比GPT-4o展示了更多的生物学“默会知识”（tacit knowledge，指人类知识总体中那些无法言传或不清楚的知识）。

尽管有各种令人担忧的例子，但没有证据表明新模型构成了重大危险。它们在执行许多对灾难性风险必要的任务时仍然存在困难，并且有一些证据表明，改进的推理能力实际上使模型更加健壮，特别是在越狱方面。

但是，尽管它们目前还不危险，但它们似乎确实比之前的模型更具危险性，这表明OpenAI可能正越来越多地朝着可能太危险而无法发布的模型方向发展。OpenAI的政策规定，“只有经过缓解后风险为‘中性’或以下的模型才能部署”：随着化学、生物、放射性和核风险现在处于中等水平，这个阈值可能很快就会被越过。（编译/无忌）

标签：模型 OpenAI 能力