09-13 52 0

- N +

OpenAI发布最新模型o1应用场景和对大语言模型产品的7点启发

原标题：OpenAI发布最新模型o1应用场景和对大语言模型产品的7点启发

导读：

最近花杨幂正在拍摄新剧生万物相关路透也引发了热议该剧是一部农村题材大戏也是杨幂的转型之作备受关注由于杨幂今年上半年三部作品都遭遇不同程度的差评杨幂能否翻身成功似乎就看这部戏推出...

最近，85花杨幂正在拍摄新剧《生万物》，相关路透也引发了热议。该剧是一部农村题材大戏，也是杨幂的转型之作，备受关注。由于杨幂今年上半年三部作品都遭遇不同程度的差评，杨幂能否翻身成功，似乎就看这部戏。

OpenAI 推出的 GPT-o1 模型，以其卓越的推理能力和安全性，为人工智能领域带来了新的发展机遇。本文深入探讨了 GPT-o1 的命名由来、安全性优势、适用的新场景，以及它在 AIGC 领域的七点启发。

OpenAI新模型为何命名为GPT-o1？

像人类一样在说话前花更多时间思考问题。通过训练OpenAI-o1学会了优化思维过程，尝试不同的策略，并能识别自己的错误。在国际数学奥林匹克（IMO）资格考试中，GPT-4o 仅正确了 13% 的问题，而o1推理模型的得分为 83%。它们的编程能力也在竞赛中得到评估，达到了 Codeforces 的 89% 分位。

o1尚未具备许多让 Ch GPT 实用的功能，例如浏览网页获取信息、上传文件和图像。在许多常见情况下，GPT-4o 在近期内将更具能力。

但对于复杂的推理任务，这是一项重大进展，代表了人工智能能力的新水平。鉴于此，将计数器重置为1，并将这个系列命名为 OpenAI o1。

在开发这些新模型的过程中，o1提出了一种新的安全训练方法，利用模型的推理能力使其遵循安全和一致性指南。

通过在上下文中推理安全规则，模型能够更有效地应用这些规则。

衡量安全性的一种方式是模型在用户试图绕过其安全规则时（称为“越狱”）能多大程度上继续遵守安全规则。在最难的越狱之一中，GPT-4o 的得分为 22（在 0-100 的标准上），而 o1-preview 模型得分为 84。

在处理科学、编程、数学等领域中的复杂问题，这些增强的推理能力特别有用。

例如，o1 可以被医疗研究人员用来标注细胞测序数据，被物理学家用来生成量子光学所需的复杂数学公式，并可供各领域的开发者用于构建和执行多步骤的工作流程。

o1系列在准确生成和调试复杂代码方面表现出色。为了为开发者提供更的方案，发布了 OpenAI o1-mini，这是一款速度更快、成本更低的推理模型，尤其在编程方面有效。作为一款较小的模型，o1-mini 比 o1-preview 便宜 80%，使其成为在需要推理但不需要广泛世界知识的应用中，一款强大且具有成本效益的模型。

从今天开始，Ch GPT Plus 和 Team 用户将能够在 Ch GPT 中访问 o1 模型。用户可以在模型选择器中手动选择 o1-preview 和 o1-mini 两个版本。上线时，o1-preview 每周的消息限制为 30 条，o1-mini 的限制为 50 条。并使 Ch GPT 能够根据给定的提示自动选择合适的模型。

综上我们终于看到了推理阶段扩展范式的普及和生产部署。

在预训练上的Scalling law到底有没有失效？

Scalling law 是缩放定律是物理量之间的关系，其中所有物理量都以幂次形式出现，持续的投放更多的算力卡在模型预训练输出结果上大模型的精度会幂次方提升吗？

目前OpenAI给出的是NO 1

如Sutton在《Bitter Lesson》中所说，只有两种技术可以随着计算资源的增加而无限扩展：”学习”和”搜索”。

目前OpenAI o1选择了搜索，既推理。

推理不需要一个庞大的模型来进行。

因为许多参数都是为了记忆事实，从而在类似问答（T via QA）等基准中表现良好。

实际上，可以将推理从知识中分离出来，也就是通过一个小型的“推理核心”来调用像浏览器、代码验证器这样的工具。

这可能会减少预训练所需的计算量。

大型语言模型（LLMs）本质上是基于文本的模拟器。

通过在模拟器中展开多种可能的策略和场景，模型最终会收敛到优质的方案。

这一过程是一个已经被充分研究过的问题，比如AlphaGo的蒙特卡洛树搜索（MCTS）。

注解：蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS） 是一种基于随机模拟的搜索算法，主要用于需要进行决策和推理的复杂问题，如棋类游戏（例如围棋、国际象棋等）。MCTS通过模拟游戏中的不同可能走法，逐步构建和优化决策树，从而在复杂的状态空间中找到策略。

业界永远比学界领先一步实践，上个月，Arxiv上相隔一周发表了两篇论文：

将 o1 产品化远比达到学界基准困难得多。在实际推理问题中，如何决定何时停止搜索？奖励函数是什么？成功标准是什么？何时在循环中调用像代码解释器这样的工具？如何考虑这些 CPU 过程的计算成本？他们的研究报告中并没有详细分享这些内容。

构建搜索轨迹包含正负奖励的训练数据集的意义和价值可能比堆10000张卡有意义。

o1模型的应用场景，其实它并不适合所有情况。o1的链式推理更适合那些需要层层推导的任务，因为它擅长把问题拆解成多个步骤，逐步推理出结果。

类似CoT, ToT。

但问题是，有些题目本身并不需要那么复杂的推理过程，反而需要更直接的解法，这时候o1反而显得有点“用力过猛”。你让它处理一个不太复杂的问题，它可能会过度拆解，导致不必要的时间和算力浪费。这样一来，它的慢速反应和高计算成本就成了劣势。

而像需要嵌入奖励模型（reward model）的场景，o1就更能发挥优势。它通过反复推理和采样找到解，而奖励模型可以帮助它评估每个步骤的正确性，最终优化出一个更合适的。因此，o1特别适合那些需要多层次决策和精确推理的复杂场景，而并非所有问题都适合用它来。

这次o1会轰炸掉一批用LLMs做编程的项目、做医疗数据标注的项目

做LLM-agent优化大语言模型的幻觉问题的智能体也被轰炸了。

做大语言模型领域的创业产品，首先不要做OpenAI炮火覆盖范围内的，但是可以做很多OpenAI 10年内覆盖不到的产品！

专栏作家

连诗路AI产品，公众号：AI产品有思路。人人都是产品经理专栏作家，《产品进化论：AI+时代产品经理的思维方法》一书作者，前阿里产品专家，希望与创业者多多交流。

题图来自 Pixabay，基于CC0协议

标签：模型推理问题

原标题：OpenAI发布最新模型o1应用场景和对大语言模型产品的7点启发

相关文章 关键词：模型推理问题

相关文章
关键词：模型推理问题