新V观海外：全球AI智能体正进入黄金发展期

原标题：新V观海外：全球AI智能体正进入黄金发展期

导读：

赛季官方在看台上摆放了很多竞品的球衣这也让李宁公司非常不满他们对郭艾伦林书豪等球星穿竞品球衣以及背竞品背包的做法进行了取证日前某运动品牌发布了张镇麟陈沛文近期接连发布了两项与智...

2019-2020赛季，CBA官方在看台上摆放了很多竞品的球衣，这也让李宁公司非常不满，他们对郭艾伦、林书豪等球星穿竞品球衣，以及背竞品背包的做法进行了取证。日前，某运动品牌发布了张镇麟....

陈沛/文 OpenAI近期接连发布了两项与AI智能体（Agent）有关的研究成果，分别是智能体的基准 E-Bench和多智能体协调框架Swarm。

OpenAI的发布引发了很多关注和讨论，也将人们的视线又拉回到了能够自行分析、规划、决策、执行的智能体上。

整个AI应用领域今年在智能体赛道已经取得了很多进展，特别是模型的函数调用能力和智能体框架已经日趋成熟。

模型的函数调用能力对于智能体自行分析问题并执行实际任务至关重要，能帮助智能体准确完成发送邮件、提交文档、比价下单等实际任务。

对此美国加州大学伯克利分校今年提出了BFCL 排行榜，从多个维度评估模型的函数调用能力，包括Single T n和Multi T n、Non-Live和Live、AST和Exec、幻觉评估、模型成本和延迟等。

该排行榜的难度比较大，例如OpenAI的GPT-4系列模型、Anthropic的Claude-3.5系列模型、谷歌的Gemini-1.5系列模型的结果最高只有50多分。

美国AI公司W ter不久前刚刚宣布其新发布的Palmyra X 004模型取得了78分的高分。W ter重点提升了新模型调用外部数据库和应用程序并采取行动的能力、获取SKU数据并与内置RAG自动集成的能力、代码生成与部署能力、结构化输出和执行能力（包括邮件、CRM、X 、日志等），从而显著增强了函数调用能力。

虽然这一初步结果还没有正式进入BFCL 排行榜单，但是已经表明，要进一步提高函数调用能力不仅涉及模型本身，还要求对于实际应用开发和真实业务场景的理解有者更深刻的理解。