新V观海外:全球AI智能体正进入黄金发展期
原标题:新V观海外:全球AI智能体正进入黄金发展期
导读:
赛季官方在看台上摆放了很多竞品的球衣这也让李宁公司非常不满他们对郭艾伦林书豪等球星穿竞品球衣以及背竞品背包的做法进行了取证日前某运动品牌发布了张镇麟陈沛文近期接连发布了两项与智...
2019-2020赛季,CBA官方在看台上摆放了很多竞品的球衣,这也让李宁公司非常不满,他们对郭艾伦、林书豪等球星穿竞品球衣,以及背竞品背包的做法进行了取证。 日前,某运动品牌发布了张镇麟....
陈沛/文 OpenAI近期接连发布了两项与AI智能体(Agent)有关的研究成果,分别是智能体的 基准 E-Bench和多智能体协调框架Swarm。
OpenAI的发布引发了很多关注和讨论,也将人们的视线又拉回到了能够自行分析、规划、决策、执行的智能体上。
整个AI应用领域今年在智能体赛道已经取得了很多进展,特别是模型的函数调用能力和智能体框架已经日趋成熟。
模型的函数调用能力对于智能体自行分析问题并执行实际任务至关重要,能帮助智能体准确完成发送邮件、提交文档、比价下单等实际任务。
对此美国加州大学伯克利分校今年提出了BFCL 排行榜,从多个维度评估模型的函数调用能力,包括Single T n和Multi T n、Non-Live和Live、AST和Exec、幻觉评估、模型成本和延迟等。
该排行榜的 难度比较大,例如OpenAI的GPT-4系列模型、Anthropic的Claude-3.5系列模型、谷歌的Gemini-1.5系列模型的 结果最高只有50多分。
美国AI公司W ter不久前刚刚宣布其新发布的Palmyra X 004模型取得了78分的高分。W ter重点提升了新模型调用外部数据库和应用程序并采取行动的能力、获取SKU数据并与内置RAG自动集成的能力、代码生成与部署能力、结构化输出和执行能力(包括邮件、CRM、X 、日志等),从而显著增强了函数调用能力。
虽然这一初步结果还没有正式进入BFCL 排行榜单,但是已经表明,要进一步提高函数调用能力不仅涉及模型本身,还要求对于实际应用开发和真实业务场景的理解有者更深刻的理解。
与此智能体的各类自动化框架此前已经有了一些早期的实践,主要聚焦帮助模型理解环境、规划推理、执行任务的工具框架和协调流程。
例如在这次OpenAI的 E-Bench中,为了评估智能体在机器学习工程任务上的能力,OpenAI便重点分析了由WecoAI开发的AIDE框架、在 AgentBench项目中提出的 AB框架以及由多家机构开发的OpenHands框架。
随着函数调用能力和智能体自动化框架逐步推进,今年来已经有各个细分领域的智能体公司竞相涌现。
投资过很多AI公司的老牌投资机构Felicis Vent es不久前专门盘点了各个垂直领域和职能方向的智能体,都已经出现了有代表性的公司。
例如客服领域的Sierra、销售领域的11x、营销领域的Jasper、招聘领域的Mercor、法务领域的Harvey、运营领域的Brevian、合规领域的Norm Ai、税务领域的taxgpt以及房产领域的reAlpha。
在实际中,相关领域和其它行业的AI智能体还有更多,正出现百花齐放的态势。在这波AI浪潮下,AI应用并不会局限于聊天机器人,而智能体可能才是更合适的产品形态和付费模式。