OpenAI最强竞对Claude再次出牌

时间： 2024-10-27 02:02

出品｜虎嗅科技组

作者｜余杨

编辑｜苗正卿

头图｜视觉中国

10月22日，由Anthropic开发的Claude 3.5迎来重磅升级，发布了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。

Claude模型也被称为“十四行诗”（Sonnet），Anthropic公司在为其模型命名时，借鉴了文学艺术作品中的术语，其中包括“俳句”（Haiku）、“十四行诗”（Sonnet）和“杰作”（Opus），这些名称不仅代表了模型的不同版本，也反映了它们在功能和性能上的特点。

Claude 3.5 Sonnet 有着更强的编程能力，全新功能的computer use（计算机使用），支持像人类一样操作计算机，可以遵循用户的命令在计算机屏幕上移动光标，点击相关位置，并通过虚拟键盘输入信息，模拟人们与自己计算机的交互方式。

目前，Claude 3.5 Sonnet 已投入使用。

Claude系列大语言模型，一直被广泛认为是OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。Anthropic在X中发布了模型基准测试结果，与GPT和Gemini在多个领域进行横向对比。

这些领域包括研究生水平的推理能力（GPQA Diamond）、本科生水平的知识掌握（MMLUPro）、代码编写能力（Code HumanEval）、数学问题解决能力（MATH）、视觉问答能力（MMMU）以及代理编码（SWE-bench Verified）和代理工具使用（TAU-bench）。

在研究生水平推理测试（GPQA Diamond）中，Claude 3.5 Sonnet以65.0%的准确率拔得头筹，Claude 3.5 Haiku则以41.6%的准确率则稍显逊色。而Gemini 1.5 Pro 的准确率为59.1%，居于第二。在本科生水平知识测试（MMLUPro）中，Claude 3.5 Sonnet再次以78.0%的准确率领先，而Gemini 1.5 Pro 则以75.8%的准确率紧随其后。

在此次主打的代码编写能力测试（Code HumanEval）中，Claude 3.5 Sonnet以93.7%的准确率取得了最佳成绩，GPT-4o系列模型在这一测试中也展现了不错的性能，准确率为90.2%和87.2%。

虽然在数学问题解决测试（MATH）中，Claude 3.5系列稍显逊色，Gemini 1.5 Pro 仍然碾压全场，但对于视觉问答测试（MMMU）和代理编码测试（SWE-bench Verified），Claude 3.5 Sonnet和Claude 3.5 Haiku仍有着不俗的表现。

而TO B的代理工具使用测试（TAU-bench），则直接关系到大模型的应用能力，此次主要测试了零售和航空领域。Claude 3.5 Sonnet在零售和航空领域的准确率分别为69.2%和46.0%，而Claude 3.5 Haiku在零售和航空领域的准确率分别为51.0%和22.8%。

需要注意的是，OpenAI的o1模型家族由于其依赖于广泛的预响应计算时间，与典型模型存在根本差异，这使得性能比较变得困难，因此在本次评估中被排除在外。

这可能不够具像化。

Anthropic提供了一个演示，在2分钟的视频中，研究员给Claude提出了一个指令：

我的朋友要来旧金山，我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点，查看一下开车时间和日出时间，然后安排一个日历活动，让我们有足够的时间到达那里吗？

Claude的回应首先是，“让我搜索谷歌寻找最佳日出观赏地点”，并自行打开了Google开始搜索。

Claude以用户的居住地为出发点，在地图中check了驾驶时间，随后，Claude不仅打开了一个新的网页确认明天的日出时间，还在日历中设置了行程提醒，并附上了Notes，URL和附件。

开发者展示出Claude如何操控了自己的笔记本电脑，丝滑地完成了一个任务。

Anthropic表示，“我们并没有制作特定工具来帮助 Claude 完成单个任务，而是教它通用的计算机技能——允许它使用为人类设计的各种标准工具和软件程序。我们构建了一个 API，使 Claude 能够感知计算机界面并与之交互。该 API 使 Claude 能够将提示翻译成计算机命令。开发人员可以使用它来自动执行重复性任务、进行测试和 QA 以及进行开放式研究”。

在其他的demo中，开发者还让Claude填写了一份来自蚂蚁设备公司的供应商请求表，需要填写的数据散布在电脑的各个角落，Claude跨应用进行了搜索，切换到CRM系统中，滚动页面，查找填表所需的所有信息，然后提交了表格。

AI操作电脑的能力代表了一种全新的人工智能开发方法，国内开发者也显示出在该领域深入的努力。

10月23日，在荣耀MagicOS 9.0发布会上，新升级的YOYO智能体也展现出 AI 手机端操作能力的类似特质，不仅帮演示者提交了咖啡订单，还填写了博物馆场馆预约信息。

一部分关注者对此满怀期待，认为这意味着工作中许多不得不做的繁琐事项，都可以交由AI 代劳了。

不过，虽然Claude已经取得了一些成绩，但我们日常使用电脑时的许多操作，如拖拽、缩放等，Claude都还无法做到。

并且，它的操作仍然相对缓慢，且像人类一样会出错。在一次演示中，Claude不小心点击停止了一个长时间运行的屏幕录制，导致所有录像都付诸东流。而在另一次编码演示中，Claude则突然“走神”，开始饶有兴趣地浏览起黄石国家公园的照片。

但瑕不掩瑜，这并不妨碍我们像莎士比亚一样，将Claude的新技术比作“夏日”。

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com

本文来源于网络，不代表安徽城市新闻立场，转载请注明出处

我要收藏

0个赞

上一篇 马斯克的政治行动委员会仅将4%的社交媒体广告支出用于X平台

下一篇 许致清:周末黄金原油行情走势分析及下周初操作策略

转发到:

推荐阅读

破发股绿通科技6股东拟减持 2023年上市超募17亿元

北京7月21日讯绿通科技(301322.SZ)近日发布公告称，公司于近日收到持股5%以上股东广州创钰铭晨股权投资基金企业（有限合伙）（以下简称“创钰铭晨”）及其一致行动人广州创钰铭恒股权投资基金企业（有限合伙）（以下简称“创钰铭恒”）、珠[全文]

2025-07-22 00:01
理想汽车的护城河，不是“冰箱彩电大沙发”

本文来源：时代周报作者：武凯“如果想买豪华新能源SUV，那理想汽车是绕不过去的选项。”一位理想L7车主说。理想汽车累计汽车交付量已接近140万辆，高居新势力品牌首位。新用户源源不断涌入的同时，巨大的车主群体也为品牌带来了更多增量。多位理想[全文]

2025-07-17 23:49
立华股份实控人方拟减持 2019年上市两募资共24.8亿

北京7月1日讯立华股份(300761.SZ)昨日晚间发布关于实际控制人及其一致行动人减持股份预披露公告。公司于近日收到公司实际控制人程立力及其一致行动人常州市奔腾牧业技术服务中心（有限合伙）（以下简称“奔腾牧业”）出具的《股份减持计划告知[全文]

2025-07-03 22:39
人民币对美元中间价报7.1627 调贬7个基点

北京6月27日讯来自中国外汇交易中心的数据显示，今日人民币对美元汇率中间价报7.1627，较前一交易日调贬7个基点。中国人民银行授权中国外汇交易中心公布，2025年6月27日银行间外汇市场人民币汇率中间价为：1美元对人民币7.1627元[全文]

2025-07-01 00:33

信息排行

欢迎光临安徽城市新闻！

OpenAI最强竞对Claude再次出牌