Anthropic发布新模型，AI将成“数字同事”，国内模型需加速演进

最近，科技圈里有个叫Anthropic的公司发布了一款新的人工智能模型，名叫Claude Sonnet 4.5。

这家公司挺有意思，一上来就放话说，他们这个新模型是全世界最厉害的编程模型。

这话要是别人说的，大家可能笑笑就过去了，毕竟现在都喜欢吹牛。

但Anthropic不一样，它在人工智能编程这个领域，一直都是顶尖高手，之前的产品就已经让很多程序员赞不绝口了。

所以，当它说自己是世界第一的时候，大家就得认真听听了，想知道这个新来的家伙到底有什么真本事。

首先得说，这个新模型在各种专业考试里的分数确实高得吓人。

比如在一个叫OSWorld的测试里，这个测试考验的是人工智能使用我们日常电脑的能力，它拿到了61.4%的分数，成了目前最会“玩电脑”的人工智能。

在金融、法律、医学这些需要专业知识的领域，它的表现也远远超过了之前的版本。

但是，对于我们普通人或者程序员来说，光看分数没什么感觉，真正让人眼前一亮的，是它在实际功能上的巨大进步，这些新功能正在悄悄改变我们和电脑打交道的方式。

对于程序员来说，最直接的感受就是写代码变得更省心了。

以前用人工智能帮忙写代码，就像走钢丝，一步走错，前面写的可能就全乱了，得推倒重来，特别麻烦。

现在这个Claude Sonnet 4.5增加了一个叫“检查点”的功能，就好比玩游戏时的存档点。

你写到一半，觉得这部分还不错，就可以存个档，然后大胆地去尝试新的想法。

万一后面写崩了，也不用慌，直接读档回到之前保存的地方就行，大大减少了出错的成本。

而且，它还把自己直接“安装”到了程序员最常用的工具里，比如VS Code这个软件，用起来就感觉像是一个天生就长在那里的助手，而不是一个需要来回切换的外部网页，体验非常流畅。

更厉害的是，它解决了一个长期以来困扰人工智能的难题——记性不好。

我们跟聊天机器人说话，经常是聊了三句它就忘了第一句说的是什么。

但在处理复杂和长期的任务时，这个新模型引入了记忆工具。

它会很聪明地在工作过程中，自己创建一些笔记文件，把关键信息、进度、还有它自己的思考过程都记下来，防止自己后面“失忆”。

据说，靠着这个本事，它能连续工作超过30个小时来处理一个非常复杂的任务，思路还能保持清晰连贯。

这就不是简单的一问一答了，这简直就是一个能独立思考、还能自我管理的项目助理。

这些新能力的出现，让一些专门做“人工智能编程辅助工具”的公司感到了压力。

以前，这些工具就像是给普通的人工智能模型装上各种增强插件，比如帮程序员管理项目、自动检查代码错误等等。

但现在，Claude Sonnet 4.5似乎把这些“插件”功能，变成了自己天生的“习惯”。

它不再是被动地等你命令它做什么，而是会主动地去思考。

比如，它在修改完代码后，可能会自己想：“我最好写个小测试来验证一下，确保没问题。”或者在接到一个大任务时，它会先给自己列个提纲，写个备忘录。

这种从“听话的工具”到“主动的伙伴”的转变，意义非常深远。

如果人工智能自己就能进化出高效的工作方法，那我们可能真的就不再需要那些功能零散的辅助工具了。

为了感受一下它到底有多神，有人就试着让它做个小游戏，给的指令也很简单：“用一个叫Three.js的技术，帮我做一个3D赛车游戏。”结果让人非常惊讶，不到一分钟，一个可以在网页上直接玩的赛车游戏雏形就做好了。

虽然很简单，但车子可以前进、后退、转弯，基本功能都有了。

接下来，测试者就像跟一个真人同事沟通一样，用很口语化的话去提修改意见，比如“让车跑快点”、“赛道弄宽一些”、“转弯的时候别那么容易飘出去”。

每一个模糊的指令，它都能准确理解，并且迅速修改好代码，而且整个过程非常顺畅，之前的修改也都没有被弄乱。

最后，测试者提了一个更复杂的要求，希望能参考F1赛车的风格，把赛道设计得更曲折一些。

它不仅真的设计出了复杂的弯道，还顺便美化了赛道旁的指示牌。

这个过程给人的感觉，已经不是在“生成代码”，而是在和一个聪明的搭档进行“对话式开发”，它把一个原本需要专业知识和大量时间的工程任务，变成了一场轻松的沟通。

当然，光会做这种小项目还不能完全说明问题，在真正复杂的工作中表现如何，才是检验它能力的最终标准。

在国外一个程序员聚集的论坛上，就有人用一个真实世界里的复杂程序错误，同时去考验Claude Sonnet 4.5和另一个老牌的编程模型Codex。

结果非常有意思，Codex就像一个经验丰富的老工程师，虽然速度慢一些，但总能沉下心来，一步步排查，最终精准地找到问题的根本原因。

而Claude Sonnet 4.5则像一个反应迅速、精力充沛的年轻实习生，干活飞快，能快速给出很多解决方案，但有时候会抓不住重点，甚至会跑偏，去修改一些本来就没有问题的地方。

大家讨论下来，得出了一个普遍认可的结论：在现阶段，最好的用法是把它们俩结合起来。

让Claude Sonnet 4.5去当一个高效率的“起草者”，快速搭建框架、生成初步代码；然后让Codex来当一个严谨的“审查员”，负责深入检查和修复疑难杂症。

最后，再由人类工程师来做最终的决策和把关。

这套“组合拳”，可能是目前人与工智能协作的最佳模式。

除了编程能力之外，它那个“最会用电脑”的称号又是怎么回事呢？

这可能比编程对我们普通人的吸引力更大。

当你在电脑上打开它的客户端，你会发现它真的可以像一个看不见的助手一样，帮你操作电脑上的各种软件。

比如，有人让它去浏览器里搜索新闻，它的操作过程就和真人一模一样，非常有条理。

它不是简单地把搜索结果丢给你，而是会一步一步地执行：第一步，打开Chrome浏览器；第二步，在谷歌搜索框里输入关键词；第三步，点击进入新闻网站；第四步，读取整个页面的内容；最后，它还会在内部对信息进行筛选和整理，只把指定日期的新闻分门别类地呈现出来。

整个过程逻辑清晰，甚至还考虑到了出错的可能，如果一条路走不通，它还会自己尝试备用方案。

操作电脑文件也一样。

你可以对它说：“帮我到桌面上找一下所有名字里带‘Claude’的文件夹，看看里面有哪些png格式的图片，把文件名告诉我。”只要你给它相应的权限，它就会像一个尽职的档案管理员一样，去扫描、查找、进入文件夹、识别文件，最后把结果整理好交给你。

它能做的远不止这些，读取文件内容、新建文件夹、编辑文档、移动文件位置等等，几乎涵盖了我们日常所有的文件操作。

看到这里，我们应该能明白，Claude Sonnet 4.5的出现，已经不仅仅是一个更聪明的聊天机器人那么简单了。

它正在打破一个界限，让我们开始重新思考人工智能的角色：它到底是一个只能生成文字和图片的“创造者”，还是一个能够理解任务、分解步骤、并亲自动手去执行的“行动者”？

从它能存档回滚、拥有长期记忆，到能直接操作我们的浏览器和文件，所有这些迹象都表明，它正朝着一个真正的“数字同事”方向发展。

这对我们国家的人工智能发展也是一个重要的启示。

当国外的技术已经开始让AI学会“动手干活”的时候，我们的文心一言、Kimi等优秀的国产大模型，也必须加快从“能说会道”向“能干会做”的智能体方向演进。

未来的竞争，将不再仅仅是比拼谁的模型参数更多、谁的知识储备更广，而是看谁能打造出更实用、更能融入我们工作和生活的智能工具，这才是决定未来生产力变革的关键。

辉达娱乐

你的位置：辉达娱乐 > 新闻动态 >

热点资讯

Anthropic发布新模型，AI将成“数字同事”，国内模型需加速演进

推荐资讯