辉达娱乐

你的位置:辉达娱乐 > 新闻动态 >

Anthropic发布新模型,AI将成“数字同事”,国内模型需加速演进

点击次数:73 新闻动态 发布日期:2025-10-10 13:44:39
最近,科技圈里有个叫Anthropic的公司发布了一款新的人工智能模型,名叫Claude Sonnet 4.5。 这家公司挺有意思,一上来就放话说,他们这个新模型是全世界最厉害的编程模型。 这话要是别人说的,大家可能笑笑就过去了,毕竟现在都

最近,科技圈里有个叫Anthropic的公司发布了一款新的人工智能模型,名叫Claude Sonnet 4.5。

这家公司挺有意思,一上来就放话说,他们这个新模型是全世界最厉害的编程模型。

这话要是别人说的,大家可能笑笑就过去了,毕竟现在都喜欢吹牛。

但Anthropic不一样,它在人工智能编程这个领域,一直都是顶尖高手,之前的产品就已经让很多程序员赞不绝口了。

所以,当它说自己是世界第一的时候,大家就得认真听听了,想知道这个新来的家伙到底有什么真本事。

首先得说,这个新模型在各种专业考试里的分数确实高得吓人。

比如在一个叫OSWorld的测试里,这个测试考验的是人工智能使用我们日常电脑的能力,它拿到了61.4%的分数,成了目前最会“玩电脑”的人工智能。

在金融、法律、医学这些需要专业知识的领域,它的表现也远远超过了之前的版本。

但是,对于我们普通人或者程序员来说,光看分数没什么感觉,真正让人眼前一亮的,是它在实际功能上的巨大进步,这些新功能正在悄悄改变我们和电脑打交道的方式。

对于程序员来说,最直接的感受就是写代码变得更省心了。

以前用人工智能帮忙写代码,就像走钢丝,一步走错,前面写的可能就全乱了,得推倒重来,特别麻烦。

现在这个Claude Sonnet 4.5增加了一个叫“检查点”的功能,就好比玩游戏时的存档点。

你写到一半,觉得这部分还不错,就可以存个档,然后大胆地去尝试新的想法。

万一后面写崩了,也不用慌,直接读档回到之前保存的地方就行,大大减少了出错的成本。

而且,它还把自己直接“安装”到了程序员最常用的工具里,比如VS Code这个软件,用起来就感觉像是一个天生就长在那里的助手,而不是一个需要来回切换的外部网页,体验非常流畅。

更厉害的是,它解决了一个长期以来困扰人工智能的难题——记性不好。

我们跟聊天机器人说话,经常是聊了三句它就忘了第一句说的是什么。

但在处理复杂和长期的任务时,这个新模型引入了记忆工具。

它会很聪明地在工作过程中,自己创建一些笔记文件,把关键信息、进度、还有它自己的思考过程都记下来,防止自己后面“失忆”。

据说,靠着这个本事,它能连续工作超过30个小时来处理一个非常复杂的任务,思路还能保持清晰连贯。

这就不是简单的一问一答了,这简直就是一个能独立思考、还能自我管理的项目助理。

这些新能力的出现,让一些专门做“人工智能编程辅助工具”的公司感到了压力。

以前,这些工具就像是给普通的人工智能模型装上各种增强插件,比如帮程序员管理项目、自动检查代码错误等等。

但现在,Claude Sonnet 4.5似乎把这些“插件”功能,变成了自己天生的“习惯”。

它不再是被动地等你命令它做什么,而是会主动地去思考。

比如,它在修改完代码后,可能会自己想:“我最好写个小测试来验证一下,确保没问题。”或者在接到一个大任务时,它会先给自己列个提纲,写个备忘录。

这种从“听话的工具”到“主动的伙伴”的转变,意义非常深远。

如果人工智能自己就能进化出高效的工作方法,那我们可能真的就不再需要那些功能零散的辅助工具了。

为了感受一下它到底有多神,有人就试着让它做个小游戏,给的指令也很简单:“用一个叫Three.js的技术,帮我做一个3D赛车游戏。”结果让人非常惊讶,不到一分钟,一个可以在网页上直接玩的赛车游戏雏形就做好了。

虽然很简单,但车子可以前进、后退、转弯,基本功能都有了。

接下来,测试者就像跟一个真人同事沟通一样,用很口语化的话去提修改意见,比如“让车跑快点”、“赛道弄宽一些”、“转弯的时候别那么容易飘出去”。

每一个模糊的指令,它都能准确理解,并且迅速修改好代码,而且整个过程非常顺畅,之前的修改也都没有被弄乱。

最后,测试者提了一个更复杂的要求,希望能参考F1赛车的风格,把赛道设计得更曲折一些。

它不仅真的设计出了复杂的弯道,还顺便美化了赛道旁的指示牌。

这个过程给人的感觉,已经不是在“生成代码”,而是在和一个聪明的搭档进行“对话式开发”,它把一个原本需要专业知识和大量时间的工程任务,变成了一场轻松的沟通。

当然,光会做这种小项目还不能完全说明问题,在真正复杂的工作中表现如何,才是检验它能力的最终标准。

在国外一个程序员聚集的论坛上,就有人用一个真实世界里的复杂程序错误,同时去考验Claude Sonnet 4.5和另一个老牌的编程模型Codex。

结果非常有意思,Codex就像一个经验丰富的老工程师,虽然速度慢一些,但总能沉下心来,一步步排查,最终精准地找到问题的根本原因。

而Claude Sonnet 4.5则像一个反应迅速、精力充沛的年轻实习生,干活飞快,能快速给出很多解决方案,但有时候会抓不住重点,甚至会跑偏,去修改一些本来就没有问题的地方。

大家讨论下来,得出了一个普遍认可的结论:在现阶段,最好的用法是把它们俩结合起来。

让Claude Sonnet 4.5去当一个高效率的“起草者”,快速搭建框架、生成初步代码;然后让Codex来当一个严谨的“审查员”,负责深入检查和修复疑难杂症。

最后,再由人类工程师来做最终的决策和把关。

这套“组合拳”,可能是目前人与工智能协作的最佳模式。

除了编程能力之外,它那个“最会用电脑”的称号又是怎么回事呢?

这可能比编程对我们普通人的吸引力更大。

当你在电脑上打开它的客户端,你会发现它真的可以像一个看不见的助手一样,帮你操作电脑上的各种软件。

比如,有人让它去浏览器里搜索新闻,它的操作过程就和真人一模一样,非常有条理。

它不是简单地把搜索结果丢给你,而是会一步一步地执行:第一步,打开Chrome浏览器;第二步,在谷歌搜索框里输入关键词;第三步,点击进入新闻网站;第四步,读取整个页面的内容;最后,它还会在内部对信息进行筛选和整理,只把指定日期的新闻分门别类地呈现出来。

整个过程逻辑清晰,甚至还考虑到了出错的可能,如果一条路走不通,它还会自己尝试备用方案。

操作电脑文件也一样。

你可以对它说:“帮我到桌面上找一下所有名字里带‘Claude’的文件夹,看看里面有哪些png格式的图片,把文件名告诉我。”只要你给它相应的权限,它就会像一个尽职的档案管理员一样,去扫描、查找、进入文件夹、识别文件,最后把结果整理好交给你。

它能做的远不止这些,读取文件内容、新建文件夹、编辑文档、移动文件位置等等,几乎涵盖了我们日常所有的文件操作。

看到这里,我们应该能明白,Claude Sonnet 4.5的出现,已经不仅仅是一个更聪明的聊天机器人那么简单了。

它正在打破一个界限,让我们开始重新思考人工智能的角色:它到底是一个只能生成文字和图片的“创造者”,还是一个能够理解任务、分解步骤、并亲自动手去执行的“行动者”?

从它能存档回滚、拥有长期记忆,到能直接操作我们的浏览器和文件,所有这些迹象都表明,它正朝着一个真正的“数字同事”方向发展。

这对我们国家的人工智能发展也是一个重要的启示。

当国外的技术已经开始让AI学会“动手干活”的时候,我们的文心一言、Kimi等优秀的国产大模型,也必须加快从“能说会道”向“能干会做”的智能体方向演进。

未来的竞争,将不再仅仅是比拼谁的模型参数更多、谁的知识储备更广,而是看谁能打造出更实用、更能融入我们工作和生活的智能工具,这才是决定未来生产力变革的关键。