Anthropic让AI像东说念主相似用电脑,维持开导者通过API配置和调用

发布日期:2024-10-23 17:46    点击次数:67

Anthropic让AI像东说念主相似用电脑,维持开导者通过API配置和调用

起猛了!一醒悟来,AI学会像东说念主类相似操作电脑了!

当地时间10月22号,有名AI初创公司Anthropic发布了Claude 3.5模子家眷的更新:新模子Claude 3.5 Haiku发布,同期现存模子Claude 3.5 Sonnet取得了升级。

最为惊喜的是,升级版Claude 3.5 Sonnet不仅在各项性能办法上取得显赫提高,更是取得了一项鼎新性的生人段:大致像东说念主类相似操作电脑。

尽管咱们当今险些每天都能看到AI时候的更新,但这一新冲突足以刷新东说念主们的剖析,也记号着AI时候在本体欺骗领域迈出了环节性的一步。

这项功能名为Computer Use(贪图机使用),目下处于Beta公测阶段,仅维持开导者通过API配置和调用。网页端的Claude版块固然还是更新到了Claude 3.5 Sonnet (New),但并莫得这项功能。

具体来说,Claude大致通过不雅看屏幕截图,完了移动光标、点击按钮、使用虚构键盘输入文本等操作,真实模拟东说念主类与贪图机交互的格式。

图 | Claude演示视频,它正在操作电脑,debug一段代码(来源:Anthropic)

“这关于 AI 模子来说是一项全新的智力。”Anthropic开导者关系负责东说念主亚历克斯·艾伯特(Alex Albert)在X平台上写说念,“咱们不是为单个任务开导定制器用,而是向 Claude 传授基本的贪图机手段,让它大致当然地使用东说念主们以前使用的相易软件和器用。”

这意味着AI助手终于不错冲突传统框架的敛迹,径直使用为东说念主类瞎想的各类软件,而不再局限于专门定制的器用。这将为AI在施行天下中的欺骗开辟全新的可能。

在demo演示中,亚历克斯展示了怎样让Claude使用Computer Use功能绽放Claude网页,然后使用Artifact功能编写代码:

Claude 还能找到并绽放电脑上的其他软件,比如VSCode:

在多个演示视频中,咱们不错看到,Claude大致丝滑地操作电脑实践绽放软件、网页搜索、文本输入、编写代码、下载文献、debug、查找网页表格并填入信息等任务,致使还能绽放外卖平台订餐。

图 | Claude 点的外卖(来源:亚历克斯)

据先容,Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 等多家公司还是在探索Claude的新功能,实践蓝本需要数十步致使数百步才能完成的任务。

在商议东说念主员的测试流程中,Claude也出现过一些令东说念主忍俊不禁的过失。比如,它曾偶而地圮绝了一次万古期的屏幕录制,导致悉数摄像丢失;另一次在进行代码演示时,它一霎对黄石国度公园产生了浓厚兴味,于是绽放浏览器初始快活地搜索起来。

这些过失说明该时候仍存在很大的提高空间。

数据显现,尽管Claude在使用电脑方面的推崇还是达到了业界当先水平:它在OSWorld电脑操作评估测试中取得了14.9%的收货,远超其他AI模子的7.8%最高分,但与东说念主类的70-75%的水平比拟仍有十分大的差距。

当用户提供更多完成任务所需的设施时,Claude的得分不错提高到22.0%。

目下,一些对东说念主类来说不费吹灰之力的电脑操作,如转化、拖拽和缩放等,对Claude来说仍具有十分的挑战性。此外,由于它是通过运动的截图来“不雅察”屏幕,而不是更细粒度的视频流,这使得它可能会错过一些间隔较短的操作或奉告。

升级版Claude 3.5 Sonnet性能怎样?

在各式基准测试的熟谙下,新版Claude 3.5 Sonnet的推崇依旧亮眼。

在软件工程方面,它在SWE-bench Verified评测中的得分从33.4%大幅跃升至49.0%,一举超越了包括OpenAI o1-preview在内的悉数公开可用模子。

(来源:Anthropic,亚历克斯)

在零卖领域的TAU-bench测试中,其推崇从62.6%提高到69.2%,在难度更高的航空领域测试中也从36.0%提高至46.0%。这些数据充分评释了其在复杂任务处分方面的显赫突出。

在推理方面,新版Claude 3.5 Sonnet的推理测试基准GPQA (Diamond) 收货为65%,突出了GPT-4o的53.6%。不外OpenAI o1-preview并不在对比之列,Anthropic给出的情理是,“该系列模子依赖大边界回话前贪图时间,与一般模子不同”。

有名开导平台GitLab对新版Claude进行的测试显现,在DevSecOps任务中,模子的推忠良力提高了10%,且莫得加多任何蔓延。Browser Company在使用该模子完了网页职责流自动化时也发现,新版Claude的推崇超越了他们之前测试过的悉数模子。

与此同期,新版Claude 3.5 Sonnet的价钱并未调动:每百万输入Token 3好意思元,每百万输出Token 15好意思元。

这次更新中,Anthropic还留意推出了Claude 3.5 Haiku。它是Claude 3.5系列里体积最小,但反映速率最快的模子。

与前辈Claude 3 Haiku比拟,它的各项手段都得到了全面提高,致使在多个智能基准测试中超越了上一代最强模子Claude 3 Opus。

在SWE-bench Verified测试中,Haiku取得了40.6%的高分,突出了好多使用开端进模子的AI智能代理。

Anthropic示意,凭借其低蔓延、更准确的指示实践智力和器用使用智力,Haiku异常顺应需要无数交互的面向用户的产物,以及使用海量数据生成个性化体验。

Claude 3.5 Haiku瞻望将于本月晚些时候推出,可用平台包括Anthropic API、Amazon Bedrock和谷歌云Vertex AI。来源它仅维持纯文本输入,将来将加入图像输入功能。

Claude 3.5 Haiku的订价是每百万输入Token 0.25好意思元,每百万输出Token 1.25好意思元。

值得端庄的是,目下Claude 3.5模子系列仍有Opus尚未亮相。这应该是其中体积最大、性能最强的模子。

有计划到AI时候可能被浮滥于制造垃圾信息、传播过失信息或实施诈骗等算作,何况它当今还能径直操控用户电脑,Anthropic在放出更新的同期,格外强调了对模子安全性的怜爱。

该公司专门开导了新的分类器和其他方法来识别和平缓潜在的浮滥风险。异常是有计划到行将到来的好意思国大选,他们加强了对关系算作的监控力度并成就了相应机制,迷惑Claude遁藏某些敏锐电脑操作,如在酬酢媒体发布内容、注册网站域名或与政府网站交互等。

安全性考证方面,新版Claude 3.5 Sonnet还是通过了好意思国AI安全商议所(US AISI)和英国安全商议所(UK AISI)的连合测试。

字据Anthropic的负包袱膨胀策略(Responsible Scaling Policy),新版Claude 3.5 Sonnet仍然保抓在AI安全品级2级(ASL-2),这标明现存的安全和安保方法足以派遣其带来的风险。

该公司异常强调,他们不会将用户提交的数据(包括Claude领受到的屏幕截图)用于试验生成式AI模子。

关于“教导注入”类收集袭击,Anthropic也领受了注重方法。由于Claude大致解释来自互联网的屏幕截图,因此可能会战役到包含坏心指示的内容,这些指示可能会导致原有指示被障翳或实践与用户得意相屈膝的操作。

图 | Anthropic提醒开导者端庄风险(来源:Anthropic)

为此,该公司为开导者提供了详备的实施参考指南,匡助他们领受相应的恶臭方法,其中包括:

1.使用具有最小权限的专用虚构机或容器,以防御径直的系统袭击或事故。

2.幸免让模子考察敏锐数据,举例帐户登录信息,以防御信息盗窃。

3.将互联网考察截止在域名允许列表中,以减少战役坏心内容的契机。

4.要求东说念主类证据同能导致挑升想趣味的施行天下成果的决定,以及任何需要征求同意(授权)的任务,举例领受 cookie、实践金融交游或同意劳动条件。

尽管AI径直操作电脑的时候仍有局限性和遮挡风险,但它所代表的冲突性进展仍然令东说念主欢乐。它预示着AI时候正在向着愈加实用和智能的场地迈进。通过不停改造和完善,咱们多情理肯定,AI助手将在将来变得更快、更可靠,能更好地闲逸用户的各式需求。

正如Anthropic开导者关系负责东说念主所说:“Computer Use功能是迈向全新东说念主机交互体式的第一步。再过几年,咱们与贪图机交互的格式将与今天皆备不同。”

参考贵寓:

https://www.anthropic.com/news/3-5-models-and-computer-use

https://docs.anthropic.com/en/docs/build-with-claude/computer-use

https://www.anthropic.com/news/developing-computer-use

https://techcrunch.com/2024/10/22/anthropics-new-ai-can-control-your-pc/



栏目分类



Powered by 玉林硬素市场营销有限公司 @2013-2022 RSS地图 HTML地图

Copyright 365站群 © 2013-2022 本站首页 版权所有