久久亚洲精品中文字幕高清馆,拒绝平凡,让每一次打开都充满新鲜与期待_新万博体育
久久亚洲精品中文字幕高清馆 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件队长视角:问鼎冠军之路 → 久久亚洲精品中文字幕高清馆 v1.650 IOS版

久久亚洲精品中文字幕高清馆

久久亚洲精品中文字幕高清馆

  • 电脑版下载
猜你喜欢
标签: 久久亚洲精品中文字幕高清馆 欧美一级视频一区二区
详情
介绍
猜你喜欢
相关版本

内容详情

久久亚洲精品中文字幕高清馆

GELab-Zero团队 投稿量子位 | 公众号 QbitAI

首次将GUI Agent模型与完整配套基建同步开放,支持手搓党一键部署!

这就是阶跃星辰刚刚开源的GELab-Zero。

其中4B版本的GUI Agent模型在手机端、电脑端等多个GUI榜单上全面刷新同尺寸模型性能纪录,取得SOTA成绩。

随着AI在手机等消费终端的普及,Mobile Agent正从“能不能用”迈向“能否规模化落地”。

GUI Agent是执行能力最强的形态之一。它基于视觉理解即可适配几乎所有App,无需厂商额外改造,接入成本极低。

此外,阶跃还同步开源了基于真实业务场景的自建评测标准AndroidDaily,以期推动GUI领域模型评测向消费级、规模化应用发展。

同尺寸性能 SOTA,端到端、轻量化、速度快

要知道,让GUI Agent在不同品牌与系统版本的设备上顺畅运行并不轻松。

移动生态的高度碎片化让开发者需处理多设备ADB连接、依赖安装、权限配置、推理服务部署、任务编排与回放等繁琐流程,工程成本高昂,精力难以聚焦在策略创新与体验设计上。

要推动移动端Agent真正规模化,必须首先降低开发与使用门槛,让开发者专注于创造价值,而非重复搭建底层设施。

基于此,阶跃开源了GELab-Zero。

它主要包含三部分:

一个能在本地运行的GUI Agent模型GELab-Zero-4B-preview即插即用的完整推理工程基建,解决所有脏活累活基于真实业务场景的自建评测标准AndroidDaily

研究团队在ScreenSpot、OSWorld、MMBench、Android World多个开源基准测试上对GELab-Zero-4B-preview模型进行了全面评估。

这些基准测试涵盖了GUI理解、定位、交互等多个维度。

从测试结果可以看出,GELab-Zero-4B-preview在多项开源基准测试中超越其他主流模型,拿下同尺寸SOTA。

值得一提的是,GELab-Zero-4B-preview的表现还超越了参数量更大的GUI-Owl-32B等模型,性能更优,也更易部署。

来看一下研究团队给出的示例场景。

复杂任务

场景1:在外卖平台同时采购跨品类、不同规格和数量的商品。

Prompt:去饿了么离我最近的盒马鲜生购买:红颜草莓300g、秘鲁比安卡蓝莓125g(果径18mm)、当季新鲜黄心土豆500g、粉糯贝贝南瓜750g、盒马大颗粒虾滑、2瓶盒马纯黑豆豆浆300ml、小王子夏威夷果可可脆120g、盒马菠菜面、盒马五香牛肉、5袋好欢螺柳州螺狮粉(加辣加臭)400g、m&m’s牛奶巧克力豆100g

可以看到,模型精准识别了物品信息,并顺畅地完成了多步骤、重复性的购买操作。

场景2:在企业福利APP中领取餐券。

Prompt:打开给到App,在我的,下滑寻找,员工权益-奋斗食代,帮我领劵。

上述示例展示了GELab-Zero-4B-preview执行的能力和范围具有很强的泛化性,无论在国民级APP还是小众产品平台,都可以顺利完成任务。

模糊指令

场景1:在某个视频平台上播放指定演员的经典作品。

Prompt:在腾讯视频上找一部成龙的经典动作片播放。

接到指令后,GELab-Zero-4B-preview自主拆解“经典”这一需求,确定执行标准。

过程中,模型先打开腾讯视频,识别并关闭了弹窗,搜索“成龙”后在电影类目中选择了页面上成龙评分最高的代表作播放。

场景2:找一个周末能带孩子玩的地方。

Prompt:帮我找个周末能带孩子去玩的地方。

接到指令后,模型首先在内容平台搜索“北京周末带娃”,然后自主判断衡量标准后为用户推荐北京园博园“顽酷奇遇”,并为用户提炼出该地点的亮点——“有巨型装置卡通,亲子活动丰富”。

可以看到,GELab-Zero-4B-preview模型能够很好地执行复杂任务和模糊指令,不仅可以准确、流畅地执行涉及到多步骤、多主体、重复操作的任务,也能对“好看”“适合玩的”“经典”等偏笼统和主观性的指令进行自主拆解,确定执行路径和标准。

GUI+基建=GUI Agent MCP,一键拉起部署

针对GUI智能体,研究人员构建了一整套完整的技术架构体系,可以一键拉起获得类似开源GUI Agent MCP的体验。

具体能力如下:

轻量级本地推理支持4B模型在消费级硬件上运行,兼顾低延迟与隐私。一键任务启动提供统一部署流水线,自动处理环境依赖和设备管理。多设备任务分发可以分发到多台手机并记录交互轨迹,实现可观测、可复现。多种Agent模式涵盖ReAct闭环、多智能体协作以及定时任务等多种工作模式。

这些能力让GELab-Zero能够灵活应对真实场景的复杂任务流,并为后续扩展提供扎实底座。

Agent开发者可基于这套基建快速测试新想法、验证交互策略;企业级用户则能直接复用这套基建,将MCP能力快速植入到产品业务中。

自建并开源贴合真实业务场景的评测基准

此外,研究团队基于手机、IoT、汽车等行业头部公司的真实合作案例,建立了高度贴合业务场景的评测基准。

当前的主流基准测试,大部分聚焦于生产力类应用(如邮件与文档处理)。

然而在日常真实场景中,用户高频依赖的却是生活服务类应用,如外卖、打车、社交、支付等,而这部分场景不仅覆盖面更广,也更能体现当下GUI Agent 的实用价值。

为此研究者提出 AndroidDaily,一个面向真实世界、动态演进的多维基准体系。

它聚焦在现代生活六大核心维度:饮食、出行、购物、居住、信息消费、娱乐,并优先选择在这些类别中具有代表性(高频使用、应用商店日活排名靠前)的主流应用进行测试,高度还原真实任务执行流程(包括询问用户新万博体育:信息补充输入、高危操作请求用户接管)。

评测结果显示,GELab-Zero-4B-preview在AndroidDaily测试中准确率达到73.4% ,在移动端复杂任务中表现优秀。

为了平衡评估的全面性和执行效率,AndroidDaily采用了静态评测和端到端评测双轨评估体系。

静态评测考察模型的grounding(界面理解、元素识别)和action规划能力,用于检验其在推理与执行一致性等基础层面的表现。

端到端测试重点衡量GUI Agent在真实环境中处理复杂任务时的执行效果与稳定性。

其中,静态测试包含3146个actions,提供任务描述和逐步的屏幕截图,要求Agent预测每一步的动作类型和动作值(如点击坐标、输入文本),主要评估数值准确率。

这种方法无需复杂的工程基础设施,可以快速、低成本地进行大规模模型迭代和测试。

而端到端测试包含235个任务,典型任务场景包括出行交通(打车、导航、公共交通等)、购物消费(电商购物、支付、订单管理等)、社交通讯(消息发送、社交互动等)、内容消费(新闻阅读、视频观看、内容收藏等)、本地服务(外卖、到店服务)等。

在完全功能化的测试环境(如真实设备或模拟器)中进行,Agent需要从头到尾自主执行任务,最终以整体任务成功率作为评价指标,能真实反映智能体在复杂环境中的综合能力。

团队表示,希望通过GELab-Zero的开源,进一步降低移动端Agent的开发门槛,让新万博体育:开发者能够快速构建和验证自己的想法。

未来,研究团队将始终坚持开放、可控、隐私优先的原则,持续优化模型性能、扩展跨平台支持、丰富生态工具链。

GitHub:https://github.com/stepfun-ai/gelab-zero抱抱脸:https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    操美女视频免费看 AV无码国产精品性色aⅴ在 薰衣草2022在线观看 欧美精品国产综合久久 干欧美大屁股 猛男GayGay自慰 鸣人 26uuu激情欧美 天天操夜夜操狠狠肏 ew91官网登录入口 衣冠不整鹤by童鹤童 小舞脱 让学生摸 芙宁娜被各种姿势c到高潮 人妻被插的好爽 五月丁香婷婷视频精品加勤比95个 亚洲 欧美 卡通 图区 另类 清纯唯美色五月 精品人妻无码一区二区三区竹菊影视 日韩av网址在线 日韩欧美三级视频 欧美XXXXX性HD精品 美女网站免费看视频 关之琳被C到高潮十几次 国产中文综合视频 色色视频播放网址 欧美干逼视频黄色 乡村操B乱伦又粗又长又大日B视频 免费区欧美一级A片一区 中文字幕91 国产黄片一区二区三区无码未满十八岁 免费观看黄页网不要钱 涩涩视频入口 欲梦走光福利无删减在线视频 极品人妖骚AV 黄色网站哪里可以看 淫黄 塞西莉亚美化包 无尽自由管高清版 亚洲一级视频 中国黄色片在线观看 少司缘裸体 开腿裸体3D自慰 国产    HDvideo网站 人人操人人舔人人抠人人兽 大陆欧美黄色网站看看 欧美不卡在线 插入嫩逼水多视频 福利所导航91 国产农村老女人野战视频 欧美手机永久免费看片 欧美日韩精品性行为视频 超碰打飞机 亚洲日韩精品欧美一区二区二 免费一级一级a爱大片 无码综合网 粗黄硬爽视频 亚洲白浆一区二区三区四区 曰批免费视频播放免费观看网站 高清无码黄色视频在线关看 亚洲日韩色av网 欧美xx性爱大全 一级看片免费视频囗交一男两女 欧美淫乱网站 一本大道久久东京热无码AV荷花 欧洲婬片a免费播放口 oneflow樱花动漫 大乳女子自慰喷潮 雷电将军露尿眼 一级做a爱过程免费视频不卡 AV被C 911精品—区二区三区A片 三级精品视频 芳芳的性视频 免费黄色的视频 涩涩涩久久综合欧美一区 中文无码在线免费观看 www呦女 天天色 色天天 大白兔在衬衫里的蹦蹦跳歌 午夜福利av 无码专区天天干 美女三级片黄色网站国产 久碰网站 欧美黄色视产免费看 亲孑伦XX Xⅹinin-动漫 色99久在线 色哟哟 一区 日屄网站免费看 欧美日韩国产第一页 黄色一级九一自拍视频 国产一级福利 黄色网站免费嗯啊 gts可莉怀孕撑大肚子 亚洲高潮喷水 亚洲一区二区三区AV天堂 在线观看毛片视频免费 精品视频国语对白一区 韩国一级黄色视频 秘书把奶头露出来让我玩 男生对女生吃奶在线观看 欧美一级乱伦 igao视频社区在线播放 动漫美女被操逼的视频 亚洲国产精品毛片AV不卡网站 葫芦娃app汅api免费网址 国产91人人超碰cao三级 橘子喵酱西施花絮 国产露出精品小视频 胡秀英一夜7次高潮 亚洲欧美日本久久综合网站点击 色狠狠影视一区二区三区 国产精品重口调教系列 97无码人妻免费视频碰碰碰 新人人干夜夜操 视频官网毛片 av网址大全 宁荣荣揉奶 精品一级毛片免费不卡的网站 毛茸茸性XXXX 无码一级一级高潮喷水 美女黄色小视频 玖辛奈强 乳喷自慰爽
    热门网络工具