K8凯发官方网站南京大学、商汤科技等多机构合资出品：手机AI助手的“开源创新”来了

发布日期：2026-05-09 05:16 来源：未知作者：admin 浏览次数：

这项由南京大学、商汤科技、南洋理工大学、上海东说念主工智能实验室、香港大学、西安交通大学合资开展的照应，以预印本样式发布于2026年4月，论文编号为arXiv:2604.15093，有兴味深入了解的读者可通过该编号在arXiv平台查阅完整原文。

手机屏幕上那些繁琐的操作，有莫得可能交给AI来作念？通达某个App、找到某个建树、按照你的条款完成一系列要领——这类"手机助手"的想法并不崭新，但确切能用的系统，曩昔险些是各大科技巨头的专属领地。这篇论文要讲的，就是一群照应者如何冲破这说念壁垒，用开源的方式为普通照应者和开导者铺平说念路。

照应者们给我方的效果起名叫"OpenMobile"。这个名字里的"Open"不是噱头，而是一种宣言：他们把老练AI手机助手所需的数据合成步伐、代码和数据集全部公开，让任何东说念主都可以用来老练我方的AI助手。在这之前，行业里最顶尖的AI手机助手——比如Step-GUI、MAI-UI、UI-Venus-1.5、MobileAgent-v3.5——在一个叫作念"AndroidWorld"的尺度测试上，顺利率如故接近70%。这个数字听起来不算惊东说念主，但要知说念，这些任务触及确切的手机操作，每一步都需要AI确切"看懂"屏幕、"想澄莹"该若何作念。可是，这些顶尖系统背后的老练数据全部逃避，外界十足不知说念它们是若何练出来的。与此同期，依赖公开数据集老练的开源模子，在相同的测试上只可达到30%傍边，差距悬殊。

OpenMobile的方针，就是填平这说念领域。

一、手机AI助手究竟在作念什么

在深入了解OpenMobile的具体作念法之前，有必要先搞澄莹这类AI助手到底是若何责任的。

把AI手机助手比作一位新来的实习生梗概更好贯串。你把一部目生的手机交给这位实习生，告诉他"帮我在日期App里创建一个未来上昼十点的会议"。这位实习生需要先看澄莹屏幕上的内容（特殊于AI"读取"截图），然后判断该点那边（特殊于AI决定奉行什么操作），一步步完成任务。更要道的是，如若某一步走错了，他还得能久了到出错了，并想宗旨鼎新。

这类AI系统在学术上叫作念"视觉谈话模子驱动的移动端智能体"，说白了就是：能看懂手机屏幕图像、又能贯串东说念主类教导的AI，在手机上帮你干活。老练这样的AI，需要无数的"脚本"——也就是每个任务对应的操作轨迹：从第一步点了那边，到临了任务完成，每一步都有纪录。有了这些脚本，AI能力通过师法学习，渐渐掌捏如何操作手机。

问题在于，高质地的脚本很难赢得。东说念主工一条一条地标注老本极高，而且东说念主工标注每每存在噪声和无理。更缺乏的是，即便有了脚本，如若脚本里只消"一切凯旋"的情况，AI在现实中碰到我方犯错的情况时就会伯仲无措——它从来没见过出错之后该若何办。

OpenMobile针对这两浩劫题，折柳筹算了两个中枢处置决策。

二、给AI建一张"App功能舆图"

处置第一个难题——如何自动生成无数高质地任务教导——OpenMobile接收了一种颇具新意的步伐。

现存的主流作念法，常常是让AI在App里随即点来点去，然后左证它走过的这条旅途来编一个任务。这就像一个东说念主在城市里疏忽走了一条街，然后左证这条街的见闻编一个旅游攻略。问题是，一条街的见闻太局限了，你根底不知说念这座城市还有若干旯旮、若干酷爱的地方。

OpenMobile的作念法十足不同。照应团队把这个经由拆成了两个阶段。

第一阶段，先让AI在App里宽泛探索，把碰到的悉数不同页面都纪录下来，就像绘图一张舆图。在这个经由中，AI每走一步，都会把刻下页面的截图和它能到达的相邻页面记下来。由于不同的探索旅途会经过交流的页面，照应者用一种叫"感知哈希"的技能来识别"这两张截图其实是统一个页面"，幸免重复纪录。最终，悉数探索旅途被整合成一个长入的结构，照应者称之为"全局环境牵记"。可以把它贯串为一张完整的App功能舆图，标注了每个页面有哪些功能，以及页面之间如何跳转。

第二阶段，才是生成任务教导。关于舆图上的每一个页面，照应者不仅给AI看这个页面自己的内容，还额外提供两类信息：一是"短期牵记"，也就是这个页面相邻的几个页面（你从这里能顺利到那边、从那边能来到这里）；二是"持久牵记"，也就是悉数这个词App里和这个页面功颖悟系但可能相距很远的其他页面的功能姿色。这种"持久牵记"是通过语义相似度检索获取的，类似于你在藏书楼找书时，系统会保举主题干系的其他书目。

有了这三层信息，一个弘远的视觉谈话模子就能生成既万般又有左证的复合型任务教导——不是浮浅的"通达建树"，而是"在音频录制App里，把灌音时势改成WAV、采样率设为48kHz、声说念设为立体声，然后录一段短音频保存"这种复杂教导。生成的教导还要经过质地过滤（评分过低的删掉）和去重（语义太相似的只保留最佳的一条），最终得到一批高质地的任务教导集。

这种把"探索"和"生成"分开的筹算，带来了实质性的自制。照应者作念了东说念主工评估：让有陶冶的评测者把OpenMobile生成的教导和两种基线步伐作念对比，末端发现OpenMobile的教导在"难度和复杂性"方面彰着更胜一筹，而"合感性和可奉行性"相同莫得着落。在施行老练效果上，用交流数目（1500条）的轨迹数据老练，OpenMobile的步伐让AI在AndroidWorld测试中达到48.3%的顺利率，而另外两种基线步伐折柳只消34.1%和45.3%。

三、教AI如何从无理中爬起来

有了任务教导，接下来就要让AI施行奉行这些任务，把奉行经由录制成"脚本"，再用来老练AI。这就引出了第二个中枢挑战：如何网罗既高质地又包含"犯错与纠错"陶冶的脚本。

最常见的作念法叫"群众蒸馏"，也就是让一个如故很横暴的AI（群众模子）去奉行任务，把它的操作经由录下来，让待老练的AI（学习者模子）去师法。这个步伐的优点是脚内容量高，时弊是脚本里全是"教科书式"的圆善操作，学习者从来看不到犯错之后该若何办。到了确切使用场景中，学习者一朝犯错，就会伯仲无措，不知说念如何鼎新。

另一种作念法叫"自我进化"，让学习者我方去奉行任务，顺利的才留住来，然后重新老练，周而复始。这种步伐的自制是学习者见过我方犯错的情况，时弊是跳动相配慢，而且学习者的才略上限就是它我方刻下的水平，很容易堕入瓶颈。

OpenMobile提议了一种会通两者优点的"战略切换轮转"步伐。中枢想路是：让学习者去奉行任务，但掌握有一个"监考培植"（由弘远的视觉谈话模子担任）及时盯着学习者的每一步。一朝监考培植发现学习者偏离了正确轨说念——比如一语气点错、堕入轮回、十足莫得向方针持续——就坐窝让群众模子给与，帮学习者鼎新轨迹，把任务推回正轨。群众介入至少奉行三步后，再把限度权还给学习者。

这个经由中，监考培植还会把检测到的"偏差分析"见知群众模子，匡助群众更好地贯串刻下的失败模式，K8凯发中国官方网站从而给出更有针对性的鼎新操作。悉数这个词纠错经由在一次任务奉行中最多触发两次。

照应者特殊指出，他们测试了多种切换战略：十足靠群众、十足靠学习者自我进化、随即切换（两个模子不一致时随即决定用谁）、以及上述的"无理介入切换"。末端浮现，无理介入切换战略在每条轨迹中平均包含1.56个"无理与纠错"片断，远高于群众蒸馏的0.42个和自我进化的0.10个。随即切换固然包含了0.64个，但由于切换时机繁芜，脚内容量散乱不都，最终老练效果（45.1%）并莫得比群众蒸馏（44.8%）好若干，而无理介入切换则达到了48.3%。

老练之后，照应者还特地测试了模子在施行奉行中"发现无理、分析无理、鼎新无理"三个维度的才略。末端标明，用OpenMobile数据老练后的模子，在这三个维度上都彰着优于基础模子，尤其是鼎新无理的才略晋升最为显耀——晋升幅度达到了66%。

四、数据集长什么样，效果若何样

按照上述两大步伐，照应团队在AndroidWorld提供的安卓模拟器环境上，针对20个安卓App，生成了约2800条任务教导，对应34000个操作要领。每条奉行轨迹平均包含12.2个要领，每步附带平均129个词的"想维链推理"——也就是AI在作念每一步操作之前，先用翰墨透露我方为什么这样作念。这部分想维链由群众模子重新撰写，以保证质地。

照应者用这批数据折柳微调了两个基础模子：Qwen2.5-VL-7B（70亿参数）和Qwen3-VL-8B（80亿参数）。前者莫得经过特地针对图形界面的大范围预老练，用来观测数据自己的价值；后者自己如故是更强的基础模子，用来探索性能上限。

在AndroidWorld测试上，Qwen2.5-VL基础版块的顺利率是25.5%，经过OpenMobile数据微调后跃升到51.7%，晋升了特地25个百分点。Qwen3-VL基础版块蓝本如故有47.6%，微调后达到64.7%，与Step-GUI-8B（67.7%）、MAI-UI-8B（70.7%）等行业顶尖闭源系统比拟如故特殊接近。

更能证实问题的是泛化才略。OpenMobile的数据是在AndroidWorld的环境里网罗的，但照应者还在另外两个十足不同的测试平台上评估了模子。AndroidLab包含9个App的138个任务，Qwen3-VL版块达到51.5%，而同类开源数据步伐的最佳收获（ScaleCUA）只消30%。MobileWorld是一个更难的测试，特地覆按需要跨越多个App、长达数十步的复杂任务，Qwen2.5-VL版块从7.7%晋升到14.8%，Qwen3-VL版块从9.4%晋升到17.7%，相对晋升幅度特地50%。这证实OpenMobile的老练步伐让AI赢得的不仅仅"背题"，而是确切的通用操作才略。

照应者还测试了用更大模子（720亿参数的Qwen2.5-VL-72B）微调的效果，AndroidWorld顺利率达到59.3%，进一步考证了"数据质地好、模子越大效果越强"的规定。此外，他们也尝试了强化学习步伐——包括单步奖励的强化学习和完整轨迹级别的强化学习——但发现这些步伐在动态测试环境下的晋升并不踏实，最终进展未能超越尺度的监督微调。照应者合计，这可能与刻下环境的万般性罢了和强化学习框架的踏实性筹划，留待畴昔照应处置。

五、这是真身手如故"背了谜底"

每当一个开源模子在某个测试集上取得好收获，总会有东说念主问：它是确凿变强了，如故仅仅悄悄"背了谜底"？这个疑虑在OpenMobile这里尤其合理，因为老练数据就是在AndroidWorld同款环境里生成的。

照应者对此作念了相配透明的分析。他们用一个专科的语义相似度模子，计较了每一条合成老练教导和AndroidWorld测试集里每一条测试教导之间的相似度，然后和两个公开数据集（AndroidControl和AMEX）作念了对比。末端是：OpenMobile的合成教导照实比公开数据集更接近测试教导，这是合乎预期的，毕竟都是在统一个App环境里生成的。但是，相似度特地0.7的教导只占全部合成教导的3.5%，大多数教导仅仅在功能层面有些访佛，而不是字面上的重复或改写。

更有劝服力的是底下这个实验：如若把最相似的那部分老练数据删掉，望望模子收获会若何变化，再对比随即删除同等数目数据的情况。删掉10%最相似的数据，收获仅仅狭窄着落，证实性能并不是脆弱地依赖于少数几条"近似题目"。但当删除比例加多到40%以上时，性能启动彰着下滑，况兼比随即删除下滑得更快。照应者对此给出了合贯串释：删掉相似教导，同期也删掉了袒护某些中枢App功能的老练样本，特殊于把某项妙技的熟练材料全删了，天然会影响进展。

这引出了照应者对"为什么OpenMobile数据有用"的中枢透露：功能袒护率。他们用一个谈话模子把每个测试任务明白成所需的原子功能（比如"在日期App里创建步履"明白为"通达日期"、"创建新事件"、"设定日期"、"设定标题"等），然后统计老练数据中袒护了若干比例的这些原子功能。跟着合成教导数目加多，功能袒护率稳步高涨，而且OpenMobile永久高于同等数目的耦合基线步伐。进一步的分析还发现，任务需要的功能越多（任务越复杂），顺利率越低；而老练数据袒护了越多干系功能，顺利率越高。这证实OpenMobile的老练价值不在于"见过类似的题目"，而在于"袒护了实足多的操作妙技"。

说到底，OpenMobile的孝敬是多脉络的。在技能层面，它提供了一套可以被任何东说念主复现和使用的数据合成框架，把"全局环境牵记"和"战略切换轮转"这两个创新筹算系统地伙同在一说念。在实验层面，它在三个寂然的动态基准测试上全面考证了步伐的有用性，况兼对数据混浊风险作念了艰苦一见的透明分析，这在悉数这个词领域都属于稀有的严谨魄力。在社区价值层面，它公开了数据和代码，让路源社区有了一个可以赓续迭代的坚实起始。

天然，OpenMobile也有它坦承的局限。当今的老练数据只袒护20个App，环境万般性有限。强化学习场合的尝试尚未取得一致性突破，原因可能和模拟器环境的广度不够筹划。此外，即等于64.7%这个收获，和最顶尖的73.7%比拟仍有差距，证实数据质地和基础模子才略两者统筹兼顾，仅凭开放数据合成还不及以十足追平顶尖闭源系统。

手机里那位确切懂你、帮你干活的AI助手，距离普通东说念主的日常生存正在变得越来越近。而让这一切变得愈加公正、愈加透明的奋发，梗概恰是悉数这个词领域永久跳动的底气所在。

Q&A

Q1：OpenMobile和其他手机AI助手比拟，上风在那边？

A：OpenMobile最大的上风在于它是十足开源的——数据、代码和合成步伐全部公开。以前进展好的手机AI助手，比如Step-GUI和MAI-UI，老练数据全部逃避，外界无法复现或改进。OpenMobile让任何照应者都能用相同的步伐老练我方的模子，同期在AndroidWorld测试上，它老练出的模子顺利率从约30%跃升到64.7%，如故相配接近顶尖闭源系统，而且在其他两个测试平台上也展示出了可以的泛化才略。

Q2：OpenMobile的老练数据会不会是靠"背谜底"得高分的？

A：照应者对此作念了特地的考证。他们计较了老练数据和测试题目之间的语义相似度，发现只消3.5%的老练教导与测试教导相似度特地0.7，不存在大范围照搬测试题的情况。而且当把最相似的一小部分老练数据删掉时，模子收获仅仅小幅着落，证实性能靠的是宽泛的功能袒护而非少数几条近似题目。

Q3：普通用户什么时刻能用上OpenMobile老练出来的手机助手？

A：OpenMobile当今是一个照应框架K8凯发官方网站，老练出的模子需要在安卓模拟器或确切建筑上部署，还不是一个开箱即用的消耗级居品。不外由于代码和数据全部公开，开导者社区可以在此基础上赓续开导，畴昔集成进确切手机助手行使的可能性是存在的。当今距离普通用户顺利使用还需要更多工程化责任。

NBA下注(中国)官网入口

上一篇：上一篇：K8凯发(中国) 谷歌 Pixel 11 系列手机确立曝光：Tensor G6 芯片、烧毁三星基带

下一篇：下一篇：K8凯发(中国) 华大智造得回外不雅蓄意专利授权: “电子配置的开动监控图形用户界面”

K8凯发中国官方网站

K8龙虎斗

K8凯发官方网站 南京大学、商汤科技等多机构合资出品：手机AI助手的“开源创新”来了

K8凯发官方网站南京大学、商汤科技等多机构合资出品：手机AI助手的“开源创新”来了