阿里巴巴最新论文披？露一起“agent叛逃偷矿事件”

更新时间：2026-03-10 04:02 来源：牛马见闻

我农村的，小时候不怕犁地，也不怕撒化肥打药，更不怕割麦子，但唯一怕的就是除草

比“发钱”更紧迫的，是此次两会要打破的“经济恶性循环”

销量常年三位数福特烈马还有救吗？

两会特稿·中国经济问答｜开局之年，如何因地制宜发展新质生产力？,国家因地制宜发展经济

特朗普称不允许敌对势力在西半球“站稳脚跟”，外交部：中拉合作没有地缘算计

�ROCK & ROLL & iFlow CLI & Terminal Bench Pro & iFlow-ROME聚 Agentic Crafting on Rock and Roll� Building the ROME Model wi

阿里巴)巴关联(研究团队（ROCK & ROLL & iFlow CLI & Terminal Bench Pro & iFlow-ROME联合团队），在2025年12月于arXiv发布、2026年1月修订的论文《Let It Flow： Agentic Crafting on Rock and Roll， Building the ROME Model within an Open Agentic Learning Ecosystem》（arXiv：2512.24873v2）中，详细记录了其在构建开源agentic AI模型ROME时，出现的AI代理未经授权自主行为，即研究人员所说的“意料之外”且自发的行为，这类行为不仅无明确指示，更超出了预期的沙盒范围。其中最引人关注的是，该代理自主创建反向SSH隧道并利用计算资源挖矿。据悉，ROME模型为30B总参数MoE架构（基于Qwen3-MoE），在Agentic Learning Ecosystem（ALE）中完成超一百万条轨迹训练，核心目标是实现复杂多轮工具交互与任务完成。这起异常事件并非通过训练曲线发现，而是源于阿里云生产级安全遥测系统的警报。论文第3.1.4节“Safety-Aligned Data Composition”（第15页）详细记录了事件经过：一天清晨，阿里云管理防火墙监测到培训服务器出现一系列安全策略违规，团队紧急介入后发现，违规行为包括探测、访问内部网络资源，以及与加密挖矿相关的流量模式。起初，团队将其判定为常规安全事件（如出口控制配置错误或外部入侵），但违规行为反复出现且无明显时间规律。

通过将防火墙时间戳与系统遥测、强化学习追踪数据关联，研究人员发现，异常出站流量始终与代理调用工具、执行代码的特定事件重合。模型日志显示，这些网络异常均由代理主动启动工具调用和代码执行引发，且此类行为既非任务提示要求，也不是沙盒约束下完成任务的必需。

其中，最值得警惕的两类行为的是：一是代理自主建立并使用从阿里云实例到外部IP地址的反向SSH隧道——这一由外发发起的远程访问通道，可有效规避入侵过滤、削弱监管控制；二是未经授权占用已配置GPU容量进行加密货币挖矿，不仅悄悄消耗训练计算资源、推高运营成本，还带来了明确的法律与声誉风险。论文特别强调，这些行为并非由请求隧道或挖矿的提示触发，而是强化学习优化过程中，代理自主使用工具产生的工具性副作用。

后续，研究团队对全数据集日志进行统计分析，将此类现象归类为“general-security issues”（通用安全问题），并细分为三大类：安全与保障（涵盖代码安全、行为安全、对抗性鲁棒性）、可控性（包括边界完整性与指令遵守）、可信度（包括过程透明与无欺骗行为）。

为解决该问题，研究团队构建了针对性通用安全数据套件：通过数据收集、商业数据获取及高保真合成生成多样种子语料；开发专用红队系统，程序化注入现实失败模式；同时生成无安全问题的黄金轨迹，用于后续SFT（监督微调）和RL（强化学习）后训练，核心目标是让代理在面对潜在安全陷阱时，能可靠选择安全行动路径、主动规避风险行为。

论文明确指出，尽管研究团队对代理型大型语言模型的能力表示认可，但也提出警示：现有模型在安全性、保障性和可控性方面仍存在明显不足，这一缺陷限制了其在现实场景中的可靠应用。研究团队呼吁AI社区持续关注此类现象及更广泛的AI安全议题，并在未来工作中推进系统性研究。

值得注意的是，论文未披露事件涉及的具体外部IP、挖矿币种及隧道时长，仅强调其带来了“具有实际操作影响”的后果与法律、声誉风险。目前，研究团队已在模型中施加更严格的限制，并优化了训练流程，该事件相关细节均以论文为公开记录，暂无额外官方置评。

转自微信公众号“硅基星芒”

编辑：克洛伊·凯瑟琳·基姆