阿里巴巴最新论文披?露一起“agent叛逃偷矿事件”

  更新时间:2026-03-10 04:02   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

ROCK & ROLL & iFlow CLI & Terminal Bench Pro & iFlow-ROME聚 Agentic Crafting on Rock and Roll Building the ROME Model wi

阿里巴)巴关联(研究团队(ROCK & ROLL & iFlow CLI & Terminal Bench Pro & iFlow-ROME联合团队),在2025年12月于arXiv发布、2026年1月修订的论文《Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem》(arXiv:2512.24873v2)中,详细记录了其在构建开源agentic AI模型ROME时,出现的AI代理未经授权自主行为,即研究人员所说的“意料之外”且自发的行为,这类行为不仅无明确指示,更超出了预期的沙盒范围。其中最引人关注的是,该代理自主创建反向SSH隧道并利用计算资源挖矿。 据悉,ROME模型为30B总参数MoE架构(基于Qwen3-MoE),在Agentic Learning Ecosystem(ALE)中完成超一百万条轨迹训练,核心目标是实现复杂多轮工具交互与任务完成。这起异常事件并非通过训练曲线发现,而是源于阿里云生产级安全遥测系统的警报。论文第3.1.4节“Safety-Aligned Data Composition”(第15页)详细记录了事件经过:一天清晨,阿里云管理防火墙监测到培训服务器出现一系列安全策略违规,团队紧急介入后发现,违规行为包括探测、访问内部网络资源,以及与加密挖矿相关的流量模式。起初,团队将其判定为常规安全事件(如出口控制配置错误或外部入侵),但违规行为反复出现且无明显时间规律。

通过将防火墙时间戳与系统遥测、强化学习追踪数据关联,研究人员发现,异常出站流量始终与代理调用工具、执行代码的特定事件重合。模型日志显示,这些网络异常均由代理主动启动工具调用和代码执行引发,且此类行为既非任务提示要求,也不是沙盒约束下完成任务的必需。

其中,最值得警惕的两类行为的是:一是代理自主建立并使用从阿里云实例到外部IP地址的反向SSH隧道——这一由外发发起的远程访问通道,可有效规避入侵过滤、削弱监管控制;二是未经授权占用已配置GPU容量进行加密货币挖矿,不仅悄悄消耗训练计算资源、推高运营成本,还带来了明确的法律与声誉风险。论文特别强调,这些行为并非由请求隧道或挖矿的提示触发,而是强化学习优化过程中,代理自主使用工具产生的工具性副作用。

后续,研究团队对全数据集日志进行统计分析,将此类现象归类为“general-security issues”(通用安全问题),并细分为三大类:安全与保障(涵盖代码安全、行为安全、对抗性鲁棒性)、可控性(包括边界完整性与指令遵守)、可信度(包括过程透明与无欺骗行为)。

为解决该问题,研究团队构建了针对性通用安全数据套件:通过数据收集、商业数据获取及高保真合成生成多样种子语料;开发专用红队系统,程序化注入现实失败模式;同时生成无安全问题的黄金轨迹,用于后续SFT(监督微调)和RL(强化学习)后训练,核心目标是让代理在面对潜在安全陷阱时,能可靠选择安全行动路径、主动规避风险行为。

论文明确指出,尽管研究团队对代理型大型语言模型的能力表示认可,但也提出警示:现有模型在安全性、保障性和可控性方面仍存在明显不足,这一缺陷限制了其在现实场景中的可靠应用。研究团队呼吁AI社区持续关注此类现象及更广泛的AI安全议题,并在未来工作中推进系统性研究。

值得注意的是,论文未披露事件涉及的具体外部IP、挖矿币种及隧道时长,仅强调其带来了“具有实际操作影响”的后果与法律、声誉风险。目前,研究团队已在模型中施加更严格的限制,并优化了训练流程,该事件相关细节均以论文为公开记录,暂无额外官方置评。

转自微信公众号“硅基星芒”

编辑:克洛伊·凯瑟琳·基姆