3月17日|據智能紀元AGI,前DeepSeek研究員、小米MiMo大模型負責人羅福莉發表論文,與北京大學聯合研發出統一的資源管理系統 ARL-Tangram。ARL-Tangram 採用統一的動作級公式和彈性調度算法,不僅滿足異構資源約束,而且最大限度地縮短動作完成時間(ACT),以及實現定製化異構資源管理器。
在真實世界的智能體強化學習任務上的評估表明,ARL-Tangram可以將平均ACT提高高達4.3分。可將強化學習訓練的步驟持續時間縮短至多1.5 倍,並節省高達71.2%的外部資源。這是羅福莉在小米發表的第二份突破性技術成果論文。去年10月,小米AI團隊攜手北京大學聯合發佈一篇聚焦MoE與強化學習的論文,其中已經出現羅福莉的名字,成為羅福莉在小米發表的首篇論文成果。
新聞來源 (不包括新聞圖片): 格隆匯