讓機器人解鎖“托馬斯全旋”，北京科學家發布首個通用運動控制框架

來源：具身智能機器人世界發布時間：2026-03-06 161

智能制造傳感器機器視覺運動控制工業機器人軟件及平臺工業互聯智能加工設備智能倉儲物流智能制造解決方案產業動態人工智能

北京通用人工智能研究院聯合宇樹科技等機構發布OmniXtreme框架，首次實現人形機器人在真實環境中執行50余種高動態極限動作的高成功率部署。

3月5日，近日，北京通用人工智能研究院聯合宇樹科技等機構發布OmniXtreme框架，成功讓機器人學會執行包括后空翻托馬斯全旋、武術踢擊在內的數十種高動態“極限運動”，并在宇樹機器人上實現了真實世界的高成功率部署。該框架是首個可以執行各種極限動作的通用策略，為人形機器人學習復雜運動方式帶來明顯提效，解決了動作保真度與可擴展性兼顧的難題。

長期以來，讓機器人像人類一樣靈活運動，是機器人學領域的核心追求。然而，讓機器人模仿單個高難度動作如一個后空翻，已能做到非常精準，但一旦試圖讓機器人學會幾十個風格迥異、動態復雜的動作，其學習效果就會大打折扣——控制器變得保守、平庸，在最具挑戰性的動作上頻頻失敗。

OmniXtreme框架的實現過程首先是預訓練一個基于流的生成控制策略，然后針對復雜物理動力學進行“驅動感知殘差強化學習”的后訓練。其中，后訓練這一步對于成功實現真實世界的遷移至關重要。在人形機器人的運動控制領域，研究人員長期面臨一個被稱為“泛化壁壘”的困境。當動作庫的規模和多樣性增加時，傳統的統一強化學習策略往往會遭遇性能崩潰，這在高動態動作的物理部署中尤為明顯。這種崩潰源于兩個相互疊加的瓶頸：仿真環境中的學習瓶頸（多動作優化的梯度干擾）以及物理執行瓶頸（真實世界復雜的驅動約束）。

為了從根本上解決這一問題，研究團隊提出了OmniXtreme框架。該框架將動作技能的學習與物理驅動的微調進行了巧妙的解耦，分為“基于流的可擴展預訓練”與“驅動感知的殘差后訓練”兩個核心階段。

為了驗證系統是否打破了泛化壁壘，團隊設計了漸進式的壓力測試。他們將訓練動作集從10個逐步擴展到20個，最終擴展到50個，并使用固定的前10個動作進行統一評估。實驗結果揭示了顯著的差異。隨著動作多樣性的增加，傳統從頭訓練的強化學習基線模型出現了嚴重的性能衰退，其成功率從100%暴跌至83.3%，最終滑落至73.9%。相比之下，OmniXtreme展現出了驚人的韌性，在50個動作的龐大訓練集下，其對核心動作的跟蹤成功率依然堅挺在93.3%。這徹底推翻了高保真度必定隨著多樣性增加而崩潰的固有認知。

北京通用人工智能研究院供圖

關注微信公眾號 - 榮格智能制造

聚焦智能制造領域前沿資訊。

推薦新聞