GO-1是什么?
GO-1是智元機器人發布的通用具身基座大模型,采用ViLLA架構,結合視覺、語言、隱式動作和執行能力。它通過學習人類視頻和少量樣本泛化新任務,支持多機器人形態并持續進化。GO-1代表了具身智能向通用化、智能化發展的新階段,預示著機器人將具備更廣泛的應用潛力。
GO-1的主要特點
- ViLLA架構:GO-1采用Vision-Language-Latent-Action (ViLLA)架構,通過預測隱式動作標記,連接圖像-文本輸入與機器人動作執行。
- 多模態學習能力:利用海量互聯網圖文數據,GO-1的VLM組件具備通用場景感知和語言理解能力。
- 隱式規劃與動作執行:MoE中的Latent Planner和Action Expert分別負責動作理解和精細執行,增強了模型的泛化和執行能力。
- 人類視頻學習:GO-1大模型可以結合互聯網視頻和真實人類示范進行學習,增強模型對人類行為的理解,更好地為人類服務。
- 小樣本快速泛化:GO-1大模型具有強大的泛化能力,能夠在極少數據甚至零樣本下泛化到新場景、新任務,降低了具身模型的使用門檻,使得后訓練成本非常低。
- 一腦多形:GO-1大模型是通用機器人策略模型,能夠在不同機器人形態之間遷移,快速適配到不同本體,群體升智。
- 持續進化:GO-1大模型搭配智元一整套數據回流系統,可以從實際執行遇到的問題數據中持續進化學習,越用越聰明。
GO-1的模型表現
智元在五種不同復雜度的任務上測試 GO-1,結果顯示,相比已有的最優模型,GO-1 的平均成功率提高了 32% (46% -> 78%)! 尤其在 “倒水”、“清理桌面” 和 “補充飲料” 等任務上,表現尤為突出。

GO-1的項目資源
研究論文:https://agibot-world.com/blog/agibot_go1.pdf
https://www.bilibili.com/opus/1042547317663596551
?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。