圖靈獎得主楊立昆質疑人形機器人熱潮:智能瓶頸與產業泡沫何解?
2025年3月,計算機視覺領域泰斗、Meta首席AI科學家楊立昆在一檔科技播客又發表了一場“爆論”:"當下人形機器人的所有演示都令人印象深刻,但這些機器人實際上都很蠢。"這位2018年圖靈獎得主的批評,猶如冷水澆向如火如荼的機器人產業。
楊立昆指出三重困境:當前既沒有能完成貓狗基本任務的機器人,也缺乏家用服務機器人,更未實現完全自主的L5級自動駕駛。其核心觀點直指AI系統的根本缺陷——現有技術無法讓機器人真正理解物理世界。"它們不能做人類能做的事情,不是因為缺乏身體能力,而是根本不夠聰明。"這種認知差距在家庭場景尤為明顯:能完成前后空翻的機器人,面對疊衣服、擦桌子等基礎任務卻頻頻失誤。

“AI教父”楊立昆為何發表“爆論”
作為卷積神經網絡(CNN)之父,楊立昆的質疑絕非外行妄言。1987年提出CNN概念,1998年開發的LeNet-5模型首次實現手寫體識別突破,其主導的Llama系列開源大模型更推動AI產業落地。這位學界與工業界的雙棲權威,對智能本質有著深刻認知。
在技術層面,他持續批判行業兩大誤區:
感知缺陷:現有系統無法處理視覺等復雜感官輸入,RT-X項目數據顯示,即使收集超100萬片段覆蓋500多項技能,機器人仍難應對桌子高度變化的簡單調整。
規劃短板:生成式AI僅擅長文本預測,缺乏分層規劃能力。家務清潔需分解數十個決策節點,現有算法難以實現因果推理與動態調整。
產業層面,他警示資本市場的"豪賭"風險。數據顯示,截至2024年底中國智能機器人企業超45萬家,注冊資本達6.44萬億元。即便1%企業專注人形機器人,投入規模仍堪稱天文數字。但楊立昆直言:"很多公司賭未來3-5年AI會突飛猛進,這缺乏科學依據。"
人形機器人的技術難題在哪兒?
物理理解鴻溝。人類疊衣服需實時感知布料質地、判斷褶皺形態、動態調整施力,這些涉及多模態感知與物理建模的能力,恰是AI的短板。楊立昆團隊提出的聯合嵌入預測架構(JEPA)正是試圖突破這一瓶頸,但距離實用仍有差距。
機械性能桎梏。人手22個自由度的精妙結構難以復刻,頂尖仿生手如Shadow hand雖達20+自由度,但能耗與成本激增。智元機器人工作人員坦言,其產品效率僅人類20%-30%,且續航不足兩小時,行業普遍存在"充電兩小時,工作五分鐘"的窘境。
能源不可能三角。動力、續航、成本的矛盾尖銳。為維持雙足行走,某國產機器人需搭載48個關節電機,單日耗電量相當于普通家庭全天用電。硬件工程師戲稱:"這不是造機器人,是在造移動充電寶。"
行業內是怎么解決的?
面對技術困局,前沿機構已轉向務實路線:
場景深耕:藍橙實驗室與清華合作的五軸并聯機器人專攻航空發動機葉片打磨,精度達微米級;華中科大吸附式機器人專注船舶焊接,放棄人形換取環境適應性。
技術開源:哈工大朱延河團隊建立工業機器人開源架構,共享運動控制算法降低研發成本。
智能重定義:RT-2模型雖在泛化能力上受挫,但特斯拉Optimus通過限定倉儲場景,將分揀準確率提升至92%。
這些實踐揭示新方向:與其追求"通用智能"的虛幻目標,不如在特定場景建立技術閉環。正如工業機器人歷經60年發展,從Unimate機械臂到現代協作機器人,突破均源于對專用場景的深度適配。
總結
楊立昆的言論其實正反映出了當下行業正面臨的根本性路線之爭:一方堅持"人形是通用智能最佳載體",認為雙足移動與人類環境天然兼容;另一方主張"形態服務于功能",推崇輪式、模塊化設計。現實數據給出警示——在2024世界機器人大會上,人形機器人熱舞視頻刷屏社交網絡的同時,其擦桌失敗視頻播放量卻高出37%,輿論期待與實際表現形成鮮明反差。
楊立昆的批評恰逢其時:機器人產業的終極目標不應是創造"人造人",而是拓展人類能力邊界。當45萬家企業深陷仿生迷思,或許更需要冷思考:繼續追逐人形幻想,可能重蹈早期自動駕駛追求全場景的覆轍;轉向場景創新,或能開辟真正的商業藍海。
站在2025年的技術臨界點,楊立昆預測未來十年將迎來AI實質性突破。但要實現從"人工智障"到"智能伙伴"的跨越,行業需要回歸本質——少些炫技演示,多些場景深耕;警惕資本泡沫,專注技術攻堅。唯有如此,機器人才能真正從實驗室走向千家萬戶,完成從"玩具"到"工具"的歷史性蛻變。