2023年5月,英偉達創始人黃仁勛在ITF World半導體大會上斷言:“AI的下一個浪潮是具身智能。” 這一判斷迅速被產業趨勢所驗證,從在春晚舞臺上扭秧歌,到不久前機器人大會上跳舞和打拳擊賽,具身智能正以前所未有的速度進入公眾視野。
圖源:春晚視頻截圖
在這個關乎未來的賽道,騰訊、阿里、字節、京東、美團等互聯網巨頭悉數入場,它們不再滿足于云端的算法競爭,而是希望將AI“裝進身體”。投資、自研、生態共建……一場 AI 時代的 “搶灘登陸戰” 已然打響。
01、AI大模型引爆具身智能
什么是具身智能?
具身智能概念最早可追溯至1950年,根據全國科學技術名詞審定委員會定義,具身智能(Embodied Artificial Intelligence, EAI)是指一種基于物理實體進行感知和行動的智能系統,其通過智能體與環境的交互來獲取信息、理解問題、作出決策并執行行動,從而展現出智能行為和適應性。
其與傳統人工智能存在差異,后者主要指存在于計算機程序、云端服務器中的虛擬智能,依賴于抽象的符號計算和數據處理,而具身智能則更注重通過物理實體的感知、運動以及與外部環境的交互來實現認知,從而構成“感知-思考-行動”的閉環。
現在很多人將具身智能等同于人形機器人,實際上,具身智能系統的實現形式并非局限于人形結構,而是可根據場景需求適配多樣化智能實體。例如具備環境感知能力的智能掃地機器人、用于高空作業的無人機、已進入路測階段的自動駕駛汽車等,都是具身智能的具體應用載體。
2022年12月,谷歌發布機器人大模型 RT—1,“大模型 + 機器人”概念興起。隨后,微軟于2023年2月發表論文,公布 ChatGPT 應用于機器人的研究成果,展示了大模型提升機器人人機交互能力的潛力。
同年7月,基于RT-1研究成果,Google融合了視覺語言模型(VLM)和RT-1中收集的大量機器人真實動作數據,提出了視覺語言動作(VLA)模型RT-2,它可以從網絡和機器人數據中學習到大量知識,并將這些知識轉化為機器人控制的通用指令。使得機器人也能像 ChatGPT一樣理解自然語言,并根據自然語言做出一系列動作,能數學推理、能辨認人物、也能泛化到各種新環境、新任務。
RT-2 展現出的各項能力,刷新了大眾對傳統機器人模型的認知,也讓市場看到了通過堆疊人工智能(AI)算力,可以實現人機多輪交互的高度智能化,不僅能完成文本、圖片甚至視頻生成,還能應用到硬件尤其是具有運動能力的硬件上——即所謂的“具身智能”,其中最直觀的產品就是人形機器人。
不久前的2025世界機器人大會發布了《人形機器人十大潛力應用場景》,描繪了人形機器人應用于各行各業的未來圖景,包括工業通用操作、汽車制造、3C制造、船舶制造、石油化工、電力生產、安全應急、商業服務等。
圖源:2025世界機器人大會
隨著AI大模型與機器人技術的深度融合,場景通用性持續提升,人形機器人商業化進程不斷加速。與此同時,產業政策也在及時跟進、密集出臺。
2023年11月,國家工信部印發《人形機器人創新發展指導意見》,指出人形機器人有望成為計算機、智能手機、新能源汽車之后,又一顛覆性產品。2024年1月,工信部等七部門聯合印發《關于推動未來產業創新發展的實施意見》,人形機器人位列“創新標志性產品”之首。
今年3月5日,國務院總理李強在《2025年政府工作報告》中首次提及具身智能,將其列為未來產業的重點發展方向之一。此后,地方政府也紛紛出臺相關政策,推動具身智能產業的發展。例如,北京市計劃到2027年實現不少于100項規?;瘧茫钲谑袆t提出到2027年相關企業超過1200家,產業規模達到1000億元以上等。
在技術突破、市場需求與政策支持的多重驅動下,具身智能產業進入快速發展階段。第二屆中國人形機器人與具身智能產業大會發布的《2025人形機器人與具身智能產業研究報告》顯示,2025年中國具身智能市場規模預計達52.95億元,占全球約27%;人形機器人市場規模預計達82.39億元,占全球約50%,展現出廣闊的發展前景。
02、巨頭卡位
資本市場上,具身智能賽道也是持續升溫。
高工機器人產業研究所數據顯示,2025年上半年國內具身智能產業鏈上下游共發生144次融資事件,融資金額達195億元,平均單筆融資規模1.35億元。隨著資本熱度與產業布局雙升溫,阿里、美團、騰訊、京東等互聯網大廠在具身智能領域動作愈發活躍,各自展開獨特卡位。
出手最早、節奏最快的美團,自2024年以來已累計投資7家具身智能企業,完成8次出手,采用“廣撒網”策略實現全賽道覆蓋。在硬件本體方面,美團投資了宇樹科技和銀河通用;在具身智能模型領域,布局了它石智航;在“硬件+模型”一體化方向,則押注自變量機器人和星海圖。
其投資邏輯始終緊扣“本地生活服務”場景。它石智航聚焦“低空+地面”協同技術,擅長在餐飲后廚、商場倉儲等復雜環境中執行任務;星海圖研發“輕量化具身智能模組”,其低功耗行為決策算法可適配外賣柜、自動點餐機等高頻服務終端;自變量機器人則構建統一感知、規劃與控制的一體化架構,在2025世界機器人大會上,僅用一個模型就完成了制作香囊、分揀快遞、家務清潔等跨場景復雜任務,展現出強大的泛化能力。
這種圍繞場景的精準布局與美團戰略高度契合。CEO王興曾明確表示,美團將持續深化與被投企業的協同,強化自動化配送等關鍵能力迭代。美團買藥與銀河通用聯合打造的“人形機器人智慧藥房”,正是“投資+業務”協同模式的典型范例。通過具身智能投資,美團正著力解決其人力密集型業務的效率痛點。
如果說美團是“早布局”,那京東則以“快節奏、高密度”著稱。曾一日(7月21日)內宣布領投逐際動力、眾擎機器人、千尋智能三家具身智能企業,兩個月內領投5家。
京東的投資聚焦“硬件+大腦”與“量產能力”,核心目標明確:服務于自身的零售與物流體系。例如,逐際動力推出的LimX VGM技術,可通過人類操作視頻實現機器人行為學習,無需真機樣本即可泛化部署,其TRON 1雙足機器人已在巡檢、安防、配送等場景開展規?;瘧谩1娗鏅C器人則已完成產品量產,正加速推進規?;桓?,計劃將生產團隊能力提升五倍。
不僅如此,京東還同步推進自研布局:2025年3月成立具身智能專項部門,并挖來商湯科技副總裁沈徽擔任負責人;7月推出“JoyInside平臺”,旨在將京東大模型能力嵌入各類機器人硬件,構建“硬件+軟件+服務”的生態閉環。
圖源:京東官方
相較京東與美團的高調出擊,騰訊與阿里則采取更為克制和平臺化的策略。
騰訊明確“不做硬件,只做伙伴”的定位。馬化騰曾表示:“騰訊希望成為所有機器人廠商的合作伙伴。” 2025年世界人工智能大會上,騰訊推出具身智能開放平臺 Tairos(鈦螺絲),提供從基礎模型、數據采集、訓練仿真到真機部署的全棧式模塊化能力,賦能行業開發者。其投資路徑也印證了這一理念——參與宇樹科技、智元機器人等明星項目的中后期融資,重在生態協同而非控制權。
阿里巴巴和螞蟻集團則展現出“投資+自研+生態共建”的立體化布局。螞蟻集團不僅投資了宇樹科技、星海圖、靈心巧手等產業鏈關鍵環節企業,更成立了全資子公司螞蟻靈波科技,專注于人形機器人研發。該公司已在浦東建設人形機器人開放訓練場,聯合大模型、傳感器、靈巧手等上下游企業,構建覆蓋感知、決策、操控、安全的技術閉環,并向家庭服務、養老護理、醫療輔助等場景延伸。
字節跳動雖未以公司主體直接出手,但其關聯基金錦秋基金已投資宇樹科技、樂享智能、因克斯等企業。與此同時,字節正悄然推進自研機器人項目。據披露,其機器人研發團隊已從2023年的約50人擴展至150人,自主研發的機器人產量累計超千臺,顯示出其“以投促研、以研帶產”的長期意圖。
結語
互聯網大廠們在具身智能領域,選擇了不同的戰略布局和發展路徑,這些差異化的戰略,既反映了各自的核心優勢和業務需求,也塑造著中國具身智能產業的未來格局。
隨著技術不斷成熟和應用場景持續拓展,具身智能有望成為繼移動互聯網之后的下一個重要技術平臺。對大廠們來說,如何平衡投資成本與回報周期,還有實現技術突破與商業落地的有效結合,將成為決定其戰略成敗的關鍵。