亚洲av无码1区2区久久,台湾佬综合网,首页人妻中文字幕,天堂网在线.www资源,丝袜 中出 制服 人妻 美腿

具身智能還需要一個「五年耐心」

摘要

具身智能這個宏大的故事,還需要我們有個「五年耐心」。

?上個月又飛了一趟硅谷,與具身智能領(lǐng)域的科學(xué)家和創(chuàng)業(yè)者們進(jìn)行了一些交流??偨Y(jié)起來一個核心的體感是:具身智能這個宏大的故事,還需要我們有個「五年耐心」。這個判斷,源于對它當(dāng)下所處階段、核心瓶頸以及未來演進(jìn)路徑的拆解。

火熱的「產(chǎn)線故事」與冰冷的現(xiàn)實(shí)

具身智能賽道最熱的毫無疑問是人形機(jī)器人。

而人形機(jī)器人進(jìn)產(chǎn)線,是國內(nèi)很多具身智能公司都在講的故事和前景。但我和幾位國內(nèi)外不少具身智能領(lǐng)域的創(chuàng)始人深聊過,大家普遍的擔(dān)憂是:拿一個尚不成熟的通用機(jī)器人,硬塞進(jìn)一個以精準(zhǔn)和效率為核心的工業(yè)產(chǎn)線里,這件事現(xiàn)在的挑戰(zhàn)其實(shí)非常大。

機(jī)器人追求通用,就必須走出過去機(jī)械臂等「專用」的編程控制的技術(shù)路線,需要機(jī)器人有大腦和小腦,有自主的推理和控制。而把機(jī)器人做成「人形」,最大的好處也是為了「通用」人類已有的工具設(shè)施、社會環(huán)境和生產(chǎn)場景。但是今天機(jī)器人的大腦還沒有發(fā)展到位,當(dāng)前的技術(shù)即便可以做到「運(yùn)動像人」(Motion like a human),但還遠(yuǎn)遠(yuǎn)做不到「決策像人」(Decision like a human)。機(jī)器人可以在受控環(huán)境下模仿出流暢、擬人的動作,但在面對真實(shí)世界的動態(tài)變化和意外情況時,其決策能力還非常脆弱。

這個時候的通用機(jī)器人,本質(zhì)上是用「通用性」在交換「精準(zhǔn)性」和「效率」,而由于生產(chǎn)線上的以精準(zhǔn)和效率優(yōu)先的機(jī)械臂早就批量應(yīng)用了,所以遠(yuǎn)未成熟的人形機(jī)器人進(jìn)產(chǎn)線,把「通用性」用到最需要高精準(zhǔn)、高效率的場景中,多少是有些錯位的。

基本可以斷言的是,今天的通用機(jī)器人進(jìn)入所有需要把「精準(zhǔn)」、「效率」、「成本合算」作為底線的場景,挑戰(zhàn)都非常大。很多時候創(chuàng)業(yè)公司宣傳的落地某個場景大多是「展示性」、「實(shí)驗(yàn)性」,甚至「融資支撐性」的,并不真的是足夠理性、市場化和算得過賬的交易。

說得坦誠一些,在今天,具身智能中的通用機(jī)器人,特別是人形機(jī)器人能提供的核心價值,更像是一種「情緒價值」——用不斷的能力進(jìn)步,來引領(lǐng)社會共識期待,進(jìn)而獲得更多資源推動技術(shù)加速進(jìn)步。

不能說這是沒有意義的,就像 1969 年阿波羅登月計(jì)劃本質(zhì)上就是一個在技術(shù)和商業(yè)上當(dāng)時都「不合理」計(jì)劃,也并沒有很快帶來商業(yè)化落地的價值。他的本質(zhì)目標(biāo)就是特定歷史條件下的「情緒價值」。但其推動的資源匯聚,構(gòu)建的人才和技術(shù)生態(tài),對航天科技的發(fā)展意義重大,帶來了幾十年后航天領(lǐng)域的巨大商業(yè)價值。

具身智能領(lǐng)域,特別是人形機(jī)器人至少目前還更像一個不斷成長的孩子。其每一點(diǎn)進(jìn)步,都能點(diǎn)燃我們對未來的想象和信心。但問題是,「家長」要有正確的認(rèn)知,即便一個孩子顯示出了驚人的潛力和超預(yù)期的進(jìn)步,長身體、見世面依舊是這個階段的重心。這時候過早地就去考核其是否能扛起養(yǎng)家的重?fù)?dān)可能就有問題了。如果「家長」把 Demo 里的信心,當(dāng)成了商業(yè)部署的決心,過度透支它的未來,那很可能,對這個孩子的贊許就會變成批判。比如,到明年當(dāng)很多「產(chǎn)線故事」無法兌現(xiàn)時,行業(yè)可能會迎來一定程度的頓挫。

那什么是可能正確的預(yù)期呢?通用機(jī)器人這個問題,或許我們可以用大語言模型(LLM)的發(fā)展做類比。我收集到的一個合理預(yù)期是,一到兩年內(nèi),具身智能有望迎來它的「GPT-3.0 時刻」——是指在實(shí)驗(yàn)室環(huán)境下,圈內(nèi)人將看到機(jī)器人的通用模型(大腦+小腦)明顯的技術(shù)突破,并對主流技術(shù)路線達(dá)成共識,就像當(dāng)年 GPT-3 誕生時給業(yè)內(nèi)帶來的震撼一樣。

但從 3.0 到能讓公眾可以在一些需求上用起來的 3.5(Chatgpt),甚至到開始構(gòu)建新的產(chǎn)業(yè)生態(tài)的 4.0,路還很長,可能還需要有個「五年耐心」。

邁向「GPT-3.0 時刻」的一個關(guān)鍵:能否將數(shù)據(jù)問題轉(zhuǎn)化為算力問題

從當(dāng)前這個「情緒價值」為主的階段,邁向下一個讓業(yè)內(nèi)人士興奮的技術(shù)突破階段,也就是我們所說的「GPT-3.0 時刻」,核心要解決什么問題?

我聽到的一些核心從業(yè)者認(rèn)為,關(guān)鍵在于突破數(shù)據(jù)瓶頸。雖然模型路線尚未完全收斂,但因?yàn)槟P图軜?gòu)的切換,可能就是幾百行代碼的事,一旦有人思路對了,其他人很快就能跟上,難以形成長久的壁壘。所以真正的鴻溝,在于如何獲取規(guī)?;摹⒏哔|(zhì)量的、多樣性的數(shù)據(jù)。

具身智能領(lǐng)域的一種數(shù)據(jù)來源方式,是從現(xiàn)實(shí)世界中采集。由人類操作員像玩 VR 游戲一樣進(jìn)行遙操作(Teleoperation),或者通過示教來記錄動作。

這種「現(xiàn)實(shí)數(shù)據(jù)」的生產(chǎn),存在三個局限:其一,規(guī)模上不去; 其二,成本下不來;其三更關(guān)鍵,多樣性不夠: 你只能采集你物理上能布置出來的場景。想讓機(jī)器人練習(xí)一萬次拿起桌角一個特定角度的蘋果?在現(xiàn)實(shí)中幾乎不可能。更不用說那些危險的、極端的「Corner Case」了。

這種數(shù)據(jù)困境,與另一個大規(guī)模的具身智能領(lǐng)域——自動駕駛,形成了鮮明對比。自動駕駛是目前唯一不存在「預(yù)訓(xùn)練數(shù)據(jù)瓶頸」的領(lǐng)域。每一輛在路上行駛的汽車,無論是否開啟自動駕駛功能,其攝像頭和傳感器都在源源不斷地采集著真實(shí)世界的駕駛數(shù)據(jù)。這使得車企能夠以極低的邊際成本,獲得海量、多樣且真實(shí)的預(yù)訓(xùn)練數(shù)據(jù)。而通用機(jī)器人領(lǐng)域則完全不具備這種優(yōu)勢,其數(shù)據(jù)獲取的窘境也因此顯得尤為突出。

正是這些局限,讓數(shù)據(jù)成為了整個具身智能賽道最窄的那個瓶頸。

最近的全球不少團(tuán)隊(duì)正在面對這個問題推動一種范式轉(zhuǎn)移:通過高精度的物理引擎,將「數(shù)據(jù)問題」有效地轉(zhuǎn)化為一個「算力問題」。

在一個足夠真實(shí)的模擬器里,你可以用代碼,而不是人力,去創(chuàng)造無限的數(shù)據(jù)。想換個桌子材質(zhì)?一行代碼。想改變光照方向?一行代碼。想讓一個物體以微秒級的差異從不同角度掉落一萬次?一個循環(huán)就夠了。過去需要一個團(tuán)隊(duì)花幾個月才能采集到的多樣性數(shù)據(jù),現(xiàn)在可能只需要一堆顯卡跑一個晚上。

這就完成了從「手工生產(chǎn)」到自動化「數(shù)據(jù)工廠」的進(jìn)化。數(shù)據(jù)不再是稀缺的、需要辛苦「采集」的資源,而是可以根據(jù)需求、由算力「生成」的工業(yè)品。這就是將「數(shù)據(jù)問題」轉(zhuǎn)化為「算力問題」的核心內(nèi)涵。

我聽到的主流預(yù)期,是業(yè)內(nèi)有機(jī)會在未來 1-2 年可能看到具備泛化能力的模型,并對主流技術(shù)路線達(dá)成共識,就像當(dāng)年 GPT-3 誕生時給業(yè)內(nèi)帶來的震撼一樣。這是從 0 到 1 的關(guān)鍵一步。

從「GPT-3.0」到「4.0」之間還是一條長路

從這個令業(yè)內(nèi)人興奮的 3.0 時刻,到能讓公眾安全、可靠使用的 4.0 階段,才是五年耐心中最漫長的部分。這背后是具身智能獨(dú)有的、殘酷的物理約束:

首先,仿真的邊界決定了它無法獨(dú)自完成從 3.0 到 4.0 的跨越。 仿真數(shù)據(jù)不是萬能靈藥。一個業(yè)內(nèi)普遍的共識是,仿真可以高效地解決模型從 0 到 90% 的問題,但最后那「從 90% 到 99.999%」的鴻溝,還是得靠真實(shí)世界的數(shù)據(jù)來填補(bǔ)。

仿真世界再逼真,也只是對現(xiàn)實(shí)世界的「近似」。它可以完美模擬牛頓定律,教會機(jī)器人這個世界的「物理學(xué) 101」,比如物體會下落、碰撞會反彈。靠著海量的仿真數(shù)據(jù),機(jī)器人能建立起對世界運(yùn)行規(guī)律的「通識」。但現(xiàn)實(shí)世界充滿了仿真的「噩夢」——那些難以被數(shù)學(xué)公式精確描述的「長尾細(xì)節(jié)」。比如,一塊軟布是如何在桌角褶皺的?一個捏扁了的易拉罐,其表面的摩擦力和形變有多復(fù)雜?一灘水的反光和流動,又如何影響視覺判斷?

仿真能解決 90% 能力的「廣度」問題,像一個完美的駕校,教會機(jī)器人通用能力。但決定 100% 可靠性的,是那最后 10% 的「長尾細(xì)節(jié)」——那些仿真無法完美復(fù)刻的真實(shí)物理世界。這個「仿真到現(xiàn)實(shí)的差距」(Sim2Real Gap),必須靠真實(shí)數(shù)據(jù)來彌合。

因此,業(yè)界一個日趨清晰的理想路徑是:用規(guī)?;姆抡鏀?shù)據(jù),去構(gòu)建機(jī)器人對物理世界的基礎(chǔ)認(rèn)知和通用能力(解決  90% 的問題);然后,用高價值的、聚焦特定場景的真實(shí)數(shù)據(jù),去進(jìn)行最終的「精調(diào)」(Fine-tuning),彌合「仿真到現(xiàn)實(shí)」的差距,解決那些最棘手的 Corner Case,攻克最后的 10%。

這也帶來了第二個約束:具身智能的「試錯成本」與「物理世界的回環(huán)速度」和大模型就不在一個量級。大模型可以在一秒內(nèi)進(jìn)行數(shù)千次「虛擬試錯」并快速迭代。但機(jī)器人的一個「幻覺」——無論是錯誤的力控制還是路徑規(guī)劃——都可能導(dǎo)致任務(wù)失敗、財(cái)產(chǎn)損失,甚至造成安全事故。每一次物理世界的試錯,不僅成本高昂,更重要的是耗時漫長。一個動作執(zhí)行需要幾秒鐘,一個任務(wù)序列可能需要幾分鐘。這種以秒甚至分鐘為單位的「物理回環(huán)速度」,與數(shù)字世界以毫秒為單位的迭代速度相比,慢了數(shù)個數(shù)量級。

此外,LLM 從 3.0 進(jìn)化到 4.0,一個關(guān)鍵步驟是引入了大規(guī)模的人類反饋(RLHF)。這依賴于軟件可以被瞬間分發(fā)給數(shù)百萬用戶。但機(jī)器人要獲得大規(guī)模、多樣化的真實(shí)世界反饋數(shù)據(jù),前提是必須先擁有大規(guī)模部署在真實(shí)環(huán)境中的機(jī)器人硬件。但要讓市場接受大規(guī)模部署,機(jī)器人又必須先達(dá)到極高的可靠性和性價比。這個「先有硬件部署,還是先有成熟智能」的矛盾,是軟件世界不存在的巨大商業(yè)和工程障礙。

現(xiàn)實(shí)世界還有更肥、更長的長尾。語言的長尾問題已經(jīng)足夠復(fù)雜,但物理世界的長尾問題,其復(fù)雜性上升是指數(shù)級的。例如,同一個「開門」任務(wù),門的重量、把手的形狀、阻尼的大小、甚至環(huán)境光線的微小變化,都可能導(dǎo)致模型失敗。物理世界充滿了連續(xù)、高維、且充滿噪聲的變量,這意味著其「極端案例」(Corner Case)的分布,遠(yuǎn)比文本世界要密集和致命。

回想一下自動駕駛,這個在相對受限場景下的「輪式具身智能」,即便擁有海量真實(shí)數(shù)據(jù)的加持,在解決了 99% 的問題后,至今仍在為了最后 1% 的長尾場景苦苦掙扎了近十年。而通用機(jī)器人的任務(wù)空間,需要與無數(shù)形態(tài)各異的物體進(jìn)行物理交互,其復(fù)雜度遠(yuǎn)超僅在二維平面上的自動駕駛。

因此,「五年之約」并非一個隨意的數(shù)字。它是一個基于上述物理約束、硬件瓶頸和商業(yè)現(xiàn)實(shí)的理性預(yù)期。我們需要至少一到兩年,去迎接那個激動人心的「GPT-3.0 時刻」的到來;然后,我們還需要至少三到四年,用以硬件的逐步鋪開、真實(shí)數(shù)據(jù)的漫長積累和對物理世界無盡長尾問題的艱苦攻克,才能真正邁向那個可靠、可用的「GPT-4.0 時代」。

所以,對這件事抱有五年甚至更長的耐心,是一個理性的預(yù)期。

誰能跑完這場馬拉松?

具身智能是一條漫長且充滿挑戰(zhàn)的道路,什么樣的參與者,才可能跑完全程?誰更有可能奪冠?

結(jié)合前面的分析,可以大致勾勒出終局玩家所必需的幾個要素:

  1. 世界一流的 AI 團(tuán)隊(duì): 能夠通過高精度的物理引擎,將「數(shù)據(jù)問題」有效地轉(zhuǎn)化為「算力問題」,加速達(dá)到 90% 的階段。

  2. 海量的真實(shí)世界數(shù)據(jù): 用以彌合 Sim2Real 的鴻溝,解決各類 Corner Case 的長尾問題,實(shí)現(xiàn) 90% 到 99% 的最后 10%。

  3. 頂級的工業(yè)制造能力: 用以破解硬件部署的悖論,能以可控的成本和可靠的品質(zhì),大規(guī)模生產(chǎn)并部署機(jī)器人「真身」到物理世界中。

  4. 雄厚的資本與堅(jiān)定的信念: 用以忍受物理世界緩慢的回環(huán)速度,支撐長達(dá)數(shù)年甚至十年的高昂投入和不確定性。

當(dāng)我們拿著這張清單去審視當(dāng)下的所有玩家時,說起來有點(diǎn)俗,發(fā)現(xiàn)目前能同時集齊這四張王牌的,最突出的還是馬斯克。他不僅擁有頂級的 AI 團(tuán)隊(duì)、雄厚的資本和幾乎無人能及的個人信念,更關(guān)鍵的是,他在「數(shù)據(jù)閉環(huán)」和「工業(yè)制造」這兩項(xiàng)上,已經(jīng)展現(xiàn)了世界級的統(tǒng)治力,具有結(jié)構(gòu)性優(yōu)勢,是最不容忽視的頭部玩家。

當(dāng)然,即便這是今天的現(xiàn)實(shí),認(rèn)識它也不是為了簡單接受,我反而期待更多新的力量成為變量,顛覆這一套邏輯。未來還未被書寫,新的歷史從來也不是靠推理就能注定的。

 

最新文章

極客公園

用極客視角,追蹤你不可錯過的科技圈.

極客之選

新鮮、有趣的硬件產(chǎn)品,第一時間為你呈現(xiàn)。

張鵬科技商業(yè)觀察

聊科技,談商業(yè)。