亚洲av无码1区2区久久,台湾佬综合网,首页人妻中文字幕,天堂网在线.www资源,丝袜 中出 制服 人妻 美腿

擊敗多個(gè)行業(yè)巨頭,優(yōu)必選自研人形機(jī)器人最強(qiáng)大腦 Thinker 斬獲全球四項(xiàng)第一

摘要

人形機(jī)器人「最強(qiáng)大腦」再進(jìn)化。

當(dāng)行業(yè)還在激烈討論「具身智能」的落地路徑時(shí),人形機(jī)器人的「大腦」進(jìn)化競(jìng)賽,已經(jīng)悄然抵達(dá)一個(gè)新的里程碑。

近日,優(yōu)必選對(duì)外公布,其自主研發(fā)的人形機(jī)器人 Walker 的「最強(qiáng)大腦」——百億參數(shù)基座的多模態(tài)大模型 Thinker,在全球三大權(quán)威 AI 基準(zhǔn)測(cè)試中,一舉斬獲四項(xiàng)世界第一。

這些由微軟、谷歌等巨頭發(fā)起和提出的榜單,吸引了包括英偉達(dá)、北京智源研究院、上海 AI Lab 在內(nèi)的全球頂尖團(tuán)隊(duì)同場(chǎng)競(jìng)技。此次優(yōu)必選的勝出,不僅證明了其在機(jī)器人復(fù)雜環(huán)境感知、語(yǔ)義理解與長(zhǎng)程任務(wù)規(guī)劃等核心維度的技術(shù)領(lǐng)先,更標(biāo)志著其人形機(jī)器人 Walker S 具身智能的關(guān)鍵進(jìn)化,真正讓機(jī)器人「看懂世界、自主完成任務(wù)」成為可能。

01

多模態(tài)感知+強(qiáng)推理規(guī)劃

賦能工業(yè)場(chǎng)景規(guī)模化應(yīng)用

在智能化浪潮席卷全球的當(dāng)下,人形機(jī)器人的規(guī)劃能力已成為關(guān)鍵競(jìng)爭(zhēng)維度之一。傳統(tǒng)機(jī)器人系統(tǒng)依賴預(yù)設(shè)指令執(zhí)行任務(wù),難以應(yīng)對(duì)高度動(dòng)態(tài)、多變的現(xiàn)實(shí)場(chǎng)景。而本次三大基準(zhǔn)測(cè)試的核心,正是針對(duì)人形機(jī)器人在復(fù)雜環(huán)境中的多模態(tài)感知和推理規(guī)劃能力進(jìn)行系統(tǒng)化驗(yàn)證。

MS COCO detection challenge 由微軟發(fā)起,是計(jì)算機(jī)視覺領(lǐng)域的權(quán)威評(píng)測(cè)基準(zhǔn)之一,在全球?qū)W術(shù)界與工業(yè)界享有極高認(rèn)可度,常年被眾多頂尖論文與技術(shù)報(bào)告用作感知算法性能的衡量標(biāo)準(zhǔn)。

RoboVQA 和 Egoplan-bench2 則分別由谷歌 DeepMind 和香港大學(xué)提出,致力于構(gòu)建機(jī)器人第一視角推理與任務(wù)規(guī)劃的公開標(biāo)準(zhǔn)基準(zhǔn)測(cè)試,重點(diǎn)關(guān)注多模態(tài)、長(zhǎng)周期任務(wù)規(guī)劃能力。參與排名的模型包括北京智源、英偉達(dá) ThinkAct、Cosmos-reason1、GPT-4V、Qwen2.5-vl 等。

優(yōu)必選 Thinker 在 MS COCO detection challenge - Segmentation Mask 中排名第一

優(yōu)必選 Thinker 在 MS COCO detection challenge - Bounding Box 排名中并列第一

優(yōu)必選 Thinker 在 RoboVQA 與 Egoplan-bench2 中排名第一

這一成績(jī)的背后,是優(yōu)必選自主研發(fā)的 Thinker 架構(gòu)與訓(xùn)練框架所提供的技術(shù)支撐,通過(guò)多項(xiàng)關(guān)鍵技術(shù)創(chuàng)新性整合,系統(tǒng)化提升了人形機(jī)器人的感知與推理規(guī)劃能力,為工業(yè)場(chǎng)景的規(guī)?;瘧?yīng)用奠定基礎(chǔ)。

Prompt:「Move the material box to the conveyor belt.」

Thinker:「First locate the conveyor belt, then place the material box.」

Walker S2 在工業(yè)場(chǎng)景中自主完成上料

第一,自研視覺編碼器基座,構(gòu)建精準(zhǔn)環(huán)境感知。優(yōu)必選以 ViT 作為視覺編碼器原型,結(jié)合 Co-DETR 檢測(cè)頭,依托 Object 365 等開源數(shù)據(jù)在通用視覺任務(wù)上進(jìn)行預(yù)訓(xùn)練,并通過(guò)多階段模態(tài)對(duì)齊機(jī)制 實(shí)現(xiàn)了視覺-語(yǔ)言模態(tài)的高效融合。最終,在優(yōu)必選機(jī)器人數(shù)據(jù)集上進(jìn)行微調(diào),顯著提升機(jī)器人在工業(yè)場(chǎng)景中對(duì)物體、障礙和操作上下文的識(shí)別能力,為復(fù)雜環(huán)境下穩(wěn)定可靠的多模態(tài)環(huán)境感知奠定了堅(jiān)實(shí)基礎(chǔ)。

第二,超大規(guī)模參數(shù)架構(gòu),提供強(qiáng)大語(yǔ)義理解基礎(chǔ)。優(yōu)必選自研了 具有百億參數(shù)的多模態(tài)大模型 Thinker 基座,實(shí)現(xiàn)視覺-語(yǔ)言-時(shí)間的跨域統(tǒng)一表征,使機(jī)器人能夠在多場(chǎng)景中準(zhǔn)確捕捉環(huán)境細(xì)節(jié)、理解任務(wù)指令并做出推理,為自動(dòng)化操作提供可靠的認(rèn)知基礎(chǔ)。

第三,時(shí)序增強(qiáng)算法與強(qiáng)化學(xué)習(xí)方法,增強(qiáng)長(zhǎng)程任務(wù)規(guī)劃連貫可靠。通過(guò)大模型蒸餾技術(shù),將百億參數(shù)模型效果濃縮至 7B 參數(shù)模型中,在保持高性能的同時(shí)增強(qiáng)多步驟任務(wù)分解與連續(xù)決策能力。該優(yōu)化使模型可以在 端側(cè)部署,用機(jī)器人自身搭載的算力就可實(shí)時(shí)自主拆解復(fù)雜流程,避免規(guī)劃中斷或邏輯混亂,在流程嚴(yán)格、環(huán)環(huán)相扣的工業(yè)場(chǎng)景中展現(xiàn)出關(guān)鍵價(jià)值,將有力保障生產(chǎn)連貫性和操作安全性。

02

通用基礎(chǔ)能力打造+工業(yè)場(chǎng)景精調(diào)

共創(chuàng)工業(yè)人形機(jī)器人應(yīng)用生態(tài)

工業(yè)場(chǎng)景的精調(diào)策略正成為推動(dòng)多模態(tài)大模型邁向?qū)嶋H應(yīng)用的關(guān)鍵力量,為人形機(jī)器人在生產(chǎn)線上的穩(wěn)定、高效部署奠定了技術(shù)基礎(chǔ),加速其從技術(shù)驗(yàn)證走向規(guī)?;瘜?shí)戰(zhàn)應(yīng)用的進(jìn)程。

優(yōu)必選創(chuàng)新性地采用 「通用基礎(chǔ)能力打造+工業(yè)場(chǎng)景精調(diào)」的微調(diào)策略,基于超 200 萬(wàn)條視頻數(shù)據(jù)構(gòu)成的大規(guī)模訓(xùn)練集進(jìn)行預(yù)訓(xùn)練,隨后引入優(yōu)必選在工廠實(shí)訓(xùn)中積累的億級(jí)工業(yè)數(shù)據(jù)集進(jìn)行微調(diào),并對(duì)工業(yè)場(chǎng)景任務(wù)規(guī)劃數(shù)據(jù)加以清洗與整合,構(gòu)建高效多模態(tài)大模型學(xué)習(xí)閉環(huán)。通過(guò)這一流程,模型能夠快速學(xué)習(xí)工業(yè)場(chǎng)景的視覺特征、任務(wù)規(guī)則與操作偏好,最終 顯著提升人形機(jī)器人在工業(yè)場(chǎng)景中的理解準(zhǔn)確率、規(guī)劃適配性與決策可靠性,實(shí)現(xiàn)在多種復(fù)雜場(chǎng)景中的泛化性與穩(wěn)定性。

Prompt:「Move the material box onto the pile of boxes next to it.」

Thinker:「The middle slot is the best one for the material box.」

Walker S2 在工業(yè)場(chǎng)景中自主規(guī)劃任務(wù)

在 Thinker 大模型技術(shù)體系的全方位賦能下,優(yōu)必選新一代工業(yè)人形機(jī)器人 Walker S2 實(shí)現(xiàn)「最強(qiáng)大腦」再進(jìn)化,不僅具備高精準(zhǔn)環(huán)境感知能力,更能夠在動(dòng)態(tài)場(chǎng)景中高效完成任務(wù)分解、實(shí)時(shí)調(diào)整與穩(wěn)定規(guī)劃。借助 Thinker,Walker S2 可 精準(zhǔn)識(shí)別設(shè)備、物料與障礙物,深度理解場(chǎng)景語(yǔ)義及操作前后邏輯關(guān)聯(lián),顯著提升長(zhǎng)周期任務(wù)的執(zhí)行穩(wěn)定性。在復(fù)雜流水線環(huán)境中,機(jī)器人展現(xiàn)出持續(xù)連貫的規(guī)劃能力,大幅降低對(duì)人工干預(yù)的依賴。

實(shí)際應(yīng)用數(shù)據(jù)顯示,相比僅基于通用數(shù)據(jù)微調(diào)的模型,采用工業(yè)數(shù)據(jù)集進(jìn)行二次微調(diào)后,Walker S2 在拆碼垛規(guī)劃等典型任務(wù)的中的規(guī)劃精度提升超過(guò) 20%,有力驗(yàn)證了該技術(shù)方案的產(chǎn)業(yè)化價(jià)值,相關(guān)技術(shù)報(bào)告將在 arxiv 上發(fā)布。

Prompt:「Move the material box onto the roller rack.」

Thinker:「First locate the roller rack and then place material box.」

Walker S2 在工業(yè)場(chǎng)景中自主規(guī)劃任務(wù)

當(dāng)前,人形機(jī)器人正在進(jìn)入大規(guī)模應(yīng)用的關(guān)鍵階段,其發(fā)展亟需與開發(fā)者共同構(gòu)建開放、協(xié)同的應(yīng)用生態(tài)。為此,優(yōu)必選將逐步開源一系列業(yè)界稀缺的工業(yè)場(chǎng)景數(shù)據(jù)集與通用基礎(chǔ)大模型,為全行業(yè)提供源自實(shí)際應(yīng)用一線的高質(zhì)量合規(guī)數(shù)據(jù)資源。開發(fā)者可基于優(yōu)必選多模態(tài)大模型 Thinker,面向各類新場(chǎng)景開展精調(diào)與二次開發(fā),助力提升開發(fā)效率。我們期待與全球開發(fā)者攜手,共創(chuàng)工業(yè)人形機(jī)器人的應(yīng)用生態(tài),為具身智能行業(yè)的加速發(fā)展注入持續(xù)動(dòng)能。

最新文章

極客公園

用極客視角,追蹤你不可錯(cuò)過(guò)的科技圈.

極客之選

新鮮、有趣的硬件產(chǎn)品,第一時(shí)間為你呈現(xiàn)。

張鵬科技商業(yè)觀察

聊科技,談商業(yè)。