天天操天天干天天玩_国产香港一级毛片在线看_国产精品高潮呻吟久久av_一区二区三区日韩精品

選擇城市
更多
點贊
評論
收藏
分享
問編輯
商湯科技王曉剛:世界模型重構世界 讓安全有更多確定性
秦超
秦超
原創(chuàng) · 0瀏覽·2025-09-22 17:29 · 北京
關注

● 智能駕駛、自動駕駛也是人工智能非常重要的一個部分,它的技術的變遷也反映了人工智能發(fā)展的三個階段。

● 我們需要有個非常強大的質(zhì)量非常高的世界模型重構我們的萬千世界,能夠讓安全有更多的確定性。

[汽車之家 行業(yè)] 伴隨L2級輔助駕駛的加速普及,智能駕駛技術迎來關鍵的窗口期。行業(yè)內(nèi)既涌動著對技術突破的期待與積極探索,也存在對技術落地、安全應用等方面的審慎討論。

為凝聚共識、共促發(fā)展,汽車之家于9月21日舉辦“汽車之家全球AI科技大會”,以“Hi Future”為主題,匯聚行業(yè)頂尖技術專家、車企領袖及生態(tài)伙伴,探索智能技術如何筑牢安全底線、重塑競爭邊界。在本次大會上,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、CTO,商湯絕影CEO王曉剛分享了主題為《世界模型:智能駕駛范式演進新路標》的演講。

汽車之家

王曉剛認為,世界模型可以推動自動駕駛在三個方面取得突:一是數(shù)據(jù)瓶頸,可以通過世界模型產(chǎn)生無限長尾場景。二是能夠得到驗證技術邊界,因為它能夠通過仿真模擬恢復物理的世界,在仿真環(huán)境不斷地嘗試進行實現(xiàn)。三是通過強化學習達到超越人類駕駛的體驗。

我們需要有個非常強大的、質(zhì)量非常高的世界模型來重構我們的萬千世界,能夠讓安全有更多的確定性。在王曉剛看來,我們對世界模型的要求會有三方面:一是生成的數(shù)據(jù)應該是能夠面向量產(chǎn),能夠一鍵生成復雜的場景。二是場景里面有各種因素,可以針對各種因素進行編輯,能夠把各種的因素通過自由的組合,能夠?qū)崿F(xiàn)更多的拓展。三是實時性,在一定空間里面有非常高效的推理的效率,可以在一個世界模型里面實時進行互動。

汽車之家

對于世界模型在具身智能領域的應用,王曉剛認為,今天在自動駕駛的場景里用到的世界模型,所開發(fā)出來所有技術的體系,其實也可以用到具身智能領域,具身智能對世界模型的需求更加迫切。因為機器人的數(shù)量會更少,每個機器人硬件的配置千差萬別。未來通過大量的模擬仿真的數(shù)據(jù),能夠推動自動駕駛與具身智能,跨越到下一個階段。

以下為演講實錄,經(jīng)汽車之家精編整理:

各位領導、各位同仁、各位嘉賓,大家下午好!

非常感謝汽車之家的邀請,來到會場參加全球AI科技大會,也能夠有機會能夠跟大家分享我們世界模型通用人工智能給自動駕駛帶來的技術的變遷。

我們認為自動駕駛的技術是演進的頻率是非常快的,我們認為它有三個階段,智能駕駛、自動駕駛也是人工智能非常重要的一個部分,它的技術的變遷也反映了人工智能發(fā)展的三個階段。所以說大家比較熟悉的像我們說第一個階段基于規(guī)則的智能駕駛,我們又通過AI輸出感知的結(jié)果,能夠各種規(guī)則預定義這些邏輯,能夠根據(jù)優(yōu)化物理模型實現(xiàn)規(guī)控。在人工智能發(fā)展的每個階段我們也會問這樣的問題,智能到底是從哪里來?實際在第一個階段很多的智能來自于人工,我們需要大量的標注各種感知數(shù)據(jù),得到它的輸出,人工的書寫各種各樣的規(guī)則。所以在那個時候有一句話有多少人工就有多少的智能,其實很像人工智1.0發(fā)展的階段,我們?nèi)四樧R別、視頻分析,我們也會針對在安防的場景、人工的場景輸入智能的數(shù)據(jù)。

汽車之家

第二個階段是大模型的出現(xiàn),我們說在人工智能的領域2.0的時候,比如說ChatGPT,實際在互聯(lián)網(wǎng)上出現(xiàn)了積累了過去很多年人類行為的數(shù)據(jù),比如各種文章、代碼,這都是人類行為智能的體現(xiàn)。在自動駕駛領域?qū)木褪侨祟惖鸟{駛行為,第二階段大家推動的是端到端的自動駕駛。實際它把過去長時間人類行為積累的智能能夠轉(zhuǎn)化成為模型的智能,所以這里出現(xiàn)了一個很大的智能和體驗上的躍遷。但是它自己也有它的瓶頸,人類的這些行為就是智能的天花板,同時又是大量的依賴數(shù)據(jù)。所以說今天看到大模型的發(fā)展也遇到了瓶頸,就是因為我們在互聯(lián)網(wǎng)上,積累起來的互聯(lián)網(wǎng)的數(shù)據(jù)的價值面臨著枯竭的境地。同時可以看到自動駕駛積累的大量數(shù)據(jù)也有它的瓶頸。

第三個階段通過世界模型,通過所謂的生成式的智駕,通過強化學習能夠進一步的突破。一個非常典型的例子,2015年的時候在圍棋里面AIphaGo,后面出現(xiàn)了阿爾法Zero,不需要任何人類的知識的輸入,它也能夠產(chǎn)生大量的智能。今天在自動駕駛里希望有世界模型,在圍棋里面有棋盤,有人類定義的圍棋的規(guī)則,這是更高階的智能。我們希望在自動駕駛里面也能夠通過強化學習突破人類的行為上限的時候我們就需要一個世界模型,許多它模擬物理世界的規(guī)律、人類行為的法則和規(guī)律。強化學習在仿真的世界模型環(huán)境里面,通過強化學習不斷的提升,突破人類駕駛的上限。

所以類似的我們也可以看到今天在人工智能的3.0的發(fā)展,人們提出了具身智能,就要從原來的互聯(lián)網(wǎng)數(shù)據(jù)走出來,通過跟物理世界的交互產(chǎn)生新的智能。實際具身智能的領域世界模型也會扮演非常重要的角色。

今天說端到端的自動駕駛所面臨的問題,一是我們需要大量的數(shù)據(jù),特斯拉有幾百萬臺車,而且這些車的傳感器的配置是一致的,所以能夠回流大量的數(shù)據(jù)。今天我們面臨的問題是沒有如此規(guī)模的數(shù)據(jù)。二是對于各種危險復雜的場景,Corner Case這些獲得成本是非常高的,風險也是非常高的,怎么獲得這些高質(zhì)量的數(shù)據(jù)是我們需要解決的問題。另外是安全的邊界,今天端到端的自動駕駛看到一個問題場景,我們怎么解決這個問題場景,我們需要采集很多跟這個場景所類似的其他的數(shù)據(jù),重新訓練模型。但是模型訓練完之后也不能夠確定這個場景是否能夠真正的被解結(jié),因為端到有不確定性在。所以我們不知道大模型端到端的點在哪里,這是兩個比較重要的核心問題。

接下來我講未來我們要把世界模型和強化學習跟端到端相結(jié)合,在這里核心還是要有一個端到端的多模態(tài)的大模型,它的輸入可能是有各種視覺的、激光的、語言文字導航的輸入,輸出就是車輛的行為。端到端的大模型會預測車輛的軌跡,基于預測的軌跡反饋給世界模型,它就會能夠模擬仿真出我們的物理世界將會怎樣的變化,能夠給我們反饋出基于世界模型里合成出的視頻,能夠反饋重新訓練端到端的模型。而且這里我們會有個方法,告訴我們什么樣的仿真模型是好的,如此循環(huán)往復的迭代,不斷的提升端到端的性能。同時,在這個仿真環(huán)境里面可以無數(shù)次的試錯,有個問題的場景以后,通過無數(shù)次的嘗試一定能夠解決我們所關心的問題。而且能夠做到舉一反三、舉一反十、反百。所以今天的世界模型并不是無中生有,而且你用了問題場景我們可以通過復現(xiàn)物理場景,不能的改變各種要素,如天氣、道路、車速等等把類似的問題得到比較徹底的解決。

接下來我就給大家舉一個例子,看一看我們怎么用世界模型和強化學習解決問題。這里展示的是一個問題的場景有個施工占道出現(xiàn)了急剎。我們有幾步?第一步需要做4D仿真的浮現(xiàn),通過3DGS通過靜態(tài)的場景浮現(xiàn),同時通過3D的目標進行呈現(xiàn)。這兩個相結(jié)合浮現(xiàn)場景,通過世界模型對它進行修復,就能夠得到更高質(zhì)量的4D空間。在4D空間里就可以嘗試各種不同駕駛的行為,調(diào)整端到端的模型,嘗試各種不同的駕駛行為,直到你在這個環(huán)境里找到最佳的駕駛行為的結(jié)果。因為我們有這個辦法可以評價什么樣的駕駛行為是好的。

在單一的場景里面我們能夠得到模型的更新和驗證之后,接下來我們需要對它進一步的得到多個泛化。其實有很多其他的類似的場景,比如說復雜的施工區(qū)域,換道的通行,圍欄的減速等等。這些不同的場景都是通過世界模型所生成出來的各種泛化的場景,我們的模型能夠在這些泛化場景里面進一步的學習進行測試。

汽車之家

所以說今天我們的世界模型就可以推動自動駕駛在三個方面取得突破,一是數(shù)據(jù)瓶頸,可以通過世界模型產(chǎn)生無限長尾場景。二是能夠得到驗證技術邊界,因為它能夠通過仿真模擬恢復物理的世界,在仿真環(huán)境不斷的嘗試進行實現(xiàn)。三是通過強化學習達到超越人類駕駛的體驗。

汽車之家

背后核心就是我們需要有個非常強大的質(zhì)量非常高的世界模型重構我們的萬千世界,能夠讓安全有更多的確定性。所以說我們對世界模型會有哪些要求呢?會有幾方面,一是生成的數(shù)據(jù)應該是能夠面向量產(chǎn),能夠有更多的場景,非常復雜的場景是可控的,能夠一鍵生成復雜的場景。二是場景里面有各種因素,可以針對各種因素進行編輯,能夠把各種的因素通過自由的組合,能夠?qū)崿F(xiàn)更多的拓展。三是有實時,在一定空間里面有非常高效的推理的效率,可以在一個世界模型里面實時的進行互動。

這里我們給大家所看到的是一個例子,我們坐車輛Cut-in比較危險的場景,我們可以看到車里有7個攝像頭,我們要生成一個好的世界模型,就要保持它的時空的一致性。大家知道很早2024年的時候就有Sora能夠做各種視頻的生成,今天用世界模型做自動駕駛它的難得在哪里?生成視頻比圖像更難,就是因為有連續(xù)性。今天用在自動駕駛環(huán)境里視頻的生成會更難,因為有眾多的攝像頭,要保持多個攝像頭時空的一致性。這里比如說有車牌、道路的限行、各個攝像頭里內(nèi)容應該是一致的,還有空間的幾何關系是一致的,這樣生成的視頻才能夠有效的用作自動駕駛的訓練和測試。

基于此,我們就可以針對打車Cut-in一個場景可以改變各種的要素,我們換不同的天氣的條件、不同的道路路形、大車的車型、車速和Cut-in的距離。剛才說了有了這個以后,就可以做到舉一反十、反一百、反一千。這里也可以看到一鍵生成更加復雜的場景,比如說車禍和碰撞的場景。

汽車之家

而且在這里我們需要對場景里面的各種要素能夠做到任意編輯,可以找到一個車輛任意的替換不同的車型,增加車輛、減少相應的車輛,模擬不同的駕駛環(huán)境。

在這里我們現(xiàn)在也能夠做到實時的推理,所以這里我們展示的是在上海市區(qū),在市區(qū)里可以自由的進行開車,加減速、轉(zhuǎn)彎,但是你今天看到的這些視頻都是跟真實世界的物理環(huán)境更加接近的。

我們也把世界模型能夠產(chǎn)品化,能夠開放API,所以在這里用戶可以描述你所想采用的數(shù)據(jù)一鍵生成,形成各種各樣我們期待的視頻。所以我們現(xiàn)在也能夠積累百萬級的數(shù)據(jù)集,覆蓋各種復雜的場景,能夠?qū)崿F(xiàn)高保真。今天每一個Clips(音)有150s,有7個攝像頭能夠保持比1080P更好圖像的質(zhì)量。

汽車之家

今天說這是個基礎的設施,我們也看到各地的政府也建立了實訓場,能夠提供算力的平臺,真實的采集實車的數(shù)據(jù)。另外有一半的數(shù)據(jù)也是通過世界模型模擬仿真進行生成,兩個相結(jié)合提供給行業(yè)里車廠進行端到端模型的訓練。

最后說今天在自動駕駛的場景里用到的世界模型開發(fā)出來所有技術的體系,其實也可以用到具身智能里,具身智能對世界模型的需求是更加迫切。因為機器人的數(shù)量會更少,而且每個機器人硬件的配置千差萬別。所以說我們就希望在具身里面世界模型能夠做到多模態(tài)、數(shù)據(jù)對齊,能夠得到4D空間,能夠進行快速的推理。

所以這里我給大家舉個例子,有兩個例子,一是你輸一條指令讓機器人能夠在公園里進行跳躍,會自動的生成機器人的骨骼、姿態(tài)、動作的變化,基于這個能夠生成機器人第一視角看到視頻的數(shù)據(jù)和第三視角。下面說讓機器臂切黃瓜,同樣可以生成第一和第三視角的數(shù)據(jù)。未來我們可以用大量的模擬仿真的數(shù)據(jù),能夠推動自動駕駛,推動具身智能,能夠跨越到下一個階段。好,謝謝大家?。ň幾g/汽車之家 秦超)

文章標簽
點贊
評論
收藏
分享
舉報/糾錯
2025/9/22 19:22:31