無圖全國都能開，端到端＋VLM 理想智駕還有哪些黑科技？

2024-07-06 01:23:25 作者：liuxue1

　　快速、高效、信息量密集是看完理想智駕夏季發(fā)布會后的最直觀感受，全場都在高密度輸出，酣暢淋漓。這次的重點有兩件事，一是面向當(dāng)下，在7月份內(nèi)推送OTA 6.0版本，為所有理想AD Max的用戶，帶來全國都能開的無圖NOA的功能；二是展望今后，分享今年下半年，理想智駕將繼續(xù)成長的技術(shù)方案—端到端＋VLM（視覺語言模型）。

一、7月內(nèi)全量推送無圖NOA，全國都能開！

　　早在今年5月10日，理想就開啟了1000名內(nèi)測用戶的無圖NOA體驗，6月份來到了萬人規(guī)模，6月底向全量用戶開啟不限量招募（智駕里程需要達標(biāo)）。相信對智駕感興趣的理想車主朋友，已經(jīng)用上無圖NOA，歡迎在評論區(qū)給我們分享體驗。

　　哪些理想用戶可以收到更新？

　　這次是面向所有AD Max用戶（購買的是帶激光雷達的車型）的全量推送版本OTA6.0，將覆蓋理想MEGA和理想L9、理想L8、理想L7、理想L6的AD Max車型，7月內(nèi)推送。屆時，全國都能開的無圖NOA將上車。

　　無圖NOA的能力提升，在什么地方？

　　1、哪里都可以開?。ㄖ馗兄?，無圖無先驗）

　　得益于感知、理解和道路結(jié)構(gòu)構(gòu)建能力的全面提升，無圖NOA擺脫了對先驗信息的依賴。用戶在全國范圍內(nèi)有導(dǎo)航覆蓋的城市范圍內(nèi)均可使用NOA，甚至可以在更特殊的胡同窄路和鄉(xiāng)村小路開啟功能。

　　2、繞行絲滑-時空聯(lián)合規(guī)劃（橫向控制＋縱向控制，時間和空間模型并行運行）

　　實現(xiàn)了橫縱向空間的同步規(guī)劃，并通過持續(xù)預(yù)測自車與他車的空間交互關(guān)系，規(guī)劃未來時間窗口內(nèi)的所有可行駛軌跡?；趦?yōu)質(zhì)樣本的學(xué)習(xí)，車輛可以快速篩選最優(yōu)軌跡，果斷而安全地執(zhí)行繞行動作。

　　3、路口輕松過-上帝視角（導(dǎo)航信息、感知信息全融合）

　　選路能力顯著提升。無圖NOA采用BEV視覺模型融合導(dǎo)航匹配算法，實時感知變化的路沿、路面箭頭標(biāo)識和路口特征，并將車道結(jié)構(gòu)和導(dǎo)航特征充分融合，有效解決了復(fù)雜路口難以結(jié)構(gòu)化的問題，具備超遠視距導(dǎo)航選路能力，路口通行更穩(wěn)定?！　?nbsp;

　　4、默契安心

　　重點考慮用戶心理安全邊界，用分米級的微操能力帶來更加默契、安心的行車體驗。通過激光雷達與視覺前融合的占用網(wǎng)絡(luò)，車輛可以識別更大范圍內(nèi)的不規(guī)則障礙物，感知精度也更高，從而對其他交通參與者的行為實現(xiàn)更早、更準(zhǔn)確的預(yù)判。得益于此，車輛能夠與其他交通參與者保持合理距離，加減速時機也更加得當(dāng)，有效提升用戶行車時的安全感。

　　是不是全國都能開？是不是有路就好用？關(guān)注太平洋智駕，后續(xù)我們將帶來實測內(nèi)容。

　　主動安全能力提升：

　　這次OTA6.0，也為用戶帶來主動安全上的升級，同步將在7月內(nèi)推送：

　　1、復(fù)雜路口 AEB（自動緊急制動）：

　　行人、兩輪車、三輪車典型的三種類型，從左、右、前靠近，做到了全覆蓋。這三種對象從任何一個方向靠近，如果它侵占了理想汽車的安全系統(tǒng)區(qū)間，理想汽車都會啟動AEB幫助用戶主動剎停。

　　2、夜間AEB（自動緊急制動）：

　　在高速上夜間行駛，周圍基本上沒有光照，沒有開燈、沒有反光條。理想AD Max的AEB能做到120公里時速完全剎停。

　　3、全自動AES（自動緊急轉(zhuǎn)向）：

　　解決“消失的前車”安全隱患場景。行駛過程中的我方車輛和前車，都以非常快的速度在高速上行駛，突然前前車急剎停，前車避讓而我車距離很近不可能剎停。這種情況下理想汽車提供AES（自動緊急轉(zhuǎn)向）功能，車輛會減速并避讓過去，提升安全上限。

　　4、全方位低速AEB（自動緊急制動）：

　　用戶在日常生活的低速場景中，特別在地庫停車環(huán)境復(fù)雜的情況下，可能會出現(xiàn)比如柱子、墩子，理想汽車的低速AEB，以上情況都可以剎停，避免剮蹭。

二、智駕新思路：端到端＋VLM

　　作為理想智駕展望未來的新技術(shù)，端到端＋VLM的講解部分偏向?qū)W術(shù)，比較深奧。我盡量以我的視角來給大家?guī)胫v解。首先我們要肯定的是，這套技術(shù)論確實在智駕同質(zhì)化、跟隨化嚴(yán)重的當(dāng)下，打開了新思路，也提出更好解決智駕場景問題的新方法。

　　理想智能駕駛副總裁郎咸朋博士表示，新思路是來源于諾貝爾經(jīng)濟學(xué)獎得主丹尼爾·卡尼曼在《思考，快與慢》中闡述了認(rèn)知心理學(xué)中系統(tǒng)1與系統(tǒng)2的概念，這也是人類的認(rèn)知模式。

　　系統(tǒng)1可以看做為直覺、肌肉記憶。對應(yīng)理解為，人根據(jù)自己過去的經(jīng)驗和習(xí)慣形成的直覺，可以做出快速的決策。如自動換擋或者在看到紅燈時無需深思熟慮地停車。

　　系統(tǒng)2則是深度思考能力，琢磨的能力。對應(yīng)理解為，人需要經(jīng)過思考或推理才能解決這種復(fù)雜的問題和應(yīng)對未知的場景。比如遇到突發(fā)緊急情況、復(fù)雜的交通或不熟悉的路段。

　　系統(tǒng)1和系統(tǒng)2相互配合，也組成了人類認(rèn)知和理解世界、做出決策的基礎(chǔ)。想想自身解決一個簡單或一個復(fù)雜的問題，是不是也需求這兩種系統(tǒng)。所以，自動駕駛要解決的問題，也就是如何仿生的問題?！　?nbsp;

　　系統(tǒng)1和系統(tǒng)2是如何應(yīng)用到自動駕駛中的?

　　系統(tǒng)1，就是由各家廠商天天都在說的端到端（E2E）模型來實現(xiàn)，直接用來快速響應(yīng)常規(guī)駕駛問題。是快系統(tǒng)。

　　系統(tǒng)2，則是由VLM來實現(xiàn)。什么是VLM？就是視覺語言模型（Visual Language Model），

　　這個模型擅長解讀圖片或視頻里的信息，能用自然語言把看到的內(nèi)容都描述出來，所以可以把它的能力理解為看圖說話。

　　所以在自動駕駛中，VLM可以用于場景理解，能識別和描述道路環(huán)境，這里面包含了思考的能力。通過大量數(shù)據(jù)訓(xùn)練，VLM就能理解交通場景中的復(fù)雜交互事件。是慢系統(tǒng)。

　　即系統(tǒng)1，處理簡單任務(wù)，足以應(yīng)對駕駛車輛時95%的常規(guī)場景。系統(tǒng)2，解決復(fù)雜場景，占日常駕駛的約5%。系統(tǒng)1和系統(tǒng)2相互配合，分別確保大部分場景下的高效率和少數(shù)場景下的高上限，成為人類認(rèn)知、理解世界并做出決策的基礎(chǔ)。

　　端到端和VLM分別是如何工作，如何配合呢？

　　我們先說端到端。理想第一代的智駕大家都知道是重先驗的NPN路口神經(jīng)網(wǎng)絡(luò)的方案，是典型的模塊化方案，感知、定位、規(guī)劃、導(dǎo)航、NPN等等。

　　第二代智駕，也就是7月要全量推送的，目前正流行的分段式端到端，是感知和規(guī)控兩個大模型。

　　第三代智駕，我們所說的真正意義的端到端模型，它是一個One Model的結(jié)構(gòu)，只有一個模型，輸入的是傳感器，輸出的是行駛軌跡。

　　端到端模型的輸入信息，主要來源于攝像頭和激光雷達。多傳感器特征經(jīng)過CNN主干網(wǎng)絡(luò)的提取、融合，投影至BEV空間。為提升模型的表征能力，理想汽車還設(shè)計了記憶模塊，兼具時間和空間維度的記憶能力。在模型的輸入中，理想汽車還加入了車輛狀態(tài)信息和導(dǎo)航信息，經(jīng)過Transformer模型的編碼，與BEV特征共同解碼出動態(tài)障礙物、道路結(jié)構(gòu)和通用障礙物，并規(guī)劃出行車軌跡。

　　黑盒特征，端到端方案已經(jīng)不顯示系統(tǒng)看到了什么，所以也不存在也傳統(tǒng)的輔助駕駛感知界面讓用戶來觀察。系統(tǒng)解碼出動態(tài)障礙物、道路結(jié)構(gòu)和通用障礙物，讓用戶在屏幕上看到，多次一舉的目的，也是為了加強用戶的安全感。

　　多任務(wù)輸出在一體化的模型中得以實現(xiàn)，中間沒有規(guī)則介入，因此端到端模型在信息傳遞、推理計算、模型迭代上均具有顯著優(yōu)勢。

　　在實際駕駛中，端到端模型展現(xiàn)出更強大的通用障礙物理解能力、超視距導(dǎo)航能力、道路結(jié)構(gòu)理解能力，以及更擬人的路徑規(guī)劃能力。如復(fù)雜道路通行，路口一堆違停車，需要從兩車中間穿行，這樣復(fù)雜場景，通過寫規(guī)則是寫不出來的。

　　總結(jié)來說，端到端的優(yōu)勢就是高效傳遞，駕駛體驗更聰明和更擬人；高效計算，駕駛時車輛會反應(yīng)更及時和更迅速；高效迭代，更高頻率的OTA。

　　再來談?wù)刅LM視覺語言模型。它的算法架構(gòu)由一個統(tǒng)一的Transformer模型組成，將Prompt（提示詞）文本進行Tokenizer（分詞器）編碼，并將前視相機的圖像和導(dǎo)航地圖信息進行視覺信息編碼，再通過圖文對齊模塊進行模態(tài)對齊，最終統(tǒng)一進行自回歸推理，輸出對環(huán)境的理解、駕駛決策和駕駛軌跡，傳遞給系統(tǒng)1輔助控制車輛。

　　具官方介紹，理想汽車的VLM視覺語言模型參數(shù)量達到22億，對物理世界的復(fù)雜交通環(huán)境具有強大的理解能力，即使面對首次經(jīng)歷的未知場景也能自如應(yīng)對。

　　VLM模型可以識別路面平整度、光線等環(huán)境信息，提示系統(tǒng)1控制車速，確保駕駛安全舒適。VLM模型也具備更強的導(dǎo)航地圖理解能力，可以配合車機系統(tǒng)修正導(dǎo)航，預(yù)防駕駛時走錯路線。同時，VLM模型可以理解公交車道、潮汐車道和分時段限行等復(fù)雜的交通規(guī)則，在駕駛中作出合理決策。

　　可以大家也注意到了一個問題，VLM是不是看起來非常厲害，但為啥沒有在自動駕駛中廣泛應(yīng)用？

　　時延，還是時延。大模型的特點，是擁有巨大的參數(shù)量，理想汽車的VLM視覺語言模型參數(shù)量達到了22億。所以這也會導(dǎo)致模型的推理時間有較高延遲，少則幾秒。別看就幾秒鐘，但放在自動駕駛場景當(dāng)中，總不能說遇到一個場景，等車先思考4-5秒，顯然這是無法滿足自動駕駛對實時性的要求。所以，VLM模型更多應(yīng)用在自動駕駛的仿真訓(xùn)練中，幫助車輛學(xué)會應(yīng)對更多場景。

　　理想就怎么能解決這個問題呢？

　　從4.1秒的時延縮短到0.3秒時延，提升了13倍。優(yōu)化路線如上圖，涉及到理想從魔改行業(yè)原有方案，到創(chuàng)新方案。技術(shù)細節(jié)過于深奧，有從事相關(guān)行業(yè)或有技術(shù)背景的朋友，可以驗證一下，我們在這就不展開了。不過，既然理想敢公開技術(shù)細節(jié)，也代表著取得了一定的進展，誰也不會留辮子給競爭對手。

　　理想汽車基于快慢系統(tǒng)系統(tǒng)理論形成了自動駕駛算法架構(gòu)的原型。系統(tǒng)1由端到端模型實現(xiàn)，具備高效、快速響應(yīng)的能力。端到端模型接收傳感器輸入，并直接輸出行駛軌跡用于控制車輛。系統(tǒng)2由VLM視覺語言模型實現(xiàn)，其接收傳感器輸入后，經(jīng)過邏輯思考，輸出決策信息給到系統(tǒng)1。如障礙物和夜間行駛時的減速建議，公交車道、潮汐車道的行駛建議。

　　甚至還可以識別交警的動態(tài)手勢，還有施工改道的指示牌。

　　端到端＋VLM的能力怎么驗證呢？

　　將在云端利用世界模型進行訓(xùn)練和驗證。理想利用重建+生成的世界模型。把真實數(shù)據(jù)通過3DGS（3D高斯濺射）進行重建，并使用生成模型補充新視角，兩者結(jié)合所生成的場景既可以保證場景是符合真實世界的，也同時解決了新視角模糊的問題。

　　在場景重建時，我們需要將場景中的動靜態(tài)分離，核心思想是靜態(tài)環(huán)境進行重建，動態(tài)物體進行重建和新視角生成，變成360°的新資產(chǎn)，將兩者結(jié)合生成一個3D的物理世界，同時里面的動態(tài)資產(chǎn)可以被隨意編輯和調(diào)整，實現(xiàn)場景的部分泛化。

　　生成相對于重建具備更好的泛化性，可以自定義地改變天氣、時間、車流等條件，生成不同的場景來考驗?zāi)Ｐ偷姆夯芰?，評價自動駕駛系統(tǒng)在各種條件下的適應(yīng)能力。

　　這種兩種方式可以取長補短，生成相當(dāng)考試前的模擬題，考驗知識廣度；重建相當(dāng)于真題，考驗知識深度。

　　所以在這樣的無限云端環(huán)境里，可以進行自動駕駛系統(tǒng)的充分學(xué)習(xí)和考試，確保系統(tǒng)的安全可靠。

　　技術(shù)的落地是為產(chǎn)品服務(wù)，前不久我們找來華、蔚、小、理，也就是目前智駕頭部廠商的主力車型做了一次智駕橫評對比。當(dāng)時還是NPN方案的理想L7的表現(xiàn)，并不算亮眼，智駕可用范圍少，規(guī)控策略僵硬是比較明顯的感受。所以這次全量無圖NOA后，按理是補齊了覆蓋率和規(guī)則過重的問題。整體切換到無圖方案后的理想AD Max的體驗，到底如何？有多少進步？敬請關(guān)注太平洋智駕，我們后續(xù)將第一時間帶來分享。

　　這次發(fā)布會的最后還有一個彩蛋，除了全量推送無圖NOA外，還有端到端＋VLM系統(tǒng)的鳥蛋用戶內(nèi)測，十分期待。

>>點擊查看今日優(yōu)惠<<

本文導(dǎo)航

無圖全國都能開，端到端＋VLM 理想智駕還有哪些黑科技？

無圖全國都能開，端到端＋VLM 理想智駕還有哪些黑科技？