首頁 > 新能源汽車

智能駕駛:城市領(lǐng)航輔助必備的BEV以及Occupancy networks

來源:新能源汽車網(wǎng)
時(shí)間:2023-06-05 17:01:30
熱度:

智能駕駛:城市領(lǐng)航輔助必備的BEV以及Occupancy networks最近馬斯克到訪國內(nèi),接待規(guī)格可謂不一般,其中到訪了工信部討論了“新能源汽車和智能網(wǎng)聯(lián)汽車的發(fā)展

最近馬斯克到訪國內(nèi),接待規(guī)格可謂不一般,其中到訪了工信部討論了“新能源汽車和智能網(wǎng)聯(lián)汽車的發(fā)展”,這個(gè)信息,很多人猜測(cè)是為特斯拉的FSD落地國內(nèi)進(jìn)行鋪路,國內(nèi)也歡迎FSD智能駕駛鯰魚效應(yīng),激活市場(chǎng)熱情,助力國內(nèi)智能駕駛的發(fā)展。

談起智能駕駛,在Waymo和通用super cruise以及國內(nèi)V2X風(fēng)潮的帶領(lǐng)下,國內(nèi)智能駕駛開始選擇的路徑就是這條復(fù)雜但是更容易落地的高精地圖+視覺識(shí)別的路線。但是,隨著整車成本的壓力,高精地圖維護(hù)成本以及政策的問題,這條路線走到城市領(lǐng)航輔助就卡住了。

而特斯拉自始自終選擇的是基于視覺的單車智能方案,他背后的邏輯是大數(shù)據(jù)+AI算法的方式,并且不斷迭代算法,目前的算法是基于AI transformer的BEV(Bird-Eye-View Networks)以及occupancy networks,也是我之前文章《2023上海國際車展-智能電動(dòng)4點(diǎn)觀察》講到國內(nèi)各家走向趨同的路線。

所以本文將參考相關(guān)文章,極簡(jiǎn)的介紹下智能駕駛BEV(Bird-Eye-View Networks)以及occupancy networks算法和方案,以及國內(nèi)各家的現(xiàn)狀。

基于傳統(tǒng)視覺智能駕駛算法的問題

智能駕駛?cè)缥抑拔恼隆兑曈X為王-小鵬以及特斯拉的自動(dòng)駕駛方案》介紹是當(dāng)前智能駕駛依賴得主流,但是基于攝像頭視覺的系統(tǒng)有很多缺陷,而且還有很多由于對(duì)象檢測(cè)失敗或其他問題引起的崩潰,這個(gè)在我之前文章《智能駕駛要用多少個(gè)激光雷達(dá)?分別放在哪里?什么作用?》也分析過。

一般攝像頭算法是看到物體,然后匹配自己數(shù)據(jù)庫里面標(biāo)記的物體,但是如果攝像頭看到不屬于數(shù)據(jù)集中已經(jīng)標(biāo)定的對(duì)象,也就是遇到不認(rèn)識(shí)的東西怎么辦?所以這就是造成各種事故的根本原因。

另外在現(xiàn)實(shí)中,傳統(tǒng)視覺算法:

·視覺的深度信息非常的不一致

·無法穿過前面的障礙物

·圖像一般都是2D的但是真實(shí)的世界是3D

·無法識(shí)別懸空的障礙物

·可能存在本體的裂紋,將物體局部誤識(shí)別。

但在基于 LiDAR 激光雷達(dá)傳感器系統(tǒng)中,由于激光雷達(dá)主動(dòng)收發(fā)光所以他可以從物理上確定障礙物是否存在,確定了障礙物就可以保障不碰撞的安全。

那為什么特斯拉不用激光雷達(dá)?

激光雷達(dá)能夠?qū)崿F(xiàn)各種環(huán)境下的三維感知和定位功能,激光雷達(dá)通過發(fā)射激光束并創(chuàng)建點(diǎn)云地圖來測(cè)量汽車與其周圍環(huán)境之間的距離;該地圖與攝像頭視覺相結(jié)合,使車輛能夠更準(zhǔn)確地識(shí)別和理解其附近物體之間的空間關(guān)系;另外配合非常精確的高清 (HD) 地圖來補(bǔ)充其車輛的感知系統(tǒng),可以讓汽車精確確定其位置和前方道路的布局。然而,這項(xiàng)技術(shù)的缺點(diǎn),在2022年國內(nèi)汽車市場(chǎng)成本壓力和高精地圖需要定期更新的挑戰(zhàn)下體現(xiàn)得淋漓盡致。

其實(shí)馬斯克的另一家公司 Space X 在激光雷達(dá)方面擁有豐富的知識(shí)和經(jīng)驗(yàn),他們甚至開發(fā)了自己的激光雷達(dá)并將其用于火箭。

所以特斯拉基于成本,更少約束和復(fù)雜度等原因的考慮下使用了基于視覺的occupancy networks占用神經(jīng)網(wǎng)絡(luò)算法。

Occupancy networks

占用網(wǎng)絡(luò)是一種不同的算法,基于稱為占用網(wǎng)格映射的機(jī)器人思想;其中包括將世界劃分為一個(gè)網(wǎng)格單元,然后定義哪個(gè)單元格被占用,哪個(gè)單元格空閑。

占用網(wǎng)絡(luò)的想法是獲得體積占用。這意味著它是 3D 的。它使用“占用”而不是檢測(cè)對(duì)比識(shí)別。而且是多視圖。所以這就是它的樣子:

他沒有確切的去識(shí)別物體形狀,而是給出一個(gè)近似值。同時(shí)他還可以在靜態(tài)和動(dòng)態(tài)對(duì)象之間進(jìn)行預(yù)測(cè)。它的運(yùn)行速度超過 100 FPS(一般相機(jī)的FPS是30也就是一秒鐘拍攝30幅照片,所以它比相機(jī)所能產(chǎn)生的速度高出 3 倍),能達(dá)到10ms的運(yùn)算能力,所以此算法對(duì)內(nèi)存效率的要求比較高。

這個(gè)算法的三個(gè)核心是:

·BEV鳥瞰圖

·構(gòu)建固定的立方體,也就是對(duì)環(huán)境進(jìn)行立體網(wǎng)格仿真。

·物體檢測(cè)

BEV是Andrej Karpathy在 Tesla AI Day 2020 上先介紹的,該算法展示了如何將檢測(cè)到的物體、可行駛空間和其他物體放入 2D 鳥瞰圖中。

注意到主要區(qū)別了嗎?一個(gè)是2D,另一個(gè)是3D。這給算法帶來了第二個(gè)改進(jìn):

構(gòu)建固定的立方體,一般的視覺算法是,嘗試將檢測(cè)到的物體與原有標(biāo)定的數(shù)據(jù)聯(lián)系,如果看到一輛卡車,將放置一個(gè) 7x3 的矩形,如果您看到一個(gè)行人,您將在您的占用網(wǎng)格中使用一個(gè) 1x1 的矩形。問題是,您無法預(yù)測(cè)各種非標(biāo)準(zhǔn)的懸垂類障礙物。

那怎么辦?特斯拉occupancy networks采取的方式是:

·將世界劃分為微?。ɑ虺⑿。┑牧⒎襟w或體素

·預(yù)測(cè)每個(gè)體素是空閑還是被占用

所以特斯拉occupancy networks算法,不去將識(shí)別物體分配到矩形中,而是去判斷小立方里面是不是被占用。

那么特斯拉如何檢測(cè)物體呢?視覺物體識(shí)別存在先天性的問題,它只能檢測(cè)到他標(biāo)定數(shù)據(jù)庫里面被標(biāo)定好的東西,通俗一點(diǎn)是他只能識(shí)別他認(rèn)識(shí)(數(shù)據(jù)庫里面標(biāo)注過)的東西。

如果他看到他沒有看過的東西,這就意味著他什么也沒看到。

例如上圖視覺算法由于不認(rèn)識(shí)那個(gè)車廂,所以他壓根就不顯示,就表示沒有看到。

所以特斯拉采取整套方案是:

·攝像頭周邊視頻采集-特斯拉的攝像頭,總共 8 個(gè):正面、側(cè)面、背面等形成周視的攝像頭信息。

·首先,它們被發(fā)送到由Regnets和BiFPNs組成的骨干網(wǎng),然后,注意力模塊采用位置圖像編碼并使用鍵、值和固定查詢(汽車與非汽車、公共汽車與非公共汽車、交通標(biāo)志與非交通標(biāo)志)來生成占用特征量。

·這會(huì)產(chǎn)生一個(gè)占用特征體積,然后將其與之前的體積(t-1、t-2 等)融合,以獲得4D 占用網(wǎng)格。

·最后,使用反卷積來檢索原始大小并獲得兩個(gè)輸出:Occupancy Volume和Occupancy Flow。

Occupancy Volume和Occupancy Flow就分別解決了3D世界中,長(zhǎng)寬高以及時(shí)間的維度。

關(guān)于時(shí)間,特斯拉在這里實(shí)際做的是預(yù)測(cè)光流。在計(jì)算機(jī)視覺中,光流是像素從一幀移動(dòng)到另一幀的量,有了每個(gè)體素的流動(dòng),因此有每輛車的運(yùn)動(dòng);這對(duì)于遮擋非常有幫助,但對(duì)于預(yù)測(cè)、規(guī)劃等其他問題也非常有用……

Occupancy Flow 實(shí)際上顯示了每個(gè)對(duì)象的方向:紅色:向前 - 藍(lán)色:向后 - 灰色:靜止等......(我們實(shí)際上有一個(gè)色輪代表每個(gè)可能的方向)。

以上就構(gòu)成了特斯拉的Occupancy networks。

國內(nèi)哪些廠商采用了BEV和Occupancy networks?

小鵬汽車,應(yīng)該是最早喊出進(jìn)軍城區(qū)領(lǐng)航輔助的,最早使用激光雷達(dá)加30tops算力的P5應(yīng)該是采用高精地圖方案;到了今年G9上的XNGP,應(yīng)該是開始了BEV算法。

上海車展期間

·華為余承東介紹表示華為ADS 1.0 已實(shí)現(xiàn)基于 Transformer 的 BEV 架構(gòu),而 ADS 2.0 進(jìn)一步升級(jí) GOD 網(wǎng)絡(luò),道路拓?fù)渫评砭W(wǎng)絡(luò)進(jìn)一步增強(qiáng),類似于特斯拉的占用網(wǎng)絡(luò)算法(Occupancy Networks),即使無高精地圖也能看懂路,以及紅綠燈等各種道路元素。

·理想發(fā)布了 AD Max 3.0。理想汽車自動(dòng)駕駛副總裁郎咸朋表示理想城市 NOA 背后采用的大模型算法:靜態(tài) BEV 網(wǎng)絡(luò)算法,動(dòng)態(tài) BEV 網(wǎng)絡(luò)算法以及 Occupancy 網(wǎng)絡(luò)算法,并使用 NeRF 技術(shù)增強(qiáng) Occupancy 網(wǎng)絡(luò)算法使之實(shí)現(xiàn)更高的精度和細(xì)節(jié)

·蔚來透露,今年6月開啟內(nèi)測(cè)基于BEV的算法,

·毫末智行即將在 2023 年第三季度實(shí)現(xiàn)城市 NOH 功能,預(yù)計(jì)2024年上半年落地。

·Momenta提供方案的智己也表示預(yù)計(jì)2023年年內(nèi)開啟城市領(lǐng)航輔助的公測(cè)。

所以BEV算法是2023年各個(gè)智能駕駛公司進(jìn)軍無高精地圖城市領(lǐng)航輔助的發(fā)力重點(diǎn),至于Occupancy networks,雖然很多人提到了,但國內(nèi)智能駕駛公司估計(jì)BEV都還沒有玩通,結(jié)果就被推著走向了Occupancy networks。高速領(lǐng)航輔助的時(shí)候基本上傳統(tǒng)的攝像頭識(shí)別加高精地圖就能跑通,高配一點(diǎn)的可以配上激光雷達(dá)進(jìn)行安全冗余;但是卷向城區(qū),高精地圖是個(gè)大問題,所以必須最少需要BEV算法作為環(huán)境地圖的模擬,至于占位檢測(cè)到底是通過視覺算法,還是激光雷達(dá)來做占位檢測(cè),不得而知。

那么Occupancy networks難點(diǎn)在哪里?我曾經(jīng)聽到過一個(gè)算法工程師表示,Occupancy networks等類似AI算法到github上隨意download,可以獲取非常多的算法,基本一兩個(gè)算法工程師搗鼓幾天就能搞出雛形。所以算法demo從來都不是難點(diǎn),但Occupancy networks對(duì)高速內(nèi)存以及環(huán)境方塊化構(gòu)建算力的要求,確是需要著重考慮。最后更重要的是數(shù)據(jù)訓(xùn)練集的大小。所以難的還是是整車或者功能的集成,算法的算力成本,算法運(yùn)行環(huán)境等等,這也就是為什么智能駕駛創(chuàng)業(yè)demo的很多,能落地量產(chǎn)的才是王道。

總結(jié)

智能駕駛?cè)绻?dāng)他是一個(gè)Bussiness來看,基礎(chǔ)的安全和駕駛便利性可以做成一個(gè)方案,實(shí)現(xiàn)高速領(lǐng)航也是一個(gè)方案,也就是我們常說指定ODD的智能駕駛有很多種方案,但是到了全場(chǎng)景的智能駕駛或許真的只有馬斯克的類似于ChatGPT大數(shù)據(jù)大模型的AI算法實(shí)現(xiàn)。

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-獲取參考資料方式:

1、A Look at Tesla's Occupancy Networks - thinkautonomous

2、Tesla Full Self-Driving Technical Deep Dive- Ian Greer

3、EfficientDet: Scalable and Efficient Object Detection - Mingxing Tan Ruoming Pang Quoc V. LeGoogle Research, Brain Team

4、NeRF: Neural Radiance Field in 3D Vision,Introduction and Review - Kyle (Yilin) Gao, Graduate Student Member, IEEE, Yina Gao, Hongjie He, Dening Lu, LinlinXu, Member, IEEE, Jonathan Li, Fellow, IEEE

5、Tri-Perspective View for Vision-based 3D Semantic Occupancy Prediction - Yuanhui Huang1,2,* Wenzhao Zheng1,2,* Yunpeng Zhang3Jie Zhou1,2Jiwen Lu1,2,†1Beijing National Research Center for Information Science and Technology, China2Department of Automation, Tsinghua University, China 3PhiGent Robotics

原文標(biāo)題:智能駕駛-城市領(lǐng)航輔助必備的BEV以及Occupancy networks