智能駕駛：城市領(lǐng)航輔助必備的BEV以及Occupancy networks

來源：新能源汽車網(wǎng)

時(shí)間：2023-06-05 17:01:30

熱度：

智能駕駛：城市領(lǐng)航輔助必備的BEV以及Occupancy networks最近馬斯克到訪國內(nèi)，接待規(guī)格可謂不一般，其中到訪了工信部討論了“新能源汽車和智能網(wǎng)聯(lián)汽車的發(fā)展

最近馬斯克到訪國內(nèi)，接待規(guī)格可謂不一般，其中到訪了工信部討論了“新能源汽車和智能網(wǎng)聯(lián)汽車的發(fā)展”，這個(gè)信息，很多人猜測(cè)是為特斯拉的FSD落地國內(nèi)進(jìn)行鋪路，國內(nèi)也歡迎FSD智能駕駛鯰魚效應(yīng)，激活市場(chǎng)熱情，助力國內(nèi)智能駕駛的發(fā)展。

談起智能駕駛，在Waymo和通用super cruise以及國內(nèi)V2X風(fēng)潮的帶領(lǐng)下，國內(nèi)智能駕駛開始選擇的路徑就是這條復(fù)雜但是更容易落地的高精地圖+視覺識(shí)別的路線。但是，隨著整車成本的壓力，高精地圖維護(hù)成本以及政策的問題，這條路線走到城市領(lǐng)航輔助就卡住了。

而特斯拉自始自終選擇的是基于視覺的單車智能方案，他背后的邏輯是大數(shù)據(jù)+AI算法的方式，并且不斷迭代算法，目前的算法是基于AI transformer的BEV(Bird-Eye-View Networks)以及occupancy networks，也是我之前文章《2023上海國際車展-智能電動(dòng)4點(diǎn)觀察》講到國內(nèi)各家走向趨同的路線。

所以本文將參考相關(guān)文章，極簡(jiǎn)的介紹下智能駕駛BEV(Bird-Eye-View Networks)以及occupancy networks算法和方案,以及國內(nèi)各家的現(xiàn)狀。

基于傳統(tǒng)視覺智能駕駛算法的問題

智能駕駛?cè)缥抑拔恼隆兑曈X為王-小鵬以及特斯拉的自動(dòng)駕駛方案》介紹是當(dāng)前智能駕駛依賴得主流，但是基于攝像頭視覺的系統(tǒng)有很多缺陷，而且還有很多由于對(duì)象檢測(cè)失敗或其他問題引起的崩潰，這個(gè)在我之前文章《智能駕駛要用多少個(gè)激光雷達(dá)？分別放在哪里？什么作用？》也分析過。

一般攝像頭算法是看到物體，然后匹配自己數(shù)據(jù)庫里面標(biāo)記的物體，但是如果攝像頭看到不屬于數(shù)據(jù)集中已經(jīng)標(biāo)定的對(duì)象，也就是遇到不認(rèn)識(shí)的東西怎么辦？所以這就是造成各種事故的根本原因。

另外在現(xiàn)實(shí)中，傳統(tǒng)視覺算法：

·視覺的深度信息非常的不一致

·無法穿過前面的障礙物

·圖像一般都是2D的但是真實(shí)的世界是3D

·無法識(shí)別懸空的障礙物

·可能存在本體的裂紋，將物體局部誤識(shí)別。

但在基于 LiDAR 激光雷達(dá)傳感器系統(tǒng)中，由于激光雷達(dá)主動(dòng)收發(fā)光所以他可以從物理上確定障礙物是否存在，確定了障礙物就可以保障不碰撞的安全。

那為什么特斯拉不用激光雷達(dá)？

激光雷達(dá)能夠?qū)崿F(xiàn)各種環(huán)境下的三維感知和定位功能，激光雷達(dá)通過發(fā)射激光束并創(chuàng)建點(diǎn)云地圖來測(cè)量汽車與其周圍環(huán)境之間的距離；該地圖與攝像頭視覺相結(jié)合，使車輛能夠更準(zhǔn)確地識(shí)別和理解其附近物體之間的空間關(guān)系；另外配合非常精確的高清 (HD) 地圖來補(bǔ)充其車輛的感知系統(tǒng)，可以讓汽車精確確定其位置和前方道路的布局。然而，這項(xiàng)技術(shù)的缺點(diǎn)，在2022年國內(nèi)汽車市場(chǎng)成本壓力和高精地圖需要定期更新的挑戰(zhàn)下體現(xiàn)得淋漓盡致。

其實(shí)馬斯克的另一家公司 Space X 在激光雷達(dá)方面擁有豐富的知識(shí)和經(jīng)驗(yàn)，他們甚至開發(fā)了自己的激光雷達(dá)并將其用于火箭。

所以特斯拉基于成本，更少約束和復(fù)雜度等原因的考慮下使用了基于視覺的occupancy networks占用神經(jīng)網(wǎng)絡(luò)算法。

Occupancy networks

占用網(wǎng)絡(luò)是一種不同的算法，基于稱為占用網(wǎng)格映射的機(jī)器人思想；其中包括將世界劃分為一個(gè)網(wǎng)格單元，然后定義哪個(gè)單元格被占用，哪個(gè)單元格空閑。

占用網(wǎng)絡(luò)的想法是獲得體積占用。這意味著它是 3D 的。它使用“占用”而不是檢測(cè)對(duì)比識(shí)別。而且是多視圖。所以這就是它的樣子：

他沒有確切的去識(shí)別物體形狀，而是給出一個(gè)近似值。同時(shí)他還可以在靜態(tài)和動(dòng)態(tài)對(duì)象之間進(jìn)行預(yù)測(cè)。它的運(yùn)行速度超過 100 FPS（一般相機(jī)的FPS是30也就是一秒鐘拍攝30幅照片，所以它比相機(jī)所能產(chǎn)生的速度高出 3 倍），能達(dá)到10ms的運(yùn)算能力，所以此算法對(duì)內(nèi)存效率的要求比較高。

這個(gè)算法的三個(gè)核心是：

·BEV鳥瞰圖

·構(gòu)建固定的立方體，也就是對(duì)環(huán)境進(jìn)行立體網(wǎng)格仿真。

·物體檢測(cè)

BEV是Andrej Karpathy在 Tesla AI Day 2020 上先介紹的，該算法展示了如何將檢測(cè)到的物體、可行駛空間和其他物體放入 2D 鳥瞰圖中。

注意到主要區(qū)別了嗎？一個(gè)是2D，另一個(gè)是3D。這給算法帶來了第二個(gè)改進(jìn)：

構(gòu)建固定的立方體，一般的視覺算法是，嘗試將檢測(cè)到的物體與原有標(biāo)定的數(shù)據(jù)聯(lián)系，如果看到一輛卡車，將放置一個(gè) 7x3 的矩形，如果您看到一個(gè)行人，您將在您的占用網(wǎng)格中使用一個(gè) 1x1 的矩形。問題是，您無法預(yù)測(cè)各種非標(biāo)準(zhǔn)的懸垂類障礙物。

那怎么辦？特斯拉occupancy networks采取的方式是：

·將世界劃分為微?。ɑ虺⑿。┑牧⒎襟w或體素

·預(yù)測(cè)每個(gè)體素是空閑還是被占用

所以特斯拉occupancy networks算法，不去將識(shí)別物體分配到矩形中，而是去判斷小立方里面是不是被占用。

那么特斯拉如何檢測(cè)物體呢？視覺物體識(shí)別存在先天性的問題，它只能檢測(cè)到他標(biāo)定數(shù)據(jù)庫里面被標(biāo)定好的東西，通俗一點(diǎn)是他只能識(shí)別他認(rèn)識(shí)（數(shù)據(jù)庫里面標(biāo)注過）的東西。

如果他看到他沒有看過的東西，這就意味著他什么也沒看到。

例如上圖視覺算法由于不認(rèn)識(shí)那個(gè)車廂，所以他壓根就不顯示，就表示沒有看到。

所以特斯拉采取整套方案是：

·攝像頭周邊視頻采集-特斯拉的攝像頭，總共 8 個(gè)：正面、側(cè)面、背面等形成周視的攝像頭信息。

·首先，它們被發(fā)送到由Regnets和BiFPNs組成的骨干網(wǎng)，然后，注意力模塊采用位置圖像編碼并使用鍵、值和固定查詢（汽車與非汽車、公共汽車與非公共汽車、交通標(biāo)志與非交通標(biāo)志）來生成占用特征量。

·這會(huì)產(chǎn)生一個(gè)占用特征體積，然后將其與之前的體積（t-1、t-2 等）融合，以獲得4D 占用網(wǎng)格。

·最后，使用反卷積來檢索原始大小并獲得兩個(gè)輸出：Occupancy Volume和Occupancy Flow。

Occupancy Volume和Occupancy Flow就分別解決了3D世界中，長(zhǎng)寬高以及時(shí)間的維度。

關(guān)于時(shí)間，特斯拉在這里實(shí)際做的是預(yù)測(cè)光流。在計(jì)算機(jī)視覺中，光流是像素從一幀移動(dòng)到另一幀的量，有了每個(gè)體素的流動(dòng)，因此有每輛車的運(yùn)動(dòng)；這對(duì)于遮擋非常有幫助，但對(duì)于預(yù)測(cè)、規(guī)劃等其他問題也非常有用……

Occupancy Flow 實(shí)際上顯示了每個(gè)對(duì)象的方向：紅色：向前 - 藍(lán)色：向后 - 灰色：靜止等......（我們實(shí)際上有一個(gè)色輪代表每個(gè)可能的方向）。

以上就構(gòu)成了特斯拉的Occupancy networks。

國內(nèi)哪些廠商采用了BEV和Occupancy networks？

小鵬汽車，應(yīng)該是最早喊出進(jìn)軍城區(qū)領(lǐng)航輔助的，最早使用激光雷達(dá)加30tops算力的P5應(yīng)該是采用高精地圖方案；到了今年G9上的XNGP，應(yīng)該是開始了BEV算法。

上海車展期間

·華為余承東介紹表示華為ADS 1.0 已實(shí)現(xiàn)基于 Transformer 的 BEV 架構(gòu)，而 ADS 2.0 進(jìn)一步升級(jí) GOD 網(wǎng)絡(luò)，道路拓?fù)渫评砭W(wǎng)絡(luò)進(jìn)一步增強(qiáng)，類似于特斯拉的占用網(wǎng)絡(luò)算法（Occupancy Networks），即使無高精地圖也能看懂路，以及紅綠燈等各種道路元素。

·理想發(fā)布了 AD Max 3.0。理想汽車自動(dòng)駕駛副總裁郎咸朋表示理想城市 NOA 背后采用的大模型算法：靜態(tài) BEV 網(wǎng)絡(luò)算法，動(dòng)態(tài) BEV 網(wǎng)絡(luò)算法以及 Occupancy 網(wǎng)絡(luò)算法，并使用 NeRF 技術(shù)增強(qiáng) Occupancy 網(wǎng)絡(luò)算法使之實(shí)現(xiàn)更高的精度和細(xì)節(jié)

·蔚來透露，今年6月開啟內(nèi)測(cè)基于BEV的算法，

·毫末智行即將在 2023 年第三季度實(shí)現(xiàn)城市 NOH 功能，預(yù)計(jì)2024年上半年落地。

·Momenta提供方案的智己也表示預(yù)計(jì)2023年年內(nèi)開啟城市領(lǐng)航輔助的公測(cè)。

所以BEV算法是2023年各個(gè)智能駕駛公司進(jìn)軍無高精地圖城市領(lǐng)航輔助的發(fā)力重點(diǎn)，至于Occupancy networks，雖然很多人提到了，但國內(nèi)智能駕駛公司估計(jì)BEV都還沒有玩通，結(jié)果就被推著走向了Occupancy networks。高速領(lǐng)航輔助的時(shí)候基本上傳統(tǒng)的攝像頭識(shí)別加高精地圖就能跑通，高配一點(diǎn)的可以配上激光雷達(dá)進(jìn)行安全冗余；但是卷向城區(qū)，高精地圖是個(gè)大問題，所以必須最少需要BEV算法作為環(huán)境地圖的模擬，至于占位檢測(cè)到底是通過視覺算法，還是激光雷達(dá)來做占位檢測(cè)，不得而知。

那么Occupancy networks難點(diǎn)在哪里？我曾經(jīng)聽到過一個(gè)算法工程師表示，Occupancy networks等類似AI算法到github上隨意download，可以獲取非常多的算法，基本一兩個(gè)算法工程師搗鼓幾天就能搞出雛形。所以算法demo從來都不是難點(diǎn)，但Occupancy networks對(duì)高速內(nèi)存以及環(huán)境方塊化構(gòu)建算力的要求，確是需要著重考慮。最后更重要的是數(shù)據(jù)訓(xùn)練集的大小。所以難的還是是整車或者功能的集成，算法的算力成本，算法運(yùn)行環(huán)境等等，這也就是為什么智能駕駛創(chuàng)業(yè)demo的很多，能落地量產(chǎn)的才是王道。

總結(jié)

智能駕駛?cè)绻?dāng)他是一個(gè)Bussiness來看，基礎(chǔ)的安全和駕駛便利性可以做成一個(gè)方案，實(shí)現(xiàn)高速領(lǐng)航也是一個(gè)方案，也就是我們常說指定ODD的智能駕駛有很多種方案，但是到了全場(chǎng)景的智能駕駛或許真的只有馬斯克的類似于ChatGPT大數(shù)據(jù)大模型的AI算法實(shí)現(xiàn)。

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-獲取參考資料方式：

1、A Look at Tesla's Occupancy Networks - thinkautonomous

2、Tesla Full Self-Driving Technical Deep Dive- Ian Greer

3、EfficientDet: Scalable and Efficient Object Detection - Mingxing Tan Ruoming Pang Quoc V. LeGoogle Research, Brain Team

4、NeRF: Neural Radiance Field in 3D Vision,Introduction and Review - Kyle (Yilin) Gao, Graduate Student Member, IEEE, Yina Gao, Hongjie He, Dening Lu, LinlinXu, Member, IEEE, Jonathan Li, Fellow, IEEE

5、Tri-Perspective View for Vision-based 3D Semantic Occupancy Prediction - Yuanhui Huang1,2,* Wenzhao Zheng1,2,* Yunpeng Zhang3Jie Zhou1,2Jiwen Lu1,2,†1Beijing National Research Center for Information Science and Technology, China2Department of Automation, Tsinghua University, China 3PhiGent Robotics

原文標(biāo)題:智能駕駛-城市領(lǐng)航輔助必備的BEV以及Occupancy networks

熱門標(biāo)簽：算法特斯拉新能源汽車智能新能源汽車技術(shù)標(biāo)準(zhǔn)

免責(zé)聲明：此資訊系轉(zhuǎn)載自互聯(lián)網(wǎng)其它網(wǎng)站，全球新能源網(wǎng)登載此文出于傳遞更多信息之目的，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，文章內(nèi)容僅供參考。如涉及作品內(nèi)容、版權(quán)等問題，請(qǐng)?jiān)?0工作日內(nèi)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間處理！

上一篇：爆了爆了，理想汽車一季報(bào)再次大超預(yù)期

下一篇：綠源電動(dòng)車二沖港交所：一輛車才凈賺45塊