首頁 > 新能源汽車

一文看懂BEVFormer技術(shù)及其背后價值

來源:新能源汽車網(wǎng)
時間:2023-05-16 11:01:34
熱度:

一文看懂BEVFormer技術(shù)及其背后價值從時間維度上看,BEVFormer已是歷史產(chǎn)物,或許幾個月、最多一兩年后,一個真正的“王炸”會出現(xiàn)。作者|汽車人參

從時間維度上看,BEVFormer已是歷史產(chǎn)物,或許幾個月、最多一兩年后,一個真正的“王炸”會出現(xiàn)。

作者|汽車人參考

2021年7月,特斯拉展示了基于BEV+Transformer(BEVFormer)的自動駕駛感知新范式,在取得了驚艷的效果后,國內(nèi)也掀起“跟風(fēng)潮”。

近期,理想、蔚來、小鵬、小馬智行、百度等多家主流車企、自動駕駛方案解決商推出相關(guān)量產(chǎn)方案。

一時間,BEV越發(fā)“火”了起來。

這背后邏輯也很好理解。一方面,BEV技術(shù)已經(jīng)日漸成熟,從預(yù)研階段基本走到了量產(chǎn)落地階段;另外一方面,今年可能會是從高速NOA走向城區(qū)NOA量產(chǎn)的元年,在更加復(fù)雜的智駕場景下,BEV所帶來的優(yōu)勢能更好地得到體現(xiàn)。

與此同時,在智能駕駛商業(yè)化進(jìn)展不及預(yù)期的大背景下,BEV也可以作為相關(guān)企業(yè)難得的“技術(shù)賣點(diǎn)”。

因此,在這個時間節(jié)點(diǎn),我們試圖按照What-Why-Who-How的邏輯,對BEV+Transformer技術(shù)本身,以及背后的商業(yè)價值可能性進(jìn)行探討。

01

What:什么是BEV+Transformer

首先解決技術(shù)概念問題。

BEV(Bird's-eye-view),即鳥瞰圖視角,是自動駕駛跨攝像頭和多模態(tài)融合背景下的一種視角表達(dá)形式。

它的核心思想,是將傳統(tǒng)自動駕駛2D圖像視角(Image View)加測距的感知方式,轉(zhuǎn)換為在鳥瞰圖視角下的3D感知。

從實(shí)現(xiàn)任務(wù)來說,BEV的核心是將2D圖像作為輸入,最終輸出一個3D的框架,在這個過程中,如何將不同傳感器的特征(feature)實(shí)現(xiàn)最優(yōu)表達(dá)是難點(diǎn)。

目前行業(yè)有兩種常見的方式,一種是正向思維,采用自底向上、從2D到3D的方式,先在2D視角去每個像素的深度,再通過內(nèi)外參投影到BEV空間,通過多視角的融合生成BEV特征,但對深度的估計一直都是難點(diǎn)。

另一種方法是逆向思維,采用自頂向下、從3D到2D的方式,先在BEV空間初始化特征,在通過多層transformer與每個圖像特征進(jìn)行交互融合,最終再得到BEV特征。

在第二種方法中,因?yàn)門ransformer的存在,使得“逆向思維”成為了可能。

Transformer是一種基于注意力機(jī)制(Attention)的神經(jīng)網(wǎng)絡(luò)模型,由Google在2017年提出。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)RNN和CNN不同,Transformer不會按照串行順序來處理數(shù)據(jù),而是通過注意力機(jī)制,去挖掘序列中不同元素的聯(lián)系及相關(guān)性,這種機(jī)制背后,使得Transformer可以適應(yīng)不同長度和不同結(jié)構(gòu)的輸入。

Transformer問世后,先在自然語言處理NLP領(lǐng)域大放異彩,之后被逐步移植到計算機(jī)視覺任務(wù)上,也取得了驚人的效果,實(shí)現(xiàn)了NLP和CV在建模結(jié)構(gòu)上的大一統(tǒng),使視覺和語言的聯(lián)合建模更容易,兩個領(lǐng)域的建模和學(xué)習(xí)經(jīng)驗(yàn)可以通過深度共享,也加快各自領(lǐng)域進(jìn)展。

   首頁   下一頁   上一頁   尾頁