首頁 > 新能源汽車

特斯拉拒絕激光雷達(dá),何來的底氣?

來源:新能源汽車網(wǎng)
時間:2021-06-26 12:07:15
熱度:

特斯拉拒絕激光雷達(dá),何來的底氣?本文來源:智車科技/ 導(dǎo)讀 /其實在談到這個事情之前,我們再來回顧一下2020年11月份的時候小鵬汽車何小鵬和特斯拉的馬斯克激光雷達(dá)的路線是否適合L

本文來源:智車科技

/ 導(dǎo)讀 /

其實在談到這個事情之前,我們再來回顧一下2020年11月份的時候小鵬汽車何小鵬和特斯拉的馬斯克激光雷達(dá)的路線是否適合L3及以上的自動駕駛路線,在網(wǎng)上引起非常激烈的討論。

在自動駕駛?cè)丈像R斯克曾強(qiáng)調(diào)Lidar is lame,激光雷達(dá)是個瘸子, 他認(rèn)為激光雷達(dá)捕獲的點云數(shù)據(jù)是信息量缺失的,雖然有空間信息,但是沒有顏色,沒有圖案,靜止?fàn)顟B(tài)下無法區(qū)分動/靜態(tài)物體,也無法分辨特征類型。

自動駕駛?cè)丈弦苍杏浾呦蝰R斯克提問:激光雷達(dá)是否會在自動駕駛某個難以突破的 99.999% 節(jié)點成為一個更好的冗余方案?

然而馬斯克直接給了一個更絕情的回復(fù),他的觀點:激光雷達(dá)是fool's errand,是無用功,而同行里以激光雷達(dá)為主要感知手段的也是doomed,注定失敗。

他的理由非常簡單,因為激光雷達(dá)對于自動駕駛應(yīng)用而言是昂貴且沒有必要的,馬斯克甚至用闌尾來形容激光雷達(dá),一個闌尾就夠糟了,還帶一堆,簡直荒謬。

總結(jié)一下,馬斯克或者說特斯拉對于激光雷達(dá)的觀點可以概括為:

機(jī)械式的激光雷達(dá)丑的掉渣,價格又非常昂貴,相對于視覺方案沒有不可完全的替代性

小鵬汽車確實是公認(rèn)的特斯拉追隨者。除去主打智能化,尤其是輔助駕駛的戰(zhàn)略上類似特斯拉,小鵬汽車的產(chǎn)品端也有很多的細(xì)節(jié)和邏輯可以看到特斯拉的影子。

特斯拉的路既然被證明是走得通的,那么有選擇地跟著走其實也是一種穩(wěn)妥的戰(zhàn)略。

然而在激光雷達(dá)問題上,小鵬汽車卻隨大流了。

在這次上海車展上,小鵬P5直接給出20W電動汽車的王炸。P5竟然提供激光雷達(dá),大疆Livox為小鵬P5提供的這套激光雷達(dá),這個是大疆的首款車規(guī)級激光雷達(dá)HAP,HAP利用Livox自研的“超幀率”激光雷達(dá)探測技術(shù),可以做到針對低反射率為10%的物體(如黑色汽車)探測距離150米,橫向視場角120度,角分辨率0.16度X0.2度,點云密度等效于144線激光雷達(dá)。此外,大疆在激光雷達(dá)布局上也有不少創(chuàng)新,可以跟雙目攝像頭集成,也可以跟左右后視鏡集成。

采訪中關(guān)于搭載激光雷達(dá)的考慮,何小鵬的回復(fù)如下:

「我們跟傳統(tǒng)做第四代自動輔助駕駛的或者他們叫無人駕駛的公司不太一樣,他們是用激光雷達(dá)為核心畫激光雷達(dá)的高精地圖, 我們不一樣,我們是用視覺為核心,以視覺高精地圖為核心。因為我們覺得從趨勢來看,全球所有的路、交通燈、法規(guī)都是以人的眼睛等等角度來看一個世界去開車的,我們認(rèn)為這是最有效率、最接近真人且最便宜的,且又能夠加上激光雷達(dá)組合能夠把安全做好的事情。說實話,在最開始幾年里面我們會把安全的因數(shù)放在非常非常非常重的角度, 寧愿我硬件冗余、寧愿軟件冗余,也要把安全做好?!?/p>

小鵬汽車仍然以視覺為核心感知手段,激光雷達(dá)的作用是作為安全冗余。對于小鵬汽車以及多數(shù)企業(yè)而言,將激光雷達(dá)和相機(jī)數(shù)據(jù)做融合感知是非常有意義的事情。

ADAS進(jìn)程中傳感器的成長過程

還是經(jīng)典的自動駕駛?cè)蠹軜?gòu),感知、決策、執(zhí)行層。

感知層:主要由激光雷達(dá)、 攝像頭、高精度地圖、IMU/GPS等部分構(gòu)成,主要負(fù)責(zé)搜集車身周邊信息;

決策層:以感知信息數(shù)據(jù)為基礎(chǔ),根高算力的計中心獲取經(jīng)過優(yōu)化的駕駛決策;

執(zhí)行層:基于決策層給出的駕駛決策,對制動系統(tǒng)、發(fā)機(jī)轉(zhuǎn)向等控下達(dá)指令,負(fù)責(zé)駕駛執(zhí)行;

自動駕駛的基礎(chǔ)原理與流程在于:首先由感知層的傳感器獲取與構(gòu)建精確路況信息(包含物體建模與車輛定位等),再由感知層輸出的信息進(jìn)行決策規(guī)劃,向執(zhí)行端發(fā)出指令,

最后由執(zhí)行端對車輛行為進(jìn)行實際操控。

從L2 到L3 級別自動駕駛的升級,意味著從輔助駕駛到(有限度)無人駕駛的躍進(jìn),對于高精度建模、海量實時運算的要求指數(shù)級增長,背后的技術(shù)難度隨之大幅增長,其中關(guān)鍵環(huán)節(jié)就在于前端感知,即如何感知與構(gòu)建路況的完整模型。

要理解這些系統(tǒng),我們可以回想一下平時咱們是怎么開車的:

第一是眼睛的環(huán)境感知方面:車道的位置,前方是否有車輛行駛,紅燈和綠燈的交換,這些工作都是由超廣角、快速對焦、無級調(diào)光圈、雙目即時測距、損傷自修復(fù)的超高性能仿生攝像頭——眼睛來完成的。

更為重要的是,此仿生攝像頭自帶極強(qiáng)的人工智能處理器,自動完成圖像處理(例如剔除毛細(xì)血管的遮擋、插幀補(bǔ)全盲點像素等)、對象識別(例如紅綠燈、車道)、軌跡預(yù)測(前方的車輛即將轉(zhuǎn)彎)等功能之后,將信息上報給“上層意識”。

另外是大腦的行為決策:通過環(huán)境感知的信息來判斷車輛需要執(zhí)行的控制策略,例如前方車輛停止,需要緊急剎車等。還要提到的是,像“今天走不走高速”的路徑規(guī)劃也屬于廣義的決策功能。

還有事手腳的控制執(zhí)行:在收到大腦的決策指令后,駕駛員的神經(jīng)、四肢,以油門剎車與方向盤作為人車交互的兩大媒介,與整個汽車系統(tǒng)一起承擔(dān)車輛控制的功能。所以目前來看,AD AS系統(tǒng)中最難、最關(guān)鍵的還是感知系統(tǒng)。

感知其實就是替代人類的眼睛和耳朵,那駕駛環(huán)境中無非最重要的兩個因素,一個是這個是什么東西,第二個是這個東西的外形大小,移動速度是多少,我們在開車的時候根據(jù)看到的物體及判斷這個物體移動的速度來做對應(yīng)的判斷。

感知系統(tǒng)這么多傳感器,我們首先來看看類似人眼睛的攝像頭。

視覺處理技術(shù)

拍到什么東西,這個還不容易,現(xiàn)在手機(jī)圖像識別技術(shù)都不能用爐火純青來形容,可以是登峰造極階段了,難道在車載上面還有很大的難度?圖像識別已經(jīng)在購物、場景識別,圖片識別等各方面有應(yīng)用了。我的華為手機(jī)里面的照片,直接就可以識別出來這個是什么東西,價格是多少,在哪里可以購買。

我們先以最簡單的人臉購物識別來看這項技術(shù)流程。

人臉識別支付技術(shù)是采用通過在設(shè)備上安裝高清攝像頭,消費者在付款的時候,攝像頭對人臉進(jìn)行智能采集,提取人臉面部特征,可以對人臉的靜態(tài)面貌、動態(tài)面貌進(jìn)行不同角度的采集,從而達(dá)到識別身份的目的,具有較高的安全性和便利性。

人臉支付識別系統(tǒng)流程

1、人臉識別系統(tǒng)通過攝像機(jī)對人臉的數(shù)據(jù)進(jìn)行采集,可以智能采集各種人臉,對人臉進(jìn)行采集時候可以對人臉進(jìn)行跟蹤,確保采集到的是有效的人臉數(shù)據(jù)。

2、在對人臉的圖形進(jìn)行采集完成后,系統(tǒng)可以根據(jù)采集到的圖像,進(jìn)行處理,由于采集到的人臉受到光線、表情以及角度的影響,所以要進(jìn)行處理,通過光線補(bǔ)償、幾何校正等技術(shù),對人臉進(jìn)行修復(fù)。

3、人臉識別后進(jìn)行匹配。在采集到人臉后,系統(tǒng)會自動從數(shù)據(jù)庫里面開始檢索,檢索到匹配度最高的人臉信息,通過設(shè)置一個匹配度的值,如果對比的結(jié)果超過或者約等于這個設(shè)置的值,就對人臉信息進(jìn)行輸出,所以總體來說,匹配的依據(jù)就是根據(jù)人臉的相似值,值越高,那么匹配度就越精準(zhǔn)。

這里可以看到這里的圖像識別和我們常見的指紋識別原理基本上類似,只是指紋識別的數(shù)據(jù)庫是保存在本地(一個指紋鎖支持的指紋數(shù)量也不會超過100個,一個公司的指紋打卡機(jī)器也就是1W個左右),首先進(jìn)行人臉特征數(shù)據(jù)的加密采集存儲,當(dāng)需要購買東西的時候,進(jìn)行人臉的特征點的采集,然后進(jìn)行數(shù)據(jù)庫的相似度的對比,最終輸出對比結(jié)果。

這里幾個比較關(guān)鍵的點是,由于購物的人臉的數(shù)據(jù)量特別大,所以需要進(jìn)行云端的數(shù)據(jù)存儲,這里的特征點采集的多少,直接影響到數(shù)據(jù)運算速度的快慢,而且本身采集的時候就需要燈光,圖像都非常好的情況下才能采集保存,同時在支付的時候也需要比較好的燈光和圖像環(huán)境,有的時候還需要眨眼睛等活體檢測。

可以看到這里使用的環(huán)境都是比較良好的,采集的圖像亮度比較好,距離比較近,像素識別率也高,需要識別的物體也不多(主要是人臉)而且僅僅是做數(shù)據(jù)庫的相似度比較,對于算力的要求也是特別高,能夠快速比對出來具體的信息。

當(dāng)然如果是把所有物體的特征值全部采集都放到云端,足夠強(qiáng)的算力,通過5G傳輸能夠把結(jié)果快速反饋回來給到車機(jī)端,理論上這條道路也能走通,但是云端的數(shù)據(jù)庫要非常非常多的物體的特征值(要把世界上的絕大部分的物體特征值都存儲,萬千世界,這個庫要非常大),庫越大,對比的工作量就越大,所需要的時間就越長,而且5G傳輸返回結(jié)果也有延遲,在信號不穩(wěn)定的情況下,就沒有辦法及時獲得結(jié)果。從最初的圖像到結(jié)果的輸出,一般要求在20ms之內(nèi),這個目前的算法下基本上做不到,所以只能走單機(jī)智能的道路,其實有點類似語音識別,基本上都是本地的算法進(jìn)行識別輸出,深度學(xué)習(xí)的推理端都放在本地,訓(xùn)練放在云端。

特斯拉為什么有勇氣對激光雷達(dá)say no

視覺方案通過攝像頭,致力于解決“拍到的是什么”問題。從工作原理來看,視覺方案以攝像頭作為主要傳感器,通過收集外界反射的光線從而進(jìn)一步呈現(xiàn)出外界環(huán)境畫面,即我們所熟悉的攝像頭功能,再進(jìn)行后續(xù)圖像分割、物體分類、目標(biāo)跟蹤、世界模型、多傳感器融合、在線標(biāo)定、視覺SLAM、ISP 等一系列步驟進(jìn)行匹配與深度學(xué)習(xí),其核心環(huán)節(jié)在于物體識別與匹配,或者運用AI 自監(jiān)督學(xué)習(xí)來達(dá)到感知分析物體的目的,需要解決的是“我拍到的東西是什么”的問題。

要解釋特斯拉的視覺系統(tǒng)怎么能做到這么牛掰,就得先看看現(xiàn)在各大機(jī)構(gòu)詬病的視覺方案有哪些局限性,針對這些局限性,特斯拉是怎么解決的。

1、精度問題 & 視野問題

測距精度低且依賴項較多,算法固定的情況下只能通過增大焦距或雙目鏡頭間的基線距來提高精度,但焦距增加導(dǎo)致視場角變小,基線距增加導(dǎo)致能看到的最近距離變遠(yuǎn)。

雙目系統(tǒng)最多能覆蓋目標(biāo)方向60度的視野,而激光雷達(dá)基本上都是360度。

其實這個問題在單個攝像頭的時候確實是一個問題,角度變大,那么距離必然變小,如果測距要遠(yuǎn),可視的FOV角度又變小,影響到周圍環(huán)境物體的判斷,是一個魚和熊掌不可兼得的問題,俗話說的好,小朋友才做選擇題,像特斯拉這樣的彪漢是距離遠(yuǎn)&角度大 兩個問題全都要解決。

特斯拉就是一個鋼鐵直男,既不選擇單目,也不選擇雙目,前視攝像頭直接就選擇三目攝像頭。

這個三目攝像頭安裝于擋風(fēng)玻璃后,由3個組成:前視寬視野、主視野、窄視野攝像頭。

寬視野:大角度魚眼鏡頭能夠拍攝到交通信號燈、行駛路徑上的障礙物和距離較近的物體,非常適用于城市街道、低速緩行的交通場景。最大監(jiān)測距離 60 米。

主視野:覆蓋大部分交通場景,最大監(jiān)測距離 150 米。

窄視野:能夠清晰地拍攝到遠(yuǎn)距離物體,適用于高速行駛的交通場景。最大監(jiān)測距離250米。

通過這個三目攝像頭,鋼鐵直男把魚和熊掌不可兼得的問題解決了,既有寬FOV角度的攝像頭,像十字路路況比較復(fù)雜的路況就需要寬角度,高速路上需要有遠(yuǎn)距離的攝像頭,一起解決了這個問題。

2、雙目測距精度與標(biāo)定有關(guān)且強(qiáng)相關(guān),但是裝在車上機(jī)械結(jié)構(gòu)穩(wěn)定性差,面臨著隔段時間就得標(biāo)定的問題,同時識別道路和交通標(biāo)示比較困難。

其實這里就是測量距離的穩(wěn)定性問題,視覺方案距離檢測難度大。自動駕駛的路徑規(guī)劃需要3D 的道路信息和3D 的障礙物,而基于攝像頭收集到的僅是2D 數(shù)據(jù),因而要求分析2D 圖像的每個像素,將其還原成真實的3D 場景,其背后需要先進(jìn)的圖像處理算法以及高算力硬件,并且可能誤差較大。

雙目視覺是通過對兩幅圖像視差的計算,直接對前方景物(圖像所拍攝到的范圍)進(jìn)行距離測量,而無需判斷前方出現(xiàn)的是什么類型的障礙物。所以對于任何類型的障礙物,都能根據(jù)距離信息的變化,進(jìn)行必要的預(yù)警或制動。雙目視覺的原理與人眼類似,利用雙目三角測距的原理,能非常精準(zhǔn)的測量物體的距離。

特斯拉利用三目攝像頭可以很好的解決單目攝像頭測距精準(zhǔn)度不高的問題,而且固定的機(jī)械位置選擇合理,這部分就能解決穩(wěn)定性的問題,省去隔段時間就需要標(biāo)定的問題,當(dāng)然也可以通過軟件算法進(jìn)行遠(yuǎn)程標(biāo)定,這個就是考驗每家廠家的算法功力的時候了。

再來解決識別道路和交通標(biāo)示的問題,其實這個是通過攝像頭安裝的角度問題來解決這個問題。

采用三組相機(jī)同步成像,GPS授時授地理位置,不同安裝傾角,不同焦距

短焦與長焦相機(jī)分距離識別信號燈,限速牌,道路標(biāo)示等交通信號

這樣做的好處是既能提取近處高視角的交通標(biāo)示,也能使遠(yuǎn)處交通標(biāo)示成像足夠大,在20年4月份的時候特斯拉就在美國推出了FSD方案,解決了自動識別交通信號燈和停車標(biāo)志,技術(shù)上是比較容易解決的問題。

通過這個三目攝像頭,可以做很多ADAS的功能。

像自動緊急剎車(AEB)、車道偏離預(yù)警(LDW)、車道保持(LKA)、行人警示(PCW)、自動泊車(AP)、交通標(biāo)志識別(TSR)、交通信號燈識別(TLR)等都需要建立在圖像識別的基礎(chǔ)上,進(jìn)而實現(xiàn)車道線障礙物以及行人檢測的ADAS功能,都可以通過這個三目攝像頭來實現(xiàn)。

2、軟件算法難度的問題

視覺方案重在分類,但樣本有限度限制了視覺識別正確性,而優(yōu)化樣本對于AI 學(xué)習(xí)能力、樣本數(shù)據(jù)量要求極高。

視覺的測距原理是先通過圖像匹配進(jìn)行目標(biāo)識別,識別行人、物體、車型等。再通過目標(biāo)在圖像中的大小去估算目標(biāo)距離。由于L3 級及以上自動駕駛需要機(jī)器應(yīng)對較為復(fù)雜的路況,要求車輛對于道路狀況有精準(zhǔn)識別能力,而視覺技術(shù)需要解決的是“攝像頭拍到的是什么物體”的問題,因而對于神經(jīng)網(wǎng)絡(luò)訓(xùn)練集要求很高。

對于訓(xùn)練的方法,一種為通過機(jī)器視覺,人為設(shè)定好識別樣本,通過收集到的數(shù)據(jù)直接與樣本匹配來識別的方式,但是能否成功辨別物體高度依賴樣本的訓(xùn)練,樣本未覆蓋的物體將難以辨別;首先需要建立并不斷維護(hù)一個龐大的樣本特征數(shù)據(jù)庫,保證這個數(shù)據(jù)庫包含待識別目標(biāo)的全部特征數(shù)據(jù)。比如在一些特殊地區(qū),為了專門檢測大型動物,必須先行建立大型動物的數(shù)據(jù)庫;而對于另外某些區(qū)域存在一些非常規(guī)車型,也要先將這些車型的特征數(shù)據(jù)加入到數(shù)據(jù)庫中。如果缺乏識別目標(biāo)的特征,就會導(dǎo)致系統(tǒng)無法對車型、物體、障礙物進(jìn)行識別,從而也就無法準(zhǔn)確估算這些目標(biāo)的距離,導(dǎo)致ADAS 系統(tǒng)的漏報。

另一種為AI 學(xué)習(xí),能夠通過自學(xué)習(xí)的方式擺脫樣本限制,但是對于算法與算力要求很高,并且其學(xué)習(xí)過程是個“黑盒子”,輸出結(jié)果的過程未知,因而難以人為調(diào)試與糾錯。

其實這個算法難度問題才是視覺方案中最難解決的問題,沒有金剛轉(zhuǎn)不攬瓷器活,太多的視覺方案廠家到這里就基本上就放棄了。我們看看鋼鐵直男特斯拉怎么解決這個問題的。

特斯拉的視覺方案具有很高的算法與算力復(fù)雜度。特斯拉曾公布過自己數(shù)據(jù)流自動化計劃的終極目標(biāo)“OPERATION VACATION”,從數(shù)據(jù)收集、訓(xùn)練、評估、算力平臺到“影子模式”形成數(shù)據(jù)采集與學(xué)習(xí)循環(huán)。

數(shù)據(jù)收集:通過8 個攝像頭對車體周圍進(jìn)行無死角圖像采集;

數(shù)據(jù)訓(xùn)練:使用PyTorch 進(jìn)行網(wǎng)絡(luò)訓(xùn)練,特斯拉的網(wǎng)絡(luò)訓(xùn)練包含48 個不同的神經(jīng)網(wǎng)絡(luò),能輸出1000 個不同的預(yù)測張量。其背后訓(xùn)練量巨大,特斯拉已耗費70000 GPU 小時進(jìn)行深度學(xué)習(xí)模型訓(xùn)練;

背后算力支持:特斯拉自研打造了FSD 芯片,具有單片144TOPS 的高算力值。另外,特斯拉規(guī)劃創(chuàng)造Dojo 超級計算機(jī),可在云端對大量視頻進(jìn)行無監(jiān)督學(xué)習(xí)訓(xùn)練,目前距離開發(fā)出來的進(jìn)度非常值得期待;

影子模式:特斯拉通過獨創(chuàng)“影子模式”來降低樣本訓(xùn)練成本、提高識別準(zhǔn)確度,即特斯拉持續(xù)收集外部環(huán)境與駕駛者的行為,并與自身策略對比,如果駕駛者實際操作與自身判斷有出入,當(dāng)下數(shù)據(jù)就會上傳至特斯拉云端,并對算法進(jìn)行修正訓(xùn)練。

從數(shù)據(jù)采集,本地芯片硬件處理、圖像的軟件算法處理、再到后臺的超級計算機(jī)進(jìn)行訓(xùn)練,這個需要一系列的技術(shù)支持,最好從芯片、操作系統(tǒng)、算法、控制器都是自研,這樣才能把芯片的性能發(fā)揮最佳,從Mobileye的黑盒子開發(fā)模式,直接就讓車廠徹底放棄了這條純視覺處理的道路,不投入幾千億估計門都摸不著方向,所以目前只有特斯拉這樣的理工男對于激光雷達(dá)有勇氣say no,主要是特斯拉可以軟硬件一體化調(diào)試,加上有海量的跑路視覺數(shù)據(jù),云端的Dojo超級計算機(jī)大數(shù)據(jù)算法,這些都讓其他廠商無法復(fù)制特斯拉的模式。

參考資料:

1、小鵬「吃了幾碗涼粉」,激光雷達(dá)是對是錯?

2、車載傳感器技術(shù)和產(chǎn)業(yè)鏈?zhǔn)崂?自動駕駛加速滲透

- End -