首頁(yè) > 新能源汽車

端到端大模型來襲,自動(dòng)駕駛的最優(yōu)解?

來源:新能源汽車網(wǎng)
時(shí)間:2023-07-07 14:17:55
熱度:

端到端大模型來襲,自動(dòng)駕駛的最優(yōu)解?本文來源:智車科技最近,人工智能領(lǐng)域最火的莫過于大模型了。由美國(guó)初創(chuàng)企業(yè)OpenAI開發(fā)的聊天應(yīng)用ChatGPT引爆市場(chǎng),生成式AI成為科技市場(chǎng)

本文來源:智車科技

最近,人工智能領(lǐng)域最火的莫過于大模型了。

由美國(guó)初創(chuàng)企業(yè)OpenAI開發(fā)的聊天應(yīng)用ChatGPT引爆市場(chǎng),生成式AI成為科技市場(chǎng)熱點(diǎn),ChatGPT背后是深度學(xué)習(xí)大模型,其理解和生成文字的能力超過以往AI產(chǎn)品。全球主要云計(jì)算公司例如亞馬遜等都加入其中,爭(zhēng)奪算力、開發(fā)和銷售大模型,云計(jì)算市場(chǎng)迎來新一輪競(jìng)爭(zhēng)熱潮,覆蓋AI計(jì)算所需的算力、算法、數(shù)據(jù)各層面。

在自動(dòng)駕駛方面,今年的CVPR上,拿到best paper的自動(dòng)駕駛領(lǐng)域論文,更是將端到端與大模型結(jié)合,將該領(lǐng)域推向了高潮。事實(shí)上,“端到端”是深度學(xué)習(xí)中的概念,英文為“End-to-End(E2E)”,指的是一個(gè)AI模型,只要輸入原始數(shù)據(jù)就可以輸出最終結(jié)果。

而隱藏在大模型背后的,便是人工智能領(lǐng)域的基石——深度強(qiáng)化學(xué)習(xí)技術(shù)。深度強(qiáng)化學(xué)習(xí)對(duì)于現(xiàn)階段的科技工作者來說可能并不陌生,作為21世紀(jì)最為前沿領(lǐng)先的技術(shù)之一,深度強(qiáng)化學(xué)習(xí)早已在多個(gè)領(lǐng)域發(fā)揮了其不可替代的作用。例如前幾年大火的AlphaGo戰(zhàn)勝了一眾圍棋世界冠軍,又比如游戲界DeepMind 研發(fā)的 AlphaStar 在《星際爭(zhēng)霸2》中一戰(zhàn)封神等等,火熱的強(qiáng)人工智能加速了人們對(duì)于未來科技飛速發(fā)展的信心,而基于強(qiáng)化學(xué)習(xí)的方法更讓人們看到了人工智能超越人類知識(shí)的可能。

如此前沿的技術(shù)必然在前沿的領(lǐng)域發(fā)揮舉足輕重的作用,在自動(dòng)駕駛領(lǐng)域,深度強(qiáng)化學(xué)習(xí)已然走出了自己特有的道路,并吸引一位又一位研究人員、企業(yè)對(duì)其展開探索,試圖將這一人類能完成的最高智慧應(yīng)用于未來的日常出行中。

01什么是深度強(qiáng)化學(xué)習(xí)?

對(duì)于不太了解人工智能的小白來說,對(duì)深度強(qiáng)化學(xué)習(xí)這一名詞的概念可能比較陌生,正式的定義為深度強(qiáng)化學(xué)習(xí)是將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,可以直接根據(jù)輸入的圖像進(jìn)行控制,是一種更接近人類思維方式的人工智能方法。

而作為兩大學(xué)習(xí)方法的疊加,深度強(qiáng)化學(xué)習(xí)包含了兩種方法的特征與優(yōu)勢(shì)。深度學(xué)習(xí)具有較強(qiáng)的感知能力,但是缺乏一定的決策能力;而強(qiáng)化學(xué)習(xí)具有決策能力,對(duì)感知問題束手無策。因此,將兩者結(jié)合起來,優(yōu)勢(shì)互補(bǔ),為復(fù)雜系統(tǒng)的感知決策問題提供了解決思路。更進(jìn)一步來說,強(qiáng)化學(xué)習(xí)是一種典型的序貫決策方式,智能體通過與環(huán)境的交互獲得反饋,在嘗試和試錯(cuò)中不斷進(jìn)步。而深度強(qiáng)化學(xué)習(xí)綜合了深度學(xué)習(xí)對(duì)高維數(shù)據(jù)的抽象感知能力與強(qiáng)化學(xué)習(xí)優(yōu)秀的決策能力,能夠處理更高維度的輸入與輸出數(shù)據(jù)。

近年來,深度強(qiáng)化學(xué)習(xí)算法已在許多領(lǐng)域都取得了令人震撼的成就。2016年,基于深度 Q 網(wǎng)絡(luò)(Deep Q Network,DQN)和蒙特卡洛樹搜索算法的圍棋程序“AlphaGo”以4:1戰(zhàn)勝世界冠軍李世乭,轟動(dòng)了世界,使得深度強(qiáng)化學(xué)習(xí)成為了人工智能領(lǐng)域研究的新風(fēng)向。

近些年來深度強(qiáng)化學(xué)習(xí)算法取得的令人振奮的成果鼓勵(lì)了工業(yè)界和學(xué)術(shù)界進(jìn)一步深入研究深度強(qiáng)化學(xué)習(xí)算法及其應(yīng)用。學(xué)者們將深度強(qiáng)化學(xué)習(xí)算法應(yīng)用在機(jī)器人控制、樓宇空調(diào)系統(tǒng)控制、匝道控制等領(lǐng)域中,在汽車和智能交通等領(lǐng)域,深度強(qiáng)化學(xué)習(xí)也在車道保持、超車決策、主動(dòng)制動(dòng)、能量管理、交通流調(diào)度等方面得到了應(yīng)用。

02

深度強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域的應(yīng)用

機(jī)器學(xué)習(xí)是指計(jì)算機(jī)程序通過已知經(jīng)驗(yàn)數(shù)據(jù)中進(jìn)行訓(xùn)練,通過迭代訓(xùn)練以提高其在指定任務(wù)上預(yù)測(cè)準(zhǔn)確性的過程。機(jī)器學(xué)習(xí)算法通常分為三大類流派,分別是監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)?(RL)。

監(jiān)督學(xué)習(xí)算法基于歸納推理,通常需要使用有標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練,以執(zhí)行分類或回歸,而無監(jiān)督學(xué)習(xí)一般應(yīng)用于未標(biāo)記數(shù)據(jù)的密度估計(jì)或聚類等技術(shù)。相比之下強(qiáng)化學(xué)習(xí)比較自成一派,其通過與環(huán)境交互來提高其在指定任務(wù)上的性能,與監(jiān)督和非監(jiān)督學(xué)習(xí)使用損失函數(shù)進(jìn)行迭代訓(xùn)練的方式不同,強(qiáng)化學(xué)習(xí)一般使用獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練,比如OpenAI與王者榮耀的絕悟AI都屬于強(qiáng)化學(xué)習(xí)的范疇,一般在電競(jìng)、機(jī)器人等方向上應(yīng)用較多。

根據(jù)各類機(jī)器學(xué)習(xí)算法的特點(diǎn),可以看出在“場(chǎng)景理解”的相關(guān)任務(wù)中,使用監(jiān)督學(xué)習(xí)算法比較合適,而在“決策與規(guī)劃”任務(wù)中,又非強(qiáng)化學(xué)習(xí)算法莫屬。而深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL)兼具了深度學(xué)習(xí)對(duì)高維輸入的處理能力與強(qiáng)化學(xué)習(xí)的決策能力,能夠?qū)崿F(xiàn)由高維的感知信息到連續(xù)動(dòng)作空間輸出的直接映射,非常適合處理環(huán)境復(fù)雜、交互頻繁的自動(dòng)駕駛?cè)蝿?wù)。

上圖是百度 Apollo 使用的一種典型的感知-規(guī)劃-控制序列式架構(gòu)(Sequential perception-planning-action pipeline),主要包括高精地圖、定位感知、決策規(guī)劃、車輛控制等模塊。高精地圖和定位模塊為自動(dòng)駕駛車輛提供位置信息,感知模塊提供靜動(dòng)態(tài)障礙物信息,決策規(guī)劃模塊根據(jù)定位和障礙物信息合理規(guī)劃自動(dòng)駕駛車輛的行為和路徑,最后由車輛控制模塊執(zhí)行運(yùn)動(dòng)規(guī)劃模塊下發(fā)的路徑跟蹤控制指令。

但是感知-規(guī)劃-控制序列式架構(gòu)主流的處理方式是將感知信息處理成人類可以理解的語(yǔ)義信息和道路交通信息,然后基于專家知識(shí)和規(guī)則進(jìn)行決策規(guī)劃,這種方式在簡(jiǎn)單場(chǎng)景下可以完成自動(dòng)駕駛?cè)蝿?wù)。但卻難以勝任在復(fù)雜不確定場(chǎng)景中執(zhí)行的自動(dòng)給駕駛?cè)蝿?wù),原因是現(xiàn)實(shí)場(chǎng)景的復(fù)雜多樣性,使得專家知識(shí)和規(guī)則不能完全覆蓋所有場(chǎng)景和工況。

基于深度強(qiáng)化學(xué)習(xí)的端到端(End-to-end)的控制架構(gòu)是自動(dòng)駕駛領(lǐng)域中新興的研究熱點(diǎn),它能克服傳統(tǒng)方式依賴先驗(yàn)環(huán)境建模的問題,可以直接實(shí)現(xiàn)通過從感知到控制功能的映射。例如今年CVPR的best paper中便指出,隨著深度學(xué)習(xí)發(fā)展,自動(dòng)駕駛算法被組裝成一系列任務(wù),包括目標(biāo)檢測(cè)與跟蹤、在線建圖、軌跡預(yù)測(cè)、占據(jù)柵格預(yù)測(cè)等子任務(wù)?;谶@些子任務(wù),行業(yè)有著多種自動(dòng)駕駛系統(tǒng)框架設(shè)計(jì):模塊化設(shè)計(jì),多任務(wù)框架,但兩種方案都面臨著累積錯(cuò)誤或任務(wù)協(xié)調(diào)不足的困擾。比如自動(dòng)駕駛公司W(wǎng)aymo、Cruise采用的模塊化設(shè)計(jì)方案,每個(gè)獨(dú)立的模塊負(fù)責(zé)單獨(dú)的子任務(wù)。這種方案具備簡(jiǎn)化研發(fā)團(tuán)隊(duì)分工,便于問題回溯,易于調(diào)試迭代等優(yōu)點(diǎn)。但由于將不同任務(wù)解耦,各個(gè)模塊相對(duì)于最終的駕駛規(guī)劃目標(biāo)存在信息損失問題,且多個(gè)模塊間優(yōu)化目標(biāo)不一致,誤差會(huì)在模塊間傳遞。

論文同時(shí)認(rèn)為,多任務(wù)框架是更優(yōu)雅的一種設(shè)計(jì)方案,代表性企業(yè)有美國(guó)特斯拉、中國(guó)小鵬汽車等。方案中不同任務(wù)使用同一個(gè)特征提取器,具備便于任務(wù)拓展、節(jié)省計(jì)算資源等優(yōu)點(diǎn)。但不同任務(wù)之間仍存在預(yù)測(cè)不一致、表征沖突的問題。相比之下,端到端自動(dòng)駕駛方案將感知、預(yù)測(cè)和規(guī)劃所有節(jié)點(diǎn)視為一個(gè)整體,將取得更優(yōu)的效果。

03端到端大模型面臨的挑戰(zhàn)

深度強(qiáng)化學(xué)習(xí)DRL已經(jīng)被證實(shí)能夠解決無人駕駛中的部分問題,但還面臨很多挑戰(zhàn)。一是人工智能技術(shù)要真正應(yīng)用在汽車上,還需要制定相關(guān)的技術(shù)標(biāo)準(zhǔn)。二是DRL在解決復(fù)雜問題需要大量的訓(xùn)練時(shí)間和反復(fù)模型優(yōu)化。三是需要設(shè)計(jì)一個(gè)穩(wěn)定的智能系統(tǒng),如何解決仿真和現(xiàn)實(shí)之間的gap差距,這也許不是添加噪聲就能解決的問題。四是模型的精度和整個(gè)智能系統(tǒng)的架構(gòu)設(shè)計(jì)會(huì)影響DRL的可用性。

因此,基于深度強(qiáng)化學(xué)習(xí)的端到端大模型,也面臨著相應(yīng)的困難:一方面,用簡(jiǎn)單的方式直接以傳感器信號(hào)作為輸入、以軌跡/控制作為輸出,能夠在仿真中取得較好結(jié)果,但缺乏可解釋性與實(shí)際應(yīng)用安全性,尤其是在復(fù)雜的城市道路場(chǎng)景。另一方面,對(duì)模型進(jìn)行顯式設(shè)計(jì),將整個(gè)架構(gòu)分為感知-預(yù)測(cè)-規(guī)劃模塊,使其具有部分中間結(jié)果表達(dá)。但這種方式面臨檢測(cè)結(jié)果在模塊間不可微導(dǎo)致無法端到端優(yōu)化,稠密BEV預(yù)測(cè)時(shí)長(zhǎng)有限,過去-未來、物體-場(chǎng)景等多維度信息難以高效利用等困難。

因此,要想真正使得該項(xiàng)前沿技術(shù)大規(guī)模應(yīng)用在自動(dòng)駕駛領(lǐng)域現(xiàn)階段來看還為時(shí)尚早,但深度強(qiáng)化學(xué)習(xí)的原理及潛力讓我們看到了未來實(shí)現(xiàn)真正超越人類駕駛水平的自動(dòng)駕駛技術(shù)的希望。作為目前最火熱的研究方向,端到端大模型此次的進(jìn)展無疑是喜人的,也給了從業(yè)者們更多的信心。

       原文標(biāo)題 : 端到端大模型來襲,自動(dòng)駕駛的最優(yōu)解?