端到端大模型來襲，自動(dòng)駕駛的最優(yōu)解？

來源：新能源汽車網(wǎng)

時(shí)間：2023-07-07 14:17:55

熱度：

端到端大模型來襲，自動(dòng)駕駛的最優(yōu)解？本文來源：智車科技最近，人工智能領(lǐng)域最火的莫過于大模型了。由美國(guó)初創(chuàng)企業(yè)OpenAI開發(fā)的聊天應(yīng)用ChatGPT引爆市場(chǎng)，生成式AI成為科技市場(chǎng)

本文來源：智車科技

最近，人工智能領(lǐng)域最火的莫過于大模型了。

由美國(guó)初創(chuàng)企業(yè)OpenAI開發(fā)的聊天應(yīng)用ChatGPT引爆市場(chǎng)，生成式AI成為科技市場(chǎng)熱點(diǎn)，ChatGPT背后是深度學(xué)習(xí)大模型，其理解和生成文字的能力超過以往AI產(chǎn)品。全球主要云計(jì)算公司例如亞馬遜等都加入其中，爭(zhēng)奪算力、開發(fā)和銷售大模型，云計(jì)算市場(chǎng)迎來新一輪競(jìng)爭(zhēng)熱潮，覆蓋AI計(jì)算所需的算力、算法、數(shù)據(jù)各層面。

在自動(dòng)駕駛方面，今年的CVPR上，拿到best paper的自動(dòng)駕駛領(lǐng)域論文，更是將端到端與大模型結(jié)合，將該領(lǐng)域推向了高潮。事實(shí)上，“端到端”是深度學(xué)習(xí)中的概念，英文為“End-to-End（E2E）”，指的是一個(gè)AI模型，只要輸入原始數(shù)據(jù)就可以輸出最終結(jié)果。

而隱藏在大模型背后的，便是人工智能領(lǐng)域的基石——深度強(qiáng)化學(xué)習(xí)技術(shù)。深度強(qiáng)化學(xué)習(xí)對(duì)于現(xiàn)階段的科技工作者來說可能并不陌生，作為21世紀(jì)最為前沿領(lǐng)先的技術(shù)之一，深度強(qiáng)化學(xué)習(xí)早已在多個(gè)領(lǐng)域發(fā)揮了其不可替代的作用。例如前幾年大火的AlphaGo戰(zhàn)勝了一眾圍棋世界冠軍，又比如游戲界DeepMind 研發(fā)的 AlphaStar 在《星際爭(zhēng)霸2》中一戰(zhàn)封神等等，火熱的強(qiáng)人工智能加速了人們對(duì)于未來科技飛速發(fā)展的信心，而基于強(qiáng)化學(xué)習(xí)的方法更讓人們看到了人工智能超越人類知識(shí)的可能。

如此前沿的技術(shù)必然在前沿的領(lǐng)域發(fā)揮舉足輕重的作用，在自動(dòng)駕駛領(lǐng)域，深度強(qiáng)化學(xué)習(xí)已然走出了自己特有的道路，并吸引一位又一位研究人員、企業(yè)對(duì)其展開探索，試圖將這一人類能完成的最高智慧應(yīng)用于未來的日常出行中。

01什么是深度強(qiáng)化學(xué)習(xí)？

對(duì)于不太了解人工智能的小白來說，對(duì)深度強(qiáng)化學(xué)習(xí)這一名詞的概念可能比較陌生，正式的定義為深度強(qiáng)化學(xué)習(xí)是將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合，可以直接根據(jù)輸入的圖像進(jìn)行控制，是一種更接近人類思維方式的人工智能方法。

而作為兩大學(xué)習(xí)方法的疊加，深度強(qiáng)化學(xué)習(xí)包含了兩種方法的特征與優(yōu)勢(shì)。深度學(xué)習(xí)具有較強(qiáng)的感知能力，但是缺乏一定的決策能力；而強(qiáng)化學(xué)習(xí)具有決策能力，對(duì)感知問題束手無策。因此，將兩者結(jié)合起來，優(yōu)勢(shì)互補(bǔ)，為復(fù)雜系統(tǒng)的感知決策問題提供了解決思路。更進(jìn)一步來說，強(qiáng)化學(xué)習(xí)是一種典型的序貫決策方式，智能體通過與環(huán)境的交互獲得反饋，在嘗試和試錯(cuò)中不斷進(jìn)步。而深度強(qiáng)化學(xué)習(xí)綜合了深度學(xué)習(xí)對(duì)高維數(shù)據(jù)的抽象感知能力與強(qiáng)化學(xué)習(xí)優(yōu)秀的決策能力，能夠處理更高維度的輸入與輸出數(shù)據(jù)。

近年來，深度強(qiáng)化學(xué)習(xí)算法已在許多領(lǐng)域都取得了令人震撼的成就。2016年，基于深度 Q 網(wǎng)絡(luò)（Deep Q Network，DQN）和蒙特卡洛樹搜索算法的圍棋程序“AlphaGo”以4：1戰(zhàn)勝世界冠軍李世乭，轟動(dòng)了世界，使得深度強(qiáng)化學(xué)習(xí)成為了人工智能領(lǐng)域研究的新風(fēng)向。

近些年來深度強(qiáng)化學(xué)習(xí)算法取得的令人振奮的成果鼓勵(lì)了工業(yè)界和學(xué)術(shù)界進(jìn)一步深入研究深度強(qiáng)化學(xué)習(xí)算法及其應(yīng)用。學(xué)者們將深度強(qiáng)化學(xué)習(xí)算法應(yīng)用在機(jī)器人控制、樓宇空調(diào)系統(tǒng)控制、匝道控制等領(lǐng)域中，在汽車和智能交通等領(lǐng)域，深度強(qiáng)化學(xué)習(xí)也在車道保持、超車決策、主動(dòng)制動(dòng)、能量管理、交通流調(diào)度等方面得到了應(yīng)用。

深度強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域的應(yīng)用

機(jī)器學(xué)習(xí)是指計(jì)算機(jī)程序通過已知經(jīng)驗(yàn)數(shù)據(jù)中進(jìn)行訓(xùn)練，通過迭代訓(xùn)練以提高其在指定任務(wù)上預(yù)測(cè)準(zhǔn)確性的過程。機(jī)器學(xué)習(xí)算法通常分為三大類流派，分別是監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)?(RL)。

監(jiān)督學(xué)習(xí)算法基于歸納推理，通常需要使用有標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練，以執(zhí)行分類或回歸，而無監(jiān)督學(xué)習(xí)一般應(yīng)用于未標(biāo)記數(shù)據(jù)的密度估計(jì)或聚類等技術(shù)。相比之下強(qiáng)化學(xué)習(xí)比較自成一派，其通過與環(huán)境交互來提高其在指定任務(wù)上的性能，與監(jiān)督和非監(jiān)督學(xué)習(xí)使用損失函數(shù)進(jìn)行迭代訓(xùn)練的方式不同，強(qiáng)化學(xué)習(xí)一般使用獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練，比如OpenAI與王者榮耀的絕悟AI都屬于強(qiáng)化學(xué)習(xí)的范疇，一般在電競(jìng)、機(jī)器人等方向上應(yīng)用較多。

根據(jù)各類機(jī)器學(xué)習(xí)算法的特點(diǎn)，可以看出在“場(chǎng)景理解”的相關(guān)任務(wù)中，使用監(jiān)督學(xué)習(xí)算法比較合適，而在“決策與規(guī)劃”任務(wù)中，又非強(qiáng)化學(xué)習(xí)算法莫屬。而深度強(qiáng)化學(xué)習(xí)（Deep reinforcement learning，DRL）兼具了深度學(xué)習(xí)對(duì)高維輸入的處理能力與強(qiáng)化學(xué)習(xí)的決策能力，能夠?qū)崿F(xiàn)由高維的感知信息到連續(xù)動(dòng)作空間輸出的直接映射，非常適合處理環(huán)境復(fù)雜、交互頻繁的自動(dòng)駕駛?cè)蝿?wù)。

上圖是百度 Apollo 使用的一種典型的感知-規(guī)劃-控制序列式架構(gòu)（Sequential perception-planning-action pipeline），主要包括高精地圖、定位感知、決策規(guī)劃、車輛控制等模塊。高精地圖和定位模塊為自動(dòng)駕駛車輛提供位置信息，感知模塊提供靜動(dòng)態(tài)障礙物信息，決策規(guī)劃模塊根據(jù)定位和障礙物信息合理規(guī)劃自動(dòng)駕駛車輛的行為和路徑，最后由車輛控制模塊執(zhí)行運(yùn)動(dòng)規(guī)劃模塊下發(fā)的路徑跟蹤控制指令。

但是感知-規(guī)劃-控制序列式架構(gòu)主流的處理方式是將感知信息處理成人類可以理解的語(yǔ)義信息和道路交通信息，然后基于專家知識(shí)和規(guī)則進(jìn)行決策規(guī)劃，這種方式在簡(jiǎn)單場(chǎng)景下可以完成自動(dòng)駕駛?cè)蝿?wù)。但卻難以勝任在復(fù)雜不確定場(chǎng)景中執(zhí)行的自動(dòng)給駕駛?cè)蝿?wù)，原因是現(xiàn)實(shí)場(chǎng)景的復(fù)雜多樣性，使得專家知識(shí)和規(guī)則不能完全覆蓋所有場(chǎng)景和工況。

基于深度強(qiáng)化學(xué)習(xí)的端到端（End-to-end）的控制架構(gòu)是自動(dòng)駕駛領(lǐng)域中新興的研究熱點(diǎn)，它能克服傳統(tǒng)方式依賴先驗(yàn)環(huán)境建模的問題，可以直接實(shí)現(xiàn)通過從感知到控制功能的映射。例如今年CVPR的best paper中便指出，隨著深度學(xué)習(xí)發(fā)展，自動(dòng)駕駛算法被組裝成一系列任務(wù)，包括目標(biāo)檢測(cè)與跟蹤、在線建圖、軌跡預(yù)測(cè)、占據(jù)柵格預(yù)測(cè)等子任務(wù)?；谶@些子任務(wù)，行業(yè)有著多種自動(dòng)駕駛系統(tǒng)框架設(shè)計(jì)：模塊化設(shè)計(jì)，多任務(wù)框架，但兩種方案都面臨著累積錯(cuò)誤或任務(wù)協(xié)調(diào)不足的困擾。比如自動(dòng)駕駛公司W(wǎng)aymo、Cruise采用的模塊化設(shè)計(jì)方案，每個(gè)獨(dú)立的模塊負(fù)責(zé)單獨(dú)的子任務(wù)。這種方案具備簡(jiǎn)化研發(fā)團(tuán)隊(duì)分工，便于問題回溯，易于調(diào)試迭代等優(yōu)點(diǎn)。但由于將不同任務(wù)解耦，各個(gè)模塊相對(duì)于最終的駕駛規(guī)劃目標(biāo)存在信息損失問題，且多個(gè)模塊間優(yōu)化目標(biāo)不一致，誤差會(huì)在模塊間傳遞。

論文同時(shí)認(rèn)為，多任務(wù)框架是更優(yōu)雅的一種設(shè)計(jì)方案，代表性企業(yè)有美國(guó)特斯拉、中國(guó)小鵬汽車等。方案中不同任務(wù)使用同一個(gè)特征提取器，具備便于任務(wù)拓展、節(jié)省計(jì)算資源等優(yōu)點(diǎn)。但不同任務(wù)之間仍存在預(yù)測(cè)不一致、表征沖突的問題。相比之下，端到端自動(dòng)駕駛方案將感知、預(yù)測(cè)和規(guī)劃所有節(jié)點(diǎn)視為一個(gè)整體，將取得更優(yōu)的效果。

03端到端大模型面臨的挑戰(zhàn)

深度強(qiáng)化學(xué)習(xí)DRL已經(jīng)被證實(shí)能夠解決無人駕駛中的部分問題，但還面臨很多挑戰(zhàn)。一是人工智能技術(shù)要真正應(yīng)用在汽車上，還需要制定相關(guān)的技術(shù)標(biāo)準(zhǔn)。二是DRL在解決復(fù)雜問題需要大量的訓(xùn)練時(shí)間和反復(fù)模型優(yōu)化。三是需要設(shè)計(jì)一個(gè)穩(wěn)定的智能系統(tǒng)，如何解決仿真和現(xiàn)實(shí)之間的gap差距，這也許不是添加噪聲就能解決的問題。四是模型的精度和整個(gè)智能系統(tǒng)的架構(gòu)設(shè)計(jì)會(huì)影響DRL的可用性。

因此，基于深度強(qiáng)化學(xué)習(xí)的端到端大模型，也面臨著相應(yīng)的困難：一方面，用簡(jiǎn)單的方式直接以傳感器信號(hào)作為輸入、以軌跡/控制作為輸出，能夠在仿真中取得較好結(jié)果，但缺乏可解釋性與實(shí)際應(yīng)用安全性，尤其是在復(fù)雜的城市道路場(chǎng)景。另一方面，對(duì)模型進(jìn)行顯式設(shè)計(jì)，將整個(gè)架構(gòu)分為感知-預(yù)測(cè)-規(guī)劃模塊，使其具有部分中間結(jié)果表達(dá)。但這種方式面臨檢測(cè)結(jié)果在模塊間不可微導(dǎo)致無法端到端優(yōu)化，稠密BEV預(yù)測(cè)時(shí)長(zhǎng)有限，過去-未來、物體-場(chǎng)景等多維度信息難以高效利用等困難。

因此，要想真正使得該項(xiàng)前沿技術(shù)大規(guī)模應(yīng)用在自動(dòng)駕駛領(lǐng)域現(xiàn)階段來看還為時(shí)尚早，但深度強(qiáng)化學(xué)習(xí)的原理及潛力讓我們看到了未來實(shí)現(xiàn)真正超越人類駕駛水平的自動(dòng)駕駛技術(shù)的希望。作為目前最火熱的研究方向，端到端大模型此次的進(jìn)展無疑是喜人的，也給了從業(yè)者們更多的信心。

原文標(biāo)題 : 端到端大模型來襲，自動(dòng)駕駛的最優(yōu)解？

熱門標(biāo)簽：深度算法模型新能源汽車行業(yè)動(dòng)態(tài)

免責(zé)聲明：此資訊系轉(zhuǎn)載自互聯(lián)網(wǎng)其它網(wǎng)站，全球新能源網(wǎng)登載此文出于傳遞更多信息之目的，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，文章內(nèi)容僅供參考。如涉及作品內(nèi)容、版權(quán)等問題，請(qǐng)?jiān)?0工作日內(nèi)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間處理！

上一篇：德系、美系覺醒，日系出路在哪兒？

下一篇：2023年6月國(guó)內(nèi)汽車質(zhì)量投訴指數(shù)分析報(bào)告

AI大模型開啟智能交通的未來？

2023-07-03
德國(guó)車企抓住機(jī)會(huì)與中國(guó)深度綁定

2023-06-29
高精度的電量計(jì)算法

2023-06-21
算法不行，算力來湊，而高算力只是蔚小理車型的剛需？

2023-06-19
東風(fēng)“嫡子”深度轉(zhuǎn)型，風(fēng)神能否靠“觸電”上位？

2023-05-10
使用 DSP 加速 CORDIC 算法

2023-03-29
如何使用 FPGA 測(cè)試 PLL 頻帶校準(zhǔn)算法

2023-03-28
GPT-4來臨！多模態(tài)大模型將顛覆自動(dòng)駕駛？

2023-03-21
DSP 技巧：頻率解調(diào)算法

2023-03-20
FPGA數(shù)字信號(hào)處理之CORDIC算法

2023-03-08
深度復(fù)盤威馬發(fā)展史：從高光到退敗的這八年

2023-03-07
了解內(nèi)存故障模型

2023-03-07
2023年蔚來將深度調(diào)整，以期進(jìn)入“決賽圈”

2023-02-16
【深度】離心式通風(fēng)機(jī)應(yīng)用范圍廣本土企業(yè)具備競(jìng)爭(zhēng)優(yōu)勢(shì)

2023-02-09
「小電驢」江湖：誰(shuí)在狂飆，誰(shuí)在挨打？｜節(jié)點(diǎn)深度

2023-02-09

端到端大模型來襲，自動(dòng)駕駛的最優(yōu)解？

端到端大模型來襲，自動(dòng)駕駛的最優(yōu)解？