?超越人類，自動(dòng)駕駛中的深度強(qiáng)化學(xué)習(xí)

來源：新能源汽車網(wǎng)

時(shí)間：2022-02-17 14:08:41

熱度：

?超越人類，自動(dòng)駕駛中的深度強(qiáng)化學(xué)習(xí)本文來源：智車科技／導(dǎo)讀／深度強(qiáng)化學(xué)習(xí)對于現(xiàn)階段的科技工作者來說可能并不陌生，作為21世紀(jì)最為前沿領(lǐng)先的技術(shù)之一，深度強(qiáng)化學(xué)習(xí)早已在多個(gè)領(lǐng)域

本文來源：智車科技

／導(dǎo)讀／

深度強(qiáng)化學(xué)習(xí)對于現(xiàn)階段的科技工作者來說可能并不陌生，作為21世紀(jì)最為前沿領(lǐng)先的技術(shù)之一，深度強(qiáng)化學(xué)習(xí)早已在多個(gè)領(lǐng)域發(fā)揮了其不可替代的作用。例如前幾年大火的AlphaGo戰(zhàn)勝了一眾圍棋世界冠軍，又比如游戲界DeepMind 研發(fā)的 AlphaStar 在《星際爭霸2》中一戰(zhàn)封神等等，火熱的強(qiáng)人工智能加速了人們對于未來科技飛速發(fā)展的信心，而基于強(qiáng)化學(xué)習(xí)的方法更讓人們看到了人工智能超越人類知識的可能。

如此前沿的技術(shù)必然在前沿的領(lǐng)域發(fā)揮舉足輕重的作用，在自動(dòng)駕駛領(lǐng)域，深度強(qiáng)化學(xué)習(xí)已然走出了自己特有的道路，并吸引一位又一位研究人員、企業(yè)對其展開探索，試圖將這一人類能完成的最高智慧應(yīng)用于未來的日常出行中。本篇文章就帶領(lǐng)讀者了解深度強(qiáng)化學(xué)習(xí)這個(gè)領(lǐng)域，并一窺這一前沿理論是如何應(yīng)用在自動(dòng)駕駛行業(yè)中的，未來又將帶給我們怎樣的驚喜。

什么是深度強(qiáng)化學(xué)習(xí)？

對于不太了解人工智能的小白來說，對深度強(qiáng)化學(xué)習(xí)這一名詞的概念可能比較陌生，正式的定義為深度強(qiáng)化學(xué)習(xí)是將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合，可以直接根據(jù)輸入的圖像進(jìn)行控制，是一種更接近人類思維方式的人工智能方法。

而作為兩大學(xué)習(xí)方法的疊加，深度強(qiáng)化學(xué)習(xí)包含了兩種方法的特征與優(yōu)勢。深度學(xué)習(xí)具有較強(qiáng)的感知能力，但是缺乏一定的決策能力；而強(qiáng)化學(xué)習(xí)具有決策能力，對感知問題束手無策。因此，將兩者結(jié)合起來，優(yōu)勢互補(bǔ)，為復(fù)雜系統(tǒng)的感知決策問題提供了解決思路。更進(jìn)一步來說，強(qiáng)化學(xué)習(xí)是一種典型的序貫決策方式，智能體通過與環(huán)境的交互獲得反饋，在嘗試和試錯(cuò)中不斷進(jìn)步。而深度強(qiáng)化學(xué)習(xí)綜合了深度學(xué)習(xí)對高維數(shù)據(jù)的抽象感知能力與強(qiáng)化學(xué)習(xí)優(yōu)秀的決策能力，能夠處理更高維度的輸入與輸出數(shù)據(jù)。

近年來，深度強(qiáng)化學(xué)習(xí)算法已在許多領(lǐng)域都取得了令人震撼的成就。2016年，基于深度 Q 網(wǎng)絡(luò)（Deep Q Network，DQN）和蒙特卡洛樹搜索算法的圍棋程序“AlphaGo”以4：1戰(zhàn)勝世界冠軍李世乭，轟動(dòng)了世界，使得深度強(qiáng)化學(xué)習(xí)成為了人工智能領(lǐng)域研究的新風(fēng)向。

隨后，Lillicrap 等學(xué)者提出了直接優(yōu)化策略的深度確定性策略梯度（Deep Deterministic Policy Gradient，DDPG）算法，而非通過比較狀態(tài)動(dòng)作值函數(shù)的方式進(jìn)行動(dòng)作選擇，從而避免了連續(xù)動(dòng)作空間離散化的“維數(shù)災(zāi)難”，將深度強(qiáng)化學(xué)習(xí)算法可應(yīng)對的場景拓展至連續(xù)動(dòng)作空間中。為了實(shí)現(xiàn)工程中的輕量級應(yīng)用，Mnih等提出了異步強(qiáng)化學(xué)習(xí)（Asynchronous Reinforcement Learning，ARL）框架，可以使用異步的梯度下降法來優(yōu)化網(wǎng)絡(luò)參數(shù)。

近些年來深度強(qiáng)化學(xué)習(xí)算法取得的令人振奮的成果鼓勵(lì)了工業(yè)界和學(xué)術(shù)界進(jìn)一步深入研究深度強(qiáng)化學(xué)習(xí)算法及其應(yīng)用。近年來學(xué)者們將深度強(qiáng)化學(xué)習(xí)算法應(yīng)用在機(jī)器人控制、樓宇空調(diào)系統(tǒng)控制、匝道控制等領(lǐng)域中，在汽車和智能交通等領(lǐng)域，深度強(qiáng)化學(xué)習(xí)也在車道保持、超車決策、主動(dòng)制動(dòng)、能量管理、交通流調(diào)度等方面得到了應(yīng)用。

熱門標(biāo)簽：深度算法領(lǐng)域新能源汽車行業(yè)動(dòng)態(tài)

免責(zé)聲明：此資訊系轉(zhuǎn)載自互聯(lián)網(wǎng)其它網(wǎng)站，全球新能源網(wǎng)登載此文出于傳遞更多信息之目的，并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)，文章內(nèi)容僅供參考。如涉及作品內(nèi)容、版權(quán)等問題，請?jiān)?0工作日內(nèi)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間處理！

上一篇：自動(dòng)駕駛，中美必有一戰(zhàn)！

下一篇：1月SUV銷量排名解讀：CR-V同比下滑39.7%，哈弗H6再獲第一

?超越人類，自動(dòng)駕駛中的深度強(qiáng)化學(xué)習(xí)

?超越人類，自動(dòng)駕駛中的深度強(qiáng)化學(xué)習(xí)