來源:蓋世汽車網(wǎng)
日前,GCP硅谷專家咨詢邀請蔚來汽車北美研發(fā)部機器學(xué)習(xí)專家,以專業(yè)視角就當(dāng)前汽車的體系架構(gòu)、自動駕駛的基本組成內(nèi)容以及機器學(xué)習(xí)在自動駕駛中發(fā)揮的作用進行了分享,以下帶來分享內(nèi)容的筆錄整理。
專家介紹
王冠是蔚來汽車首位機器學(xué)習(xí)工程師,參與設(shè)計了蔚來汽車目前所有機器學(xué)習(xí)項目,開發(fā)了其中主要部件。曾任LinkedIn資深數(shù)據(jù)科學(xué)家,最早把機器學(xué)習(xí)引入LinkedIn商業(yè)分析部,并幫助團隊從3人擴展至70人。王冠博士畢業(yè)于UIC,師從Philip Yu進行數(shù)據(jù)挖掘和機器學(xué)習(xí)的研究工作,并在KDD,ICDM,WWW,ICDE,CIKM等會議上發(fā)表十余篇論文。
汽車的體系結(jié)構(gòu)
汽車的體系結(jié)構(gòu)主要包括了車載電腦、傳感器、控制器和車載網(wǎng)絡(luò)。
1.車載電腦
車載電腦主要有CPU,隨著深度學(xué)習(xí)更多參與到車內(nèi)計算,還會有GPU,以及FPGA、ASIC等專屬的電子單元和芯片,滿足計算需求的同時照顧到汽車自身特性。不同于我們使用的電腦硬件,汽車的CPU、GPU對散熱和功耗有更為嚴格的需求,需經(jīng)過額外的測試,以符合車規(guī)標(biāo)準。然后還有data BUS(數(shù)據(jù)總線)在車內(nèi)傳送數(shù)據(jù)信息。另外,車載電腦的存儲器在下一代汽車的性能將更高,據(jù)估計,汽車全部傳感器運作收集數(shù)據(jù)一小時的話能達到1~2TB的數(shù)據(jù)量。
下圖展示的Udacity的自動駕駛試驗車的改裝造價達到二三十萬美元或者更多,不過這里面的軟硬件未達到車規(guī)標(biāo)準,還需要把后備箱的很多設(shè)備縮減在一個電路板上,這樣的試驗車距離量產(chǎn)還有很遠距離。NVIDIA正在做一些集成電路板的工作,比如此前發(fā)布的DRIVE CX的車載娛樂系統(tǒng)和DRIVE PX2的自動駕駛系統(tǒng),不過這樣的芯片仍未達到車規(guī),還在不斷地迭代中。
當(dāng)前芯片硬件的發(fā)展需要和深度學(xué)習(xí)方面的進展相匹配,適應(yīng)和優(yōu)化計算需求,使其固化在芯片上。然后科研人員再利用這樣的開發(fā)板進行測試,這樣的方式要比Udacity的試驗車進一大步。
車廠也要和芯片公司形成協(xié)同開發(fā)的流程:汽車搭載芯片上路獲取數(shù)據(jù),再反饋給芯片或算法公司,有利于技術(shù)更有效地實現(xiàn)升級更迭,這將是個較長的過程。
2.傳感器
下圖是Uber的試驗車。頂上轉(zhuǎn)的那個是激光雷達,頂上盒子里應(yīng)該裝的是高精度GPS。這兩個東西都很貴,應(yīng)該都比車本身還貴。攝像頭一般裝在車輪上沿的車身四周,有的有三個,有的有八個,覆蓋360度。和攝像頭類似位置的還有聲納等傳感器。這里主要談一下攝像機。
汽車搭載的攝像機并不是封裝集成好的,只是鏡頭和一些光學(xué)器件,需要自己在芯片內(nèi)存里寫程序。攝像機會有各種各樣的性能要求,比如在白天光線很強的時候攝像頭曝光不能過高,晚上則需要夜視功能,有些時候還要有視角很廣的魚眼相機。如此一來就需要有好幾個攝像頭,每個攝像頭還來自不同的供應(yīng)商,功能不同,車廠需要自己去組裝安排,接入車載電腦實時處理,工程量很大,對軟件開發(fā)要求也很高。當(dāng)然也有供應(yīng)商提供整套解決方案,不過那樣的話定制化周期就會很長。
3.車內(nèi)網(wǎng)絡(luò)
當(dāng)前無論是奔馳這樣的高端車,還是豐田、本田這種中低端汽車的網(wǎng)絡(luò)結(jié)構(gòu)都非常簡單,相當(dāng)于六七十年代網(wǎng)絡(luò)的水平。首先是不安全:現(xiàn)在車載網(wǎng)絡(luò)的數(shù)據(jù)還沒有加密,任何一個指令發(fā)出(比如升降車窗的指令),其他的控制器都能收到;其次是網(wǎng)絡(luò)慢、帶寬低,當(dāng)前的車載網(wǎng)絡(luò)根本無法滿足自動駕駛數(shù)據(jù)流的需求;然后是容錯性(可靠性),某個通信節(jié)點的損壞不應(yīng)影響整體。因此自動駕駛需要有更安全、滿足高數(shù)據(jù)流、與云端可靠連接的網(wǎng)絡(luò)結(jié)構(gòu)。
控制器的話比較成熟,比如設(shè)定汽車轉(zhuǎn)向多少度,通過數(shù)字模擬信號已經(jīng)能較好地實現(xiàn)汽車控制。
此外需要談一下汽車的冗余性,Waymo非常注重這一點,會將子系統(tǒng)設(shè)計兩套,一旦發(fā)生損壞汽車也能夠安全地實現(xiàn)自我搶救。分享嘉賓曾經(jīng)在Waymo的一次demo上,看過工程師在汽車自動駕駛過程中剪斷了一條供電的線路,車子判斷系統(tǒng)異常,啟動應(yīng)急機制,并且自動安全地停在了路邊。未來更智能的車里,這個冗余性非常重要。
自動駕駛的基本組成
自動駕駛主要分為四個部分:Localization(定位)、Perception(感知)、Planning(規(guī)劃)以及Control(控制),以下主要對前三者進行解讀。
1.定位
定位簡單講就是解決“在哪里”的問題,需要借助激光雷達、攝像頭等傳感器反復(fù)上路收集數(shù)據(jù)構(gòu)建高精地圖。當(dāng)然其中也有一些問題:激光雷達價格當(dāng)前還是居高不下,發(fā)射的點云比較稀疏,很難去區(qū)分和識別目標(biāo)物體。點云的彌補辦法就是同一條道路反復(fù)跑很多遍,直到覆蓋的點云數(shù)據(jù)足夠密集;或者與攝像頭結(jié)合,利用攝像頭的目標(biāo)識別能力選擇性地向物體發(fā)射和收集點云數(shù)據(jù)。
攝像頭的校準也是大問題。一般攝像頭有內(nèi)部校準和外部校準,其中內(nèi)部校準一般在攝像頭出廠時已設(shè)定好,比如說焦距,外部校準則是指通過照相來精確定位攝像頭在汽車的安裝位置,實現(xiàn)較難。汽車攝像頭在安裝過程很難避免誤差產(chǎn)生,導(dǎo)致其所在位置和設(shè)定好的坐標(biāo)軸不匹配,汽車感知系統(tǒng)因而出現(xiàn)偏差。現(xiàn)在有自動校準技術(shù)來使攝像頭一定程度上實現(xiàn)自我矯正,比如利用Visual Odometry技術(shù)和幾種濾波器(kalmanfilter,particle filter等等),但仍不太能滿足要求。實際量產(chǎn)中多數(shù)為半自動程序糾正,影響了量產(chǎn)效率。
假設(shè)在有高精地圖,和校準了的傳感器的前提下,定位是可以很好的解決的。還可以通過自身定位和歷史數(shù)據(jù)來生成所走路線的地圖。這就是SLAM技術(shù)要做的事。不過其算法還未達到自動駕駛的需求,對GPS的精度要求也很高。
所以“做地圖”和“用地圖來自動駕駛”是兩個不同的工程,但是它們又相輔相成。而機器學(xué)習(xí)特別是下面要談的感知技術(shù)又是這兩個工程都不可或缺的重要組成部分。
2.感知
感知部分深度學(xué)習(xí)使用較多,進行目標(biāo)識別和檢測。但當(dāng)前感知仍是淺層的,實際的檢測準確率也只有70~80%。比如多數(shù)系統(tǒng)只能識別目標(biāo)是車,但是不理解不同的車型會影響我們的駕駛判斷。比如消防車、醫(yī)護車還是警車在旁邊的時候,或者它們信號燈開閃的時候,我們的駕駛行為是要做出改變的,而自動駕駛算法還未做到這點。
另外,有些物體是可以忽略的,比如小的紙箱子,有些不能忽略,比如石頭,現(xiàn)在的物體識別還沒做到可以理解這些含義的地步。再舉個例子,鏡子里的車也會被認為是真車。所以,理解這些物體的“物理意義”將是深度學(xué)習(xí)需要解決的難題,這屬于另一個范疇,這里不展開談了。
此外,重要的tracking(目標(biāo)跟蹤)技術(shù)當(dāng)前也發(fā)展不足。傳統(tǒng)使用的卡爾曼濾波器能夠根據(jù)周邊汽車在1~2秒短時間內(nèi)近乎勻速的運動大概估計其速度信息,基于深度學(xué)習(xí)的tracking依靠以往的訓(xùn)練數(shù)據(jù)跟蹤和預(yù)判汽車軌跡,但效果比前者還是差一些,不夠成熟。
3.規(guī)劃
汽車實現(xiàn)定位、感知,需要進一步規(guī)劃接下來的駕駛行為。規(guī)劃(planning)主要分為以下幾類:
Route planning(路徑規(guī)劃)是指宏觀層面為汽車設(shè)定駕駛路線,類似于我們手機里的地圖,輸入起點終點,規(guī)劃一條路徑,該技術(shù)當(dāng)下已經(jīng)非常成熟,并實現(xiàn)了毫秒級的響應(yīng);微觀的behavior planning(行為規(guī)劃)則根據(jù)對周邊態(tài)勢的感知預(yù)測來決定是否進行轉(zhuǎn)向、加減速的動作;Motion planning(運動規(guī)劃)粒度更細,規(guī)劃汽車短時間內(nèi)的轉(zhuǎn)向角度、加速度變化等。
行為規(guī)劃是難點。而行為規(guī)劃又分成1~2秒的規(guī)劃,和30秒左右的規(guī)劃。
1~2秒內(nèi)汽車的路徑規(guī)劃可以利用RRT(快速搜索隨機樹)或CC-RRT(可理解為概率計算+RRT算法)技術(shù),通過機器學(xué)習(xí)系統(tǒng)感知周圍物體并預(yù)測其未來分布位置的概率,為了降低撞到其他物體的幾率,汽車會通過樹狀搜索規(guī)劃出一條即時路徑。做CC-RRT最好的是MIT的一個實驗室。CC-RRT的作者在其MIT博士畢業(yè)之后去了Google做自動駕駛的path planning的負責(zé)人。所以今天Waymo的系統(tǒng)很可能就是那樣做的。不過以上只針對1~2秒的行為判斷,30秒的提前預(yù)判目前還未解決,處于萌芽狀態(tài)。
當(dāng)前很多車廠在路徑規(guī)劃上的做法仍是基于人工的規(guī)則系統(tǒng)進行的,事先設(shè)定上千條可預(yù)期的駕駛規(guī)則,避免常見事故,但交通場景千變?nèi)f化,基于規(guī)則設(shè)定是無法覆蓋全部場景的。
自動駕駛中的機器學(xué)習(xí)
機器學(xué)習(xí)在自動駕駛中覆蓋到很多方面,包括定位,感知,決策的很多細節(jié)。這里就其中決策規(guī)劃的重要部分進行分享,很多科研工作取得了很好的進展,但是還沒有到人工智能能夠獨立控制開車的地步。
大家都知道開車積累的圖像數(shù)據(jù)要為機器學(xué)習(xí)所用,需要對每幀圖像中的目標(biāo)物體、可駕駛區(qū)域和駕駛路徑的變化都需要進行標(biāo)注,幫助機器學(xué)習(xí)后期在感知、預(yù)測、行為規(guī)劃的訓(xùn)練,使算法能夠在以后自主對未處理圖像進行標(biāo)注判斷。
訓(xùn)練機器學(xué)習(xí)系統(tǒng)當(dāng)前有幾類模型,比如Behavior cloning(行為復(fù)制),是利用CNN(卷積神經(jīng)網(wǎng)絡(luò))和LSTM(長短期記憶網(wǎng)絡(luò)),學(xué)習(xí)以往的駕駛數(shù)據(jù)來應(yīng)對以后發(fā)生的類似場景。但面對沒遇到的場景時該模型將難以應(yīng)對。
另一方案是將人類的駕駛數(shù)據(jù)輸入GAN(生成式對抗網(wǎng)絡(luò))進行訓(xùn)練,自我生成可比擬人類駕駛的行為數(shù)據(jù),放入LSTM中,根據(jù)歷史行為輸出未來可能的駕駛行為,使系統(tǒng)具備預(yù)測能力。這方面目前斯坦福有個實驗室做了很多工作,但該研究仍處于萌芽狀態(tài),離應(yīng)用到量產(chǎn)車上仍有很大距離。
結(jié)合之前討論的內(nèi)容,如果以機器學(xué)習(xí)系統(tǒng)來指導(dǎo)汽車自動駕駛,現(xiàn)在還處于非常初級的階段。相對較好的還是通過機器學(xué)習(xí)進行目標(biāo)識別、感知、預(yù)測,再使用機器人技術(shù)(CC-RRT)搜索和規(guī)劃路徑。
上一篇:歐盟正式批準高通380億美元收購恩智浦半導(dǎo)體 下一篇:中國首個大型綜合智能網(wǎng)聯(lián)汽車試驗基地開工開特斯拉長途旅行是一種什么樣的體驗?
90后援藏電力干部 跨越3600km只為北汽新能源EX3
段建軍:拆掉科技的高墻,戴姆勒的創(chuàng)新之道