當(dāng)前位置：科技 >

BEV為什么真香，會如何改變智駕行業(yè)？_當(dāng)前視訊

文章來源：鈦媒體APP　發(fā)布時間： 2023-05-26 17:18:40　責(zé)任編輯：cfenews.com

+|-

BEV全稱是Bird"s Eye View（鳥瞰視角），實現(xiàn)方法是把原本攝像頭2D的視角通過算法校正和改變，形成基于上帝視角的俯視圖。

從本質(zhì)上來說，BEV算法就是 將傳感器輸入轉(zhuǎn)換到統(tǒng)一的俯視角度下進行處理。

(資料圖片僅供參考)

這里的傳感器不只有攝像頭，還有4D毫米波雷達、激光雷達等，算法把它們的信號融合，最終形成一個上帝視角。在計算機里面處理這部分信息時，也會基于上帝視角去進行規(guī)劃決策和控制。

01 BEV為什么興起？

首先是城市NOA的落地。

高速場景下L2++場景相對單一，感知任務(wù)不重，但控制方面很難，因為高速公路一般速度在80-120公里/小時，所以在高速場景下，如何把規(guī)劃決策和控制做好，保證它不會在邊界狀態(tài)下失穩(wěn)就顯得尤為重要。

但是在城市道路上，它的 難點就在于感知，因為有非常多的交通參與者或者非常復(fù)雜的路況。

目前主要的城市NOA玩家：

原來做L4的科技公司：從Robotaxi上遷移感知，調(diào)整傳感器；傳統(tǒng)Tier1或者OEM：把感知做好，處理好復(fù)雜場景。

在實現(xiàn)L2++功能時，大多希望360度范圍內(nèi)能夠做到精確感知，需要做到傳感器融合，難度加大，復(fù)雜度增強，因此BEV愈發(fā)重要。

安信證券報告顯示，蔚小理等車廠通過OTA升級釋放城市NGP或者NOA功能的時間節(jié)點都在2022年到2023年之間。

所以這就是為什么國內(nèi)高速NOA對BEV的使用并不多，但隨著2021年特斯拉提出BEV算法，以及與transformer結(jié)合后，國內(nèi)也開始在城市道路上去使用BEV算法解決復(fù)雜和不確定的城市道路場景。

02 BEV做特征級前融合的優(yōu)勢

現(xiàn)階段量產(chǎn)里廣泛使用的后融合：

不同傳感器各自算各的，把感知和分類的結(jié)果做投票，這個投票是根據(jù)場景的不同計算權(quán)重的；算法由不同供應(yīng)商提供，不需要域上的大算力，但每個傳感器都可能丟失重要信息，比如高速公路上的破碎輪胎；在行泊一體之前，大多數(shù)的行車、泊車是兩套完全不同的傳感器。

但是不同的后融合方案存在各種缺點，因此大家開始想辦法就開始去做 前融合：

前融合的就是嘗試把攝像頭上的像素，激光雷達的點云，毫米波雷達擬合過的一些特征信息（現(xiàn)在如果用4D毫米就是4D毫米波的點云，它已經(jīng)能夠成像了），把這些信息去做原始數(shù)據(jù)的時空同步，然后再結(jié)合其他的信息，最后得到了一個多維度的Raw Data，再去做分類識別跟蹤等等。

但是這個過程中像素級的前融合非常難做，原因在于：

這么多點云與像素去做匹配的時候，時空同步難度很大；算力消耗非常大；不同的傳感器硬件系統(tǒng)時間是不一樣的，很難知道激光雷達的某一幀到底實際嚴格意義上對應(yīng)了攝像頭或者毫米波雷達的哪一幀，而且存在運動補償?shù)恼`差。

即使做了非常詳細的標(biāo)定，一旦換硬件或者換車型很多流程又要重新來一遍，所以我們在BEV里面開始去嘗試把這個問題得到系統(tǒng)性的解決，那到底是怎么解決的呢？

首先在BEV算法里面是用特征級的融合，然后再把它映射到統(tǒng)一的坐標(biāo)下，即BEV的坐標(biāo)體系里面。

然后去做融合，融合之后再進行訓(xùn)練學(xué)習(xí)分類，最終后融合的特征可以保留，那么同時它又不像是前融合階段要求高精度和高算力，所以它是一個相對折中的一種方法。

這個方法我們叫 特征級的前融合，或者把它叫做 中融合也可以。

特斯拉AI Day曾展示一張圖：不同的攝像頭都對于這個特征做識別，后融合方面就是先把它做分割之后再去融合，最終得到的結(jié)果是基于BEV做特征級融合的效果，遠遠好于在BEV空間里面做的后融合，所以說特征級的融合能更好地解決后融合信息丟失過多而造成的誤差，同時也避免了像素級的融合，算力的災(zāi)難和復(fù)雜度的災(zāi)難。

03 BEV加transformer組合帶來的變化

BEV不是一個新的概念，深度學(xué)習(xí)賦予它活力，使用深度學(xué)習(xí)算法實現(xiàn)了從2D到BEV視角的轉(zhuǎn)換。

BEV除了加了深度學(xué)習(xí)之外，在2021年的時候，特斯拉還提出了大模型 transformer再加BEV的模型。

transformer作用是什么？就是給這些按照時間序列進入的特征和信息賦予權(quán)重。transformer最大的功勞就是，對于 特征給予或異構(gòu)的特征，比如說同構(gòu)的特征給予了注意力的新參數(shù)。

基于transformer的BEV算法優(yōu)勢：

增加了系統(tǒng)的跟蹤和推斷的能力；加了異構(gòu)傳感器的融合和算法泛化能力；實現(xiàn)了不同視角下在BEV中進行統(tǒng)一的表達；對于端到端的優(yōu)化，模塊更簡潔了，任務(wù)的可擴展性也更強了。擁有構(gòu)建語義地圖的能力，即是方案可以擺脫高精地圖。

在2021年特斯拉在提出 BEV之前，我曾經(jīng)是高精地圖堅定的支持者，但最后發(fā)現(xiàn)高精地圖的更新成本等因素導(dǎo)致它的局限性，尤其是如果要做自動駕駛方案出海，還要涉及不同國家的高精地圖。

之后，各大車廠陸續(xù)開始通過 BEV算法和得到的信息構(gòu)建語義地圖，非常典型的應(yīng)用就是有些車廠提出來的 高頻路線的城市道路NOA。

特斯拉通過BEV算法加transformer去構(gòu)建一個城市道路下高級別智能駕駛所需的語義地圖，但是這個過程的實現(xiàn)需要結(jié)構(gòu)化訓(xùn)練數(shù)據(jù)來源，要基于BEV的模型去做數(shù)據(jù)的標(biāo)注、分割、分類等等。

那么要標(biāo)多少數(shù)據(jù)？

毫末智行CEO顧維灝預(yù)測，BEV的模型 大概要標(biāo)注1億公里的數(shù)據(jù)，所以這個量是非常大的。因此特斯拉就推出了自動標(biāo)注，怎么做自動標(biāo)注？

在影子模式的過程中得到了非常多的數(shù)據(jù)，數(shù)據(jù)能夠自動地進行相對準(zhǔn)確的標(biāo)注；然后用人工進行抽檢的方式，能夠現(xiàn)在越來越好地為深度學(xué)習(xí)/transformer的模型等提供更多輸入數(shù)據(jù)。

這樣一方面是有影子模式去收集場景數(shù)據(jù)。另一方面又通過自動標(biāo)注把這些數(shù)據(jù)變得結(jié)構(gòu)化。通過這樣的方式打通，就使得特斯拉成為了全世界到現(xiàn)在為止獲取相對準(zhǔn)確的結(jié)構(gòu)化信息數(shù)據(jù)的最快也最廉價的一個車企。

除此之外，特斯拉在AI Day透露，另外一個數(shù)據(jù)來源就是 虛擬仿真。

除了對數(shù)據(jù)要求比較多，BEV算法對算力的要求也比極高。那BEV算法如何才能降低算計的消耗呢？

用相對輕量化的模型；用多任務(wù)模型就統(tǒng)一一個模型，但輸出多個任務(wù)可能是靜態(tài)可能動態(tài)的，反正就是用一個模型輸出多個；對算子做一些優(yōu)化。

04 BEV后的技術(shù)迭代——占用網(wǎng)絡(luò)

占用網(wǎng)絡(luò)依然是一個類似于“上帝視角”的視角，還把多個傳感器做了融合。

下方圖像是特斯拉的結(jié)果，他們把空間做了網(wǎng)格化的分區(qū)，分割之后，每一個小方塊叫做體素，類似于像素。

只要在這個空間的體素下被占用了，都會被系統(tǒng)認為是1，賦值1，否則賦值為0。只要知道物體在空間里面占據(jù)了一定的體素，系統(tǒng)就會把它顯示出來，并判定它是一個障礙物。

特斯拉的想法是，應(yīng)用好占用網(wǎng)絡(luò)，再加上4D雷達點云信息去做融合，解決了部分特殊場景問題后，最終就能取代激光雷達。

在2020、2021年前后， 元戎啟行的CEO周光也曾向我展示過類似于體素的概念，這可以說明我們國內(nèi)的科技公司對這部分技術(shù)掌握得很不錯。

占有網(wǎng)絡(luò)解決了不識別就不能作為障礙物的問題，后續(xù)我們還需要對相關(guān)算法繼續(xù)做更多的優(yōu)化，去減少算力的消耗，同時增加它的實時性，才能保證獲取有更好的效果。

05 問答環(huán)節(jié)

A：高精地圖的更新成本巨大，且更新頻率低，而隨著感知算法效率的提升，系統(tǒng)對高精地圖的依賴性將逐步降低。

A：transformer本身是一個創(chuàng)新性、顛覆性的東西，但是transformer和BEV的結(jié)合，或者說比如深度學(xué)習(xí)和BEV的結(jié)合，這是由工程驅(qū)動的解決問題的方式所得到的創(chuàng)新。

A：在軟件層面，剛開始大家會基于BEV整理一套架構(gòu)。比如說，很多的科技公司開始去提出基于BEV去做各種傳感器的訓(xùn)練，然后得到了一個BEV平臺，之后可以在上面去適配更多不同像素的攝像頭、不同角度的攝像頭，不同原理的激光雷達或者是3D、4D毫米波雷達，所以大家開始基于BEV去形成一個范式。

BEV加transformer的方案最厲害的點就在于給智能感知一個新范式，大家可以基于這個范式去積累更多的數(shù)據(jù)和模型。在硬件層面，可能更多給硬件一些幫助，當(dāng)軟件的適配平臺化能力得到提升的時候，那么硬件的改變它給軟件帶來的障礙就沒有那么大了。

A：可以把BEV梳理為三個階段：

用傳統(tǒng)的只知道攝像頭的內(nèi)參幾何變換的方式得到的，但因為外部道路環(huán)境、車本身俯仰角的變化，使得模型很容易失效；開始去嘗試引入到車的位置信息，道路信息，然后開始去用深度學(xué)習(xí)去做BEV；2021年開始，特斯拉把transformer和BEV做了結(jié)合之后，增加了多傳感器，國內(nèi)車廠開始跟隨此方案，第三個階段確實和大模型有非常大的關(guān)系。

A：這取決于一個點， BEV模型所生成的語義地圖能不能夠非常精確地重構(gòu)關(guān)鍵的地理信息。如果能這個本身一定是需要被監(jiān)管，如果它的程度不足以對國家造成安全傷害，但是卻又能夠幫助車輛進行城市道路下或者高速公路的NOA功能，這就是可以被保留。但是我們不太了解這個度在哪里。

現(xiàn)階段重構(gòu)出來的如果是個局部地圖還好，但如果是把很多的車輛都放在一起，去形成一個全局地圖可能會有問題。

A：基本上是基于200Tops以上算力，保證有很好的效果，BEV模型現(xiàn)階段還是在比較依賴大算力的。

A：BEV里面本身已經(jīng)有了transformer，已經(jīng)做了很多優(yōu)化了，但現(xiàn)在的體量模型的復(fù)雜度都還是很高的，不可能看得非常的遠。

那索性在BEV超視距的范圍內(nèi)，增加一個原本傳統(tǒng)的算法，用2D算法去跟蹤更加遠的物體，但是當(dāng)它進入到了BEV體系之后，我們可以在幾何上做變換，認為它是同一個物體。

A：如果是做地圖的同學(xué)考慮轉(zhuǎn)換專業(yè)，比如原來做定位、slam這些做定位的可能會相對容易轉(zhuǎn)過去，它的底層有很多比較像的地方。當(dāng)然如果原來做規(guī)劃決策，那還是可以的。

至少從現(xiàn)在的技術(shù)趨勢來看，以后可能用的也許就是一個導(dǎo)航地圖或者ADAS地圖，或者是由眾包構(gòu)建出來的語義地圖。趨勢是相對明確的，就是要輕地圖重感知。

A：首先就是數(shù)據(jù)，其次是要盡快形成數(shù)據(jù)閉環(huán)，獲取數(shù)據(jù)的方式要改變，能夠通過眾包和實際生產(chǎn)環(huán)境里面的量產(chǎn)車去得到數(shù)據(jù)。

再有就是虛擬仿真，其實是因為有些場景，比如說極端場景，比如車禍場景等等這種，是沒有辦法去采集的，那么也許就需要虛擬仿真。

還要有數(shù)據(jù)中心，現(xiàn)在模型的復(fù)雜度在提升，多幀之間的處理，數(shù)據(jù)的量也在爆發(fā)，所以可能大的車廠后續(xù)需要有自己的數(shù)據(jù)中心進行持續(xù)的數(shù)據(jù)訓(xùn)練和迭代，對數(shù)據(jù)要自動標(biāo)注，數(shù)據(jù)標(biāo)完之后自動結(jié)構(gòu)化之后還要自動的長期可持續(xù)地迭代和訓(xùn)練，才能使得基于數(shù)據(jù)驅(qū)動的這些算法越來越好。

A：在學(xué)術(shù)層面來說，非常顯性的趨勢是，一個創(chuàng)新性、顛覆性的技術(shù)可能不是中國人提出來的，但是我們有能力很快就follow它，把它變得更好。

但是在工程化層面，我們應(yīng)該把特斯拉和其他的海外的的OEM分開，那么然后再把咱們中國的OEM放進來，在很多層面，特斯拉是顯性領(lǐng)先的。

整體來說，全球化的OEM開始去要開始反思自己為什么這么慢，然后為什么在人工智能方面持續(xù)的投入不夠多等等，那么所以特斯拉是領(lǐng)先的，接下來可能是咱們的一些相對來說比較重投入的的OEM。

A：某種意義上，激光雷達是對我們的訓(xùn)練數(shù)據(jù)不足的一個補充。如果假設(shè)有無限的、準(zhǔn)確的結(jié)構(gòu)化數(shù)據(jù)，確實是不需要激光雷達，可以快速的訓(xùn)練出來一個模型，這個模型因為數(shù)據(jù)量很大，可以無限接近激光雷達的精度，但因為現(xiàn)在我們的所得到的數(shù)據(jù)量有限，我們就想又想要得到一個不錯效果的車，那么激光雷達放進來，它就是一個好又快、顯性度高的補充。

A：我曾跟大疆的沈劭劼討論過這個話題。大疆之所以選擇雙目，是因為要去解決物體障礙物分類的問題，如果是用現(xiàn)在的BEV本質(zhì)上無法解決這個問題，雙目確實也還是很好的補充。

另外，還可以選擇雙目加上毫米波雷達，但如果成本有限，那么可以選擇雙目或者是單目加毫米波雷達，那么在傳統(tǒng)系統(tǒng)設(shè)計里還傾向于異構(gòu)，即一個單目加一個毫米波雷達，因為它是異構(gòu)融合傳感器。

A：這個問題其實是針對的是提供數(shù)據(jù)服務(wù)的提供商，然后他們怎么去更好的去服務(wù)好這些OEM。

成本會增加，難度是在變，大成本是在增加。自動標(biāo)注的算法能不能夠盡量多的去取代人工，比如人工只做抽樣檢測或者做檢測，但不用再標(biāo)了。也許這是一個未來的好方向，但一定需要大量的、準(zhǔn)確的結(jié)構(gòu)化信息，而且2D數(shù)據(jù)復(fù)用不了。

A：大概在兩年前，判斷哪一家車廠能夠做得更好的時候，我當(dāng)時總結(jié)說，哪一家車廠能夠在短時間里面得到大量的、準(zhǔn)確的、低成本的結(jié)構(gòu)化信息，誰就會做得更好。

那么在現(xiàn)階段來說，如果說針對BEV這個模型來說，我覺得重要點在于它要持續(xù)的有數(shù)據(jù)灌入且能持續(xù)的迭代。

那么在持續(xù)性這個層面，傳統(tǒng)車廠要去克服體制的原因，這個情況就是說，我們需要有會做決定的人，他知道要持續(xù)的、不斷為這個事情，為訓(xùn)練數(shù)據(jù)收集數(shù)據(jù)形成數(shù)據(jù)閉環(huán)，去不斷的優(yōu)化算法，這個事情要持續(xù)的迭代和升級。

首先，BEV作為算法的Tier1或Tier 2安身立命的東西，他們是有大概率做好的。第二個是以新技術(shù)作為賣點的的新造車。

關(guān)鍵詞：

更多資訊>>