天天看點

一群中國晶片技術小球的奮鬥故事系列 一

作者:Dr王小胖

“中科融合‘AI-3D’晶片追趕美國TI的DLP技術之産業和技術初探-part I”

引子

2015年春天,洛杉矶的中國大劇院冠蓋雲集,又是一年一度的奧斯卡頒獎禮,這一年美輪美奂的“布達佩斯大飯店”輸給了“鳥人”。同樣是這一屆奧斯卡,一家晶片企業,美國德州儀器公司(Texas Instrument)也獲得了奧斯卡技術獎,獎項是數字光處理DLP(Digital Light Processing)晶片。

這是一項史詩性的技術,從1987年發明迄今,直接把人類帶進超大螢幕數字影像時代,從0到數百億美金快速崛起,壟斷90%市場。每一天,全世界數以千萬的辦公室,學校,家庭和數十億的人都在使用這一項技術。2023年,當人工智能的大潮洶湧而來,基于DLP技術的3D影像和3D增強現實顯示,在機器人視覺和元宇宙應用中再次卡位,曆經36年後,又一次站在了曆史的潮頭!

3D視覺極大可能是自百年前,人類發明黑白膠片以來,再一次颠覆性的視覺技術革命。然而,作為一家美國技術企業,TI占據了重大的先發優勢。在美國一浪接一浪的技術壓制和制裁下,基礎層的3D視覺晶片,或者說,中國機器人的“眼睛”會不會再次被“美國卡脖子”?

我們是一群心懷理想的晶片技術小球,過去的10年間,踩了很多坑,爬了很多山,我們希望追趕上TI這個偉大的企業,至少在3D視覺和先進光學領域,我們已經看到了巨人的背影。在這個系列中,我們很想分享一下我們學到的東西。這一項技術為何重要?如何從底層技術原理上,實作“me better”而非me too的超越?作為一個“硬科技”企業,從技術到産品,我們已經打通哪些關鍵的技術點?

介紹:從人類立體視覺到機器立體視覺

3D立體視覺是我們人眼與生俱來的能力,為人類擷取高達80%的外界資訊。然而從人類發明輪子以來數千年,機器都缺乏和人一樣的3D視覺能力!直到近10年,随着底層元器件、核心算法等技術的快速發展,應用于工業機器人的視覺引導,物流的拆碼垛,醫療的體征掃描,服務機器人的自動避障,自動駕駛的雷射雷達,以及混合與增強現實所需高沉浸感的3D模組化、3D列印,都對3D視覺提出了大量的需求。根據國際知名機構Yole的預計,這一市場在2026年接近1000億元人民币規模,年增速接近15%。

一群中國晶片技術小球的奮鬥故事系列 一

3D視覺硬體具有接近1000億美金的市場規模,年均兩位數增長(圖檔來自Yole)

為什麼機器也需要3D立體視覺?電視裡面宣傳的機器人,不是十幾年前已經都可以組裝汽車了嗎?沒錯,當大街上的汽車都是一模一樣的桑塔納,捷達的時代,機器人不需要3D視覺,甚至都不需要視覺。這個時代,所有的車一模一樣,所有的零部件一模一樣,與其說是機器人,更加準确的描述,是“機器臂”。對這些機器臂唯一的要求,就是千萬次的重複,每一次重複同一套“規定”動作,運動到同一個“固定”位置。進入21世紀,個性化産品成為時代的主流,生産線必須具備多品種,小批量快速疊代能力,“柔性生産”成為“智能制造”的核心需求。是以,“機器”必須和人一樣,要有一雙“眼睛”,看得見,看得清,看得懂。這雙“3D眼睛”,推動“機器臂”到“機器人”邁出了至關重要的一步!

一群中國晶片技術小球的奮鬥故事系列 一

3D視覺進入了高速發展期,在3D模組化,自動駕駛和增強現實有廣泛的應用前景(圖檔來自Yole)

人類的立體視覺是如何實作的?把你的食指放在你的鼻子正前方大概30cm的地方,雙眼直視前方,特别是注意食指後面的背景物體,你看到了什麼?然後先閉上左眼,右眼睜開。再閉上右眼,左眼睜開。你将會明顯注意到,食指後面的物體,似乎在“移動”。這個移動,稱為“視差”。人類的3D視覺是通過雙眼的視差(disparity)來實作的。雙眼的視差是指同一個物體在兩隻眼睛的視網膜上投影的位置不同,這種差異可以讓大腦判斷物體距離自己的遠近。 正是由于這個視差的存在,大腦中會形成對于空間的立體感覺。如果我們想喝水,看到桌子上的杯子,眼睛不僅告訴我們桌子上杯子在哪裡,還會配合大腦,告知我們杯子的把手在哪裡,什麼形狀,距離多遠,大腦就會控制我們的手臂去抓住把手“合适”的位置,而如果抓住杯子邊緣,是很難抓起杯子的。這就是人類的3D感覺,識别,判斷,行動的全流程,機器同樣需要“3D的眼”和“3D的腦”。

一群中國晶片技術小球的奮鬥故事系列 一

人眼和機器的3D感覺,都需要光學和處理兩個重要組成部分

工業,醫療,軍工是最早使用3D機器視覺的領域,根據Yole的估計,僅僅是這些領域,就有将近50億美金的3D視覺硬體需求!而具有高精度,高分辨的DLP技術,目前是這一領域的王者。基于DLP技術的3D視覺傳感器,可以引導大型機器臂,在數米外,準确測量達到毫米級别的零部件精度,控制6個自由度運動和抓取動作。可以引導醫生進行精密的手術,在患者體内極其狹窄空間内,完成無創微創的操控。也可以在精密儀器裝置的制造和反向工程研制中,完成具有微米數量級的3D模組化。

3D機器視覺原理

機器的3D視覺原理,和人類的立體視覺原理,在本質上是相同的,不同的差異主要在于實作的機理,達到的精度和分辨率,以及有效的工作距離。用我們東北人話說,就是“眼神好不好”!

3D機器視覺,分為主動3D視覺和被動3D視覺。主動和被動是相對于傳感器主體,如果傳感器通過發射輔助光,投射到被觀察的物體,與反射的環境光結合,稱之為“主動視覺”,如果傳感器僅僅通過環境光反射後,觀察視差結果,獲得3D資訊,稱之為“被動視覺”。簡單地了解,如果黑夜中我們使用“手電筒”照亮,就是主動視覺,而想要通過努力睜大眼睛,在微光中觀察,就是被動視覺。從這個角度了解,主動視覺會比被動視覺具有更好的魯棒性,更高的精度和分辨率。當然,由于主動視覺的引入,需要添加額外的輔助光投射裝置,進而增加系統的複雜性和成本。

主動視覺根據3D測量的原理,又分為“飛行時間法”和“三角測距法”。

一群中國晶片技術小球的奮鬥故事系列 一

主流3D主動視覺工作原理比較,中科融合和TI的DLP都采用動态結構光,具有行業最高的分辨率和精度

飛行時間法:傳感器發射的光子在被測試物體反射後,再次被傳感器接收,那麼距離就是飛行的時間和光速的乘積,考慮往返再除以2。聽起來是不是很簡單?然而光速是人類已知運動速度的天花闆,飛行時間法達到高空間分辨率,需要極高的時間分辨率,通常毫米級空間分辨率,需要達到10皮秒級時間分辨率,或者說1秒鐘的10^12分之一!這對于電路和器件的實作,提出了極高的挑戰。此外綜合考慮到真實環境的多路徑反射,不同物體的反射率等現實因素。飛行時間法,目前往往用于分辨率在厘米以上的低空間分辨率與低平面分辨率的場景。主要應用于大尺度的測距,避障等應用,比如AGV,掃地機,服務機器人,智能駕駛,或者是體積粗測,鏡頭對焦等。

三角測量法,來自于基礎的幾何原理,是一種利用不同視點對同一物體的視差來測定距離的方法。對同一個物體,分别在兩個點上進行觀測,兩條視線與兩個點之間的連線可以形成一個三角形,根據這個三角形的已知連線長度和兩個頂角的大小,就可以知道這個三角形的高,也就是物體距觀察者的距離。早在1671年,兩位法國天文學家為了測量地球與月球之間的距離,利用幾乎位于子午線的柏林和好望角,測量計算出α、β的大小和兩地之間的距離AB(基線),進而計算出了地球與月亮之間的距離約為385400km(如下圖所示)。三角測量法的核心,是在空間建立被觀察點與基線的三角關系。一旦這一三角形關系确立,被觀察點的3D空間未知,是“計算”得出的“測量”結果,是以三角測量法的精度和分辨率,通常要大大高于飛行時間法。

一群中國晶片技術小球的奮鬥故事系列 一

三角測距法的基礎原理

​三角測距法的精度,來自于空間未知點,相對于已知底邊的基線。但是,兩個底角點的相對位置關系精度。這是如何獲得的呢?“結構光”(structured light)方法就是這一領域的重大進展,顧名思義,結構光是為投射的主動光建立一個“結構”,這一結構含有一組已知的特征量。打個通俗的比方,這個結構,就像我們中學幾何題中的“輔助線”。這條輔助線原本不存在,但是通過在幾何形狀中,添加這一線條,并且這一線條具有一些已知的資訊,比如垂直于,平行于某個線段。就為系統中增添了資訊,這一已知的資訊,就成為解決未知問題的重要“參照物”。

結構光3D的實作和比較

常見的結構光特征包括散斑結構光,編碼結構光,條紋光栅結構光等。蘋果的iPhoneX大規模采用了基于散斑的結構光技術,Intel的Realsense采用了編碼結構光技術和TOF技術,中科融合和美國德州儀器相同,采用了動态(條紋/編碼)結構光技術。

一個典型的結構光3D系統,包含“發射-接收-計算”三個核心組成部分。發射器主要功能是完成具有不同特征的結構光投射,接收器主要功能是同時記錄,被觀察物體以及結構光在被觀察物體表面的變形,計算單元主要功能是将結構光的變形量,提取成為3D空間資訊。

一群中國晶片技術小球的奮鬥故事系列 一

一個典型的結構光3D系統包含:發射的投影裝置,捕獲被測物體和因為3D輪廓而變形的結構光,提取3D的計算系統

發射器是結構光3D系統的核心部件。分辨率,空間精度,工作距離,重複精度等核心參數都與發射器的光學品質息息相關。DLP光機成為高精密3D光學領域的王者,主要得益于TI這一技術,無與倫比的光學投射品質,穩定性,以及規模量産的成熟度。

接收器在結構光系統中,可以采購貨架産品的CMOS攝像頭晶片和模組,主要關注的參數,是和發射的光源譜段适配的高靈敏CIS或者使用窄帶濾光片。接收器的分辨率和投射器的結構光特征,具有一定的制約關系。由于數字化的CIS傳感器的分辨率有限,如果投射器的特征遠遠高于分辨率,系統的分辨率瓶頸在于接收器,比如動态結構光。

計算單元,需要将CIS攝像頭捕捉到的“被觀測物體的2D(X-Y)資訊”與“物體3D輪廓對結構光調制的3D(Z)資訊”,進行解耦,基于外部環境參數和内部系統參數,比對預先設計的特征,并且針對環境光反射,鏡頭畸變,高低動态等進行處理,最終計算得出一個同時具備“XYZ”資訊的3D資料,通常使用“點雲”(point cloud)格式。

目前典型的結構光系統,不同的企業和學術組織,嘗試和設計了不同類型的特征方法。但主要包含散斑,編碼,條紋等基本形态。散斑結構光技術,絕大部分采用DOE光學衍射和晶圓級準直光學器件。散斑結構光的DOE器件,由于基于二次衍射原理,衍射點的數量難以進一步提升,是以無法通過納米加工技術,實作更高密度的特征,導緻散斑的特征點規模有限,成為了系統的精度瓶頸。是以,無論接收端的相機精度如何提升,隻能實作“多像素”的特征。 但是,動态結構光,其深度資訊來源于投射條紋的周期和相位的變化,而周期和相位的實作,來自投射器的光學諧振,近似于連續雷射掃描,是以深度精度可以達到亞像素級别。是目前所有的結構光技術中,精度最高的。

總結

本文從人類的立體視覺原理介紹講起,引入機器立體視覺的基本原理。對于飛行時間法和三角測距法的基本規則作了闡述,并且着重對于三角測距法的結構光展開,講述了結構光系統發射、接收、計算三個核心要素以及互相制約的關系。作為中科融合的3D立體視覺晶片技術介紹的第一部分,為讀者提供基本的架構原理,為後續對于TI技術的解讀,以及中科融合技術路線創新的基礎,提供注解。我們盡量避免使用任何公式,也避免使用晦澀的技術術語,有興趣的讀者可以延展閱讀,網際網路上包括知乎有大量已經成熟的結構光和三角測距法的數學推導。

在下一篇文章中,我們将為您介紹德州儀器公司的DLP技術,如何實作高精度的條紋結構光投射,以及分析和探讨這一技術的先進性,為何保持了30多年的技術壟斷?同時,我們也試圖分析這一技術的潛在局限,并且闡述TI的DLP MEMS技術和中科融合的新一代AI-3D MEMS技術的差異,以及為何中科融合可以在3D視覺領域,可以實作對于德州儀器的追趕,乃至未來超越的機遇。

繼續閱讀