视觉感知正在经历一轮新的市场变革。
特斯拉“抛弃”传统毫米波雷达,原因是目前的视觉(摄像头)与雷达的前融合,还无法经受复杂道路场景的考验,尤其是非4D成像雷达无法在感知能力上与摄像头的分辨率匹配(前融合)。
目前,在面向高阶智能驾驶赛道,一部分厂商不断强化纯视觉感知能力,比如,特斯拉、Mobileye(也在布局4D成像雷达、激光雷达),同时依赖数据训练迭代;另一部分则寻求通过双目立体视觉+激光雷达+高分辨率雷达来实现,比如,雷克萨斯、奔驰S。
同时,单目摄像头也在寻求扩展“深度估计”感知能力,比如,密集光流技术+自监督单目图像深度估计。不过,通过平面2D帧来实现3D视图,单目系统存在可靠性难题(比如,对不同复杂场景、动静态物体感知的性能指标能否达到同样的水准),技术门槛较高。
在行业人士看来,距离准确度和精度是更高级别自动辅助驾驶的关键组成部分。激光雷达、4D成像雷达是解决方案之一,但仍需要可见光/红外摄像头感知能力的提升来配合。
突破方向之一,就是双目立体视觉。这个在过去被行业视为小众技术路线的方案,正在演变成高阶智能驾驶系统的主流方案。同时,更多供应商的进入,也让双目立体视觉(甚至搭配雷达的情况下)的系统成本具备挑战传统1V1R的可行性。
在前装市场,去年开始,双目立体视觉的搭载车型也在增加,并且不再只是豪华品牌的专属。比如,吉利旗下星越L、领克07/09、极狐阿尔法S华为HI版以及更多自主品牌新车正在陆续“升级”双目立体视觉配置。
一、重新认识“双目立体视觉”
高工智能汽车研究院监测数据显示,2021年全年国内新车(自主+合/独资)标配双目立体视觉ADAS上险量为22.4万辆,同比上年增长13.71%。而在供应端,除了日立、Veoneer、大陆、博世等传统双目立体视觉方案商,也有不少初创公司进入赛道。
实际上,不管是瑞萨、TI、安霸还是英伟达、高通等芯片厂商,对于双目立体视觉应用都有支持。比如,瑞萨的R-Car V3H,除了支持多传感融合、高达800万像素摄像头的ISP,同时支持用于CNN、密集光流、立体视觉和物体分类的专用硬件加速器。
而在面向域控制器赛道,安霸半导体最新发布的大算力SoC-CV3(等效算力500TOPS,上图为架构)就自带了双目立体视觉引擎和稠密光流引擎,从而实现深度检测和运动感知。
考虑到高阶智能驾驶赛道还处于早期阶段,不同技术路线的博弈还没有定论。这为双目立体视觉(实际上斯巴鲁量产搭载双目和Mobileye成立时间都在1999年)提供了争夺份额的机会。
两年前,Xilinx宣布将与斯巴鲁合作,基于汽车级Zynq UltraScale+多处理器芯片系统(MPSoC),为其下一代双目高级驾驶辅助系统提供算力支持。同时,双目立体视觉方案商也同步更换为Veoneer。
按照斯巴鲁的说法,新一代系统采用的图像处理技术可以扫描立体摄像机捕捉到的所有信息,并创建高精度的3D点云,从而更好的应对高级别自动驾驶场景。
随后,丰田旗下豪华品牌雷克萨斯在2020年底正式上市最新一代LS轿车,除了搭载由电装开发的激光雷达,还有双目立体摄像头,可以实现在高速公路上自动换道并实现换道超车。
紧接着,去年底梅赛德斯·奔驰全新一代Drive Pilot系统(首发搭载新一代S级轿车)获得监管机构L3级(低速)自动驾驶上路许可,前置双目立体视觉+毫米波雷达+激光雷达的配置成为焦点。
按照此前公开的数据,这套感知系统的选装价格低于9500美元。其中,双目立体视觉感知(视场角70度)由Veoneer提供,完全集成硬件和感知软件(CNN+3D立体视觉,对车前物体进行精确分类和定位),支持车道检测、可行驶区域检测、小障碍物检测和三维物体分类。
这其中,双目立体视觉与激光雷达的数据前融合能力被激发。
从物理性能来看,激光雷达通过测量光信号从物体反射到车端传感器所需要的时间来提供距离测量。类似的,双目立体视觉也提供距离估计,基于从两个不同的视角获取的视觉信息的三角测量结果。
而通过立体视觉生成的数据更丰富,这反过来使激光雷达的障碍检测更容易。此外,在弱光场景下,立体视觉的分辨率也很高(这一点在4D成像雷达也可以奏效)。
此外,在测距方面,立体视觉通过处理两幅图像得到的间接测量。但无论如何,立体视觉都能够提供远程(不强制要求精确测量距离)和短程(要求高精度执行精确机动)应用所需的精度水平。
在这方面,立体视觉可以与激光雷达形成很好的互补关系。同时,立体视觉提供的双重图像还可以用来并行执行单目CNN算法,如物体分类。而其特有的优势在于,不需要单目视觉过于依靠深度学习能力,实现对未知障碍物的感知。
“我们把立体视觉的机械工程问题转变为软件问题,”NODAR公司创始人Dr. Leaf Jiang表示,针对远距离探测,可以基于软件算法创新,实现两颗摄像头超大距离的宽基线配置,同时允许机械公差和主动补偿功能。
与此同时,目前一些车企搭载的多目摄像头方案,也同样可以通过立体视觉成像方案来进行“硬件复用”。比如,两颗摄像头的视场交集部分,即便是不同焦距、不同距离的摄像头。这打破了过去对双目立体视觉的传统认知(固定基线、规格统一)。
案例之一就是特斯拉。
在“弃用”雷达的同时,特斯拉在FSD软件中开始采用多摄像头+实时运行神经网络的技术路线,这其中就可能采用了两种技术,主要就是通过软件技术来实现硬件“升级”。
一是类似立体视觉,通过两颗摄像头重叠视场或者类似虚拟立体技术(实际分辨率是原有摄像头的1/8,同时在中距区间内发挥作用);二是运动视差技术,通过连续帧追踪物体(与背景和其他物体相对移动),来实现深度预估。
最近,特斯拉宣布,在原有Model 3和Model Y车型基础上,今年2月中旬开始,Model S和Model X车型也开始“移除”毫米波雷达。这意味着,特斯拉正式完成全系车型的纯视觉感知能力,技术成熟度已经达到一定水准。
“每增加一个传感器,就会增加系统的输入带宽要求。因此,需要找到传感器的最优配置,应该限制传感器的总数,但不限制捕获的数据的数量和类型。”特斯拉的专利材料这样写道。
当然,还有一些企业采用非可见光红外摄像头来补充立体视觉感知的能力。比如,QuadSight的四目视觉系统,在现有双目立体系统的基础上,增加了两个红外摄像头,这使得探测范围从可见光扩展到红外波段。
二、争夺规模化落地机会
但要成为主流,任何一种感知方案都要经受成本的考验。
而对于双目立体视觉方案来说,短期内更大的机会或许在法规(新车评级)入门级市场。毕竟,在高阶智能驾驶赛道,任何技术路线还都处于小规模上车周期。
高工智能汽车研究院监测数据显示,2021年度中国市场(不含进出口)15万元及以下新车上险量达到1120.11万辆,占全部新车比重超50%,同比保持小幅增长。
而在ADAS(L0-L2)部分,这个价格区间的前装搭载率仅为19.73%,低于市场平均水平近20个百分点。这个区间由于成本敏感度高,近年来,基于纯单目前向视觉感知方案异军突起。
此前,包括采埃孚、法雷奥、智驾科技、知行科技、福瑞泰克等Tier1供应商开始前装交付基于单摄像头(宽视场角)的L1/L2级辅助驾驶方案,再通过360度环视/周视,可以实现更高阶感知。
2020年7月,采埃孚在中国市场首发量产基于单摄像头(S-Cam4.8)的L2单车道智能驾驶系统,搭载于自主品牌哈弗SUV热销车型,该项目由采埃孚中国团队负责开发。更多的中国供应商也在入局。
比如,知行科技的第二代产品IFC2.0(单目摄像头方案)提升了2倍的FOV(100°),提供十字路口辅助相关功能;同时,基于比第一代提升3倍的算力,可以同时跟踪更多的目标。这套性价比极高的方案同样可实现L2级自动驾驶辅助系统。
按照该公司的说法,单摄像头方案对整个系统的识别、定位、规划、控制等环节的精度要求非常高,方案的成功量产充分证明公司在核心算法、软硬件开发和系统集成验证方面的技术能力。
此外,按照高阶智能驾驶技术架构的发展趋势,这套基于单目感知的低成本、高性价比方案同时可以作为复杂多传感+域控制器方案的冗余备份。不过,单目要“优化”性能,需要大量的数据迭代。
随着新车评级指标的逐步升级,以及车企对于技术路线选择、功能差异化的考虑,也给了双目立体视觉感知方案一次突围的机会。“如果从系统开发角度,而不是单一的硬件考虑,双目立体视觉方案已经可以与单目抗衡成本,”行业人士指出。
一直以来,受限于成本及量产开发难度、可选供应商数量少等原因,双目立体视觉仅仅是小众化的感知方案,但在不依靠毫米波雷达的情况下,同样具备独立实现各种ADAS功能的能力。
同时,随着高分辨率摄像头的逐步上车,车端处理器能力的提升以及实时在线校准、深度学习实现分类等技术的成熟,双目立体视觉方案已经具备挑战能力。和几年前相比,供应商的能力和方案成熟度也已经进入新的周期。
以元橡科技自主研发的智能立体视觉高级ADAS系统解决方案为例,可以智能识别全类型障碍物、精准记录位置信息,30米以内精度达到99%,最远可探测200米距离(平均误差低于5%),实时画面延迟达到毫秒级。
此外,通过几代系统的迭代升级,根据美国公路安全协会(IIHS)的数据,斯巴鲁的EyeSight(立体视觉)驾驶辅助系统可以将追尾事故的可能性降低至多85%,甚至比很多搭载单目+毫米波雷达的车型数据还要高出不少。
而传统的单目视觉最大的瓶颈在于对训练样本的依赖,即便拥有海量数据用来训练深度模型,仍然无法保证能够正确处理所有场景,特别是对于低频出现的非常见障碍物。这也是为什么不少企业开始动起了“数据迭代,驱动系统优化”的模式。
不同的是,双目立体摄像头是一个具有天然测量能力的传感器,能直接得到物体空间位置和大小,可以对任意障碍物进行检测,而不只针对事先训练的模型,避免因漏检造成意外风险。
同时,这也是一个天然融合的传感器,将深度学习和图像学习进行有效糅合(特斯拉似乎在专利中也有提及),以应对部分恶劣天气和照明条件,从而解决单目感知的全场景覆盖的瓶颈。
这也解决了目前绝大部分单目+毫米波雷达融合方案的可靠性难题。但同时,视觉侧能力的提升,意味着毫米波雷达可以专注于自己的能力范围,比如,提高车辆空间感知能力。
这意味着,相比于“前融合”的开发难度,双目立体视觉+雷达降低了系统开发成本。“发挥各自所长,比拉郎配,效果更好”。
以全新奔驰S级轿车L3级系统为例,Veoneer的双目立体感知方案,基于CNN深度学习技术,结合3D立体视觉,对车前物体进行精确分类和定位,实现车道检测、自由空间检测、小障碍物检测和三维物体分类。
相比较而言,这款车搭载的毫米波雷达和激光雷达都不是性能“爆表”的产品。比如,法雷奥的第二代混合固态激光雷达SCALA2,大陆集团的长距离毫米波雷达ARS510(并非ARS540的4D成像)。
这意味着,从系统而非单一传感器角度来看,双目立体视觉的优势在于可以降低其他传感器与感知系统进行协同数据融合开发的难度和成本。
“这将打开全新的感知组合设计选项,并站在系统的角度降低全生命周期开发成本,再加上摄像头的复用,还可以提供冗余的感知能力。”业内人士表示。
数据显示,从去年开始,国内不少车企(包括商用车、乘用车)已经开始选择双目立体视觉方案作为前装量产定点,预计未来三年,将是放量周期。