3D手势识别背后的技术

发布时间:2022-06-01 15:40:07   来源:作文大全    点击:   
字号:

zoޛ)jp
##]7+,]4um54i=[?v`p<rp}Lwiwm=?3S8T3Lwp3wi=wi0?i0pH<`材料成本。此外,该计算复杂性还可导致较慢的响应时间。在实现微观层面上的高精度方面,结构光模式技术优于其它 3D 视觉技术。

TOF 系统取得了性能与成本的平衡,非常适用于需要快速响应时间的制造与消费类电子设备等应用领域的设备控制。TOF 系统软件复杂程度通常较低,不过这些系统需要昂贵的照明部件(LED、激光二极管)以及高速接口相关部件(快速 ADC、快速串行/并行接口、快速 PWM 驱动器),这将提升材料成本。图 1 显示了这三种 3D 传感器技术的对比情况。

图1 3D 视觉技术对比

“z”(深度)如何影响人机界面

随着“z”坐标的加入,显示与影像更接近自然,更贴近人类。人们在显示屏上能看到人眼从周边环境所看到的逼真事物。增加这第三维坐标改变了可使用的显示与应用类型。

显示

立体显示屏

立体显示屏通常需要用户佩戴3D 眼镜。这种显示屏为左右眼提供不同的影像,两眼看到的影像不同,让大脑误以为看到了 3D 影像。这种显示屏目前广泛用于众多 3D 电视与3D 电影院。

多视点显示屏

多视点显视屏不同于立体显示屏,无需佩戴特殊眼镜。这些显示屏可同时投射多个影像,每个影像稍微有些位移,形成适当的角度,让用户可在每个视点角度看到相同对象的不同投射影像。这些显示屏支持全息摄影效果,在不久的将来将实现全新的3D 体验。

检测与应用

处理并显示“z”坐标的功能将实现全新的应用,其中包括游戏、制造控制、安全、互动数字标牌、远程医疗、汽车以及机器人视觉等。图 2是身体骨架与深度映射传感技术所支持的某些应用领域视图。

人类手势识别(消费类)

人类手势识别是一项深受欢迎的新技术,可为游戏、消费类以及移动产品带来新的输入方式。用户能够以极其自然、直观的方法与设备进行互动,从而可促进产品推广。这些人类手势识别产品包括从 160 x 120 像素到640 x 480 像素,30 到60 fps 的各种分辨率的3D 数据。原始数据到z深度解析、双手跟踪以及全身跟踪等软件模块需要数字信号处理器 (DSP)对 3D 数据进行高效快速处理,才能实现实时游戏与跟踪。

工业

工业与制造传感器等大多数 3D视觉工业应用都采用至少 1 像素至数100k 像素的影像系统。3D 影像可使用 DSP 技术进行控制分析,确定制造瑕疵或者从部件集中选择正确的部件。

互动数字标牌(精确定位的市场营销工具)

每天我们都在遭受广告的轰炸,无论是看电视、开车还是在机场登机都是如此。有了互动数字标牌,企业就可通过精确定位的市场营销工具提供适合每位消费者的内容。例如,有人走过一个数字标牌,标牌上可能就会马上显示额外的消息确认该客户。如果客户停下来阅读信息,该标牌可能会理解为客户对产品感兴趣,并提供更有针对性的消息。麦克风则将让广告牌检测并识别关键短语,进一步精确定位所提供的消息。

这些互动数字标牌系统将需要3D 传感器进行全面的身体跟踪,2D传感器进行面部识别,并需要麦克风进行语音识别。这些系统的软件将运行在更高级的 DSP 及通用处理器(GPP) 上,不但可实现面部识别、全面的身体跟踪以及 Flash 媒体播放器等应用,而且还可提供诸如 MPEG4视频解码等功能。

医疗(无故障虚拟/远程护理)

3D 视觉将为医疗领域带来前所未有的全新应用。医生无需跟患者共处一室就可问诊。远程虚拟护理采用高精度 3D 传感器支持的医学机器人视觉系统,可确保为每一位患者提供最优质的医疗护理,无论他们身处何方。

汽车(安全)

近期,汽车应用在交通信号、车道以及障碍检测方面使用 2D 传感器技术取得了长足发展。随着 3D 传感技术的到来,3D 传感器的“z”数据将大幅提升场景分析的可靠性。汽车通过使用 3D 视觉系统,现已有了预防事故的新途径,无论白天还是夜间都非常适用。采用 3D 传感器,车辆能可靠检测并解读周边环境,确定对象是否对车辆及车内乘客构成安全威胁。这些系统要求软硬件支持 3D 视觉系统,并需要密集型 DSP 及 GPP处理性能在极短时间内解读 3D 图形,避免事故。

视频会议

视觉会议技术经过多年发展,已经从间断脱节传输影像发展成当前的高清系统。未来增强型视频会议将充分发挥 3D 传感器的优势,提供更真实、更具互动性的视频会议体验。该增强型视频会议系统具有集成型2D 传感器以及 3D 传感器及麦克风组合,将能够与其它增强型系统连接,实现高质量的视频处理、面部识别、3D 影像、噪声消除以及内容播放器(Flash 等)等应用。随着这种密集型音视频处理需求的出现,需要具备最佳性能及外设组合的 DSP。

图2 3D 视觉正在为各个市场带来全新的应用

图3 2D 与 3D 摄像机系统的数据路径

技术处理步骤

对许多应用而言,需要同时具备 2D 和 3D 摄像机系统才能充分实现应用技术。图 3 显示了这些系统的基本数据路径。从传感器获取数据,然后进行视觉分析,这并不像数据路径示意图看上去那么简单。具体而言,TOF 传感器需要的带宽相当于 2D 传感器的 16 倍之多,这可导致高输入/输出 (I/O) 问题。另一个瓶颈则存在于原始 3D 数据向 3D 点云转换的处理过程中。通过正确的软硬件组合解决这些问题,对于手势识别及 3D 的成功应用至关重要。当前数据路径可通过 DSP/GPP 处理器组合加上分立式模拟组件及软件库实现。

3D 视觉嵌入式系统的挑战

输入挑战

如前所述,输入带宽限制对 3D视觉嵌入式系统提出了极大的挑战。此外,输入接口也没有标准化。设计人员可为 2D 传感器与通用外部存储器接口选择采用不同的输入选项,其中包括串行与并行接口。在支持最佳带宽的标准输入接口出现之前,设计人员只能使用现有的接口。

两种不同的处理器架构

图 3 所示的 3D 深度映射处理可分为两类:一是以数据为中心的视觉专用处理,二是应用上层处理。以数据为中心的视觉专用处理需要处理器架构能够执行单指令多数据 (SIMD) 快速浮点乘法及加法运算,以及快速搜索算法。DSP 是快速可靠执行这种处理功能的完美选择。对于应用上层处理而言,高级操作系统 (OS) 及协议栈则可提供任何应用上层所需的必要特性集。

根据两种处理器架构要求,提供高数据速率 I/O GPP+DSP+SIMD 处理器的片上系统 (SOC) 非常适合 3D 视觉处理,其可支持必要的数据及应用上层处理。

缺乏标准中间件

3D 视觉处理领域的中间件是多种来源的众多不同组件的整合,包括开源(如 OpenCV)与专有商业源等。商业库主要针对身体跟踪应用,这是一种特定的 3D 视觉应用。目前尚未开发出针对所有不同 3D 视觉应用标准化的中间件接口。

“z”(深度)之后会有什么精彩?

没有人质疑 3D 视觉的诱人因素。工程师早已在期待未来的应用发展。那么不久的将来会出现哪些最新技术?研究人员已经在开发针对人和对象的各种视觉技术了。全球研究人员正在使用多路径光分析技术,探索实现转角视觉或绕开对象的视觉途径。透明研究将带来可透视对象和材料的系统,而运动检测系统则将带来查看人类大脑内部的应用,从而可检验一个人是否在撒谎。

3D 视觉与手势识别技术的发展会带来无尽的可能性。不过,如果没有支持这些振奋人心的新技术所必须的硬件及中间件,该研究将没有任务意义。提供 GPP+DSP+SIMD(通用处理器+数字信号处理器+单指令多数据流)架构的 SoC(系统芯片)不断发展,将提供处理性能、外设支持以及必要带宽的完美组合,从而可实现这种振奋人心的技术与应用。