工业控制 | 能源技术 | 汽车电子 | 通信网络 | 安防监控 | 智能电网 | 移动手持 | 无线技术 | 家用电器 | 数字广播 | 消费电子 | 应用软件 | 其他方案

电路设计->综合电路图->FPGA电路图->基于虚拟环绕声的音频处理器设计完整方案

基于虚拟环绕声的音频处理器设计完整方案

作者:angelazhang时间:2015-08-27

一、应用前景

虚拟环绕声技术是区别于多通道环绕声技术的另一类声重放系统,它利用声源到双耳的传递函数(HRTF)通过双耳(即空间两点)声信号的传输与重放,实现声音空间信息的传输与重放,这种系统只需两路独立的传输信号和重放扬声器(或耳机) ,因而在一些不便于安装多通道放声系统的环境下,对改善电视机、手机、MP3/MP4等等电子产品的音频声效有很大的帮助。

 

二、项目背景

虚拟听觉空间(VAS)是一门新兴的边缘交叉学科,涉及听觉心理学、听觉生理学、多传感器集成与融合、人工智能、并行计算和高性能计算机系统等多个研究领域。VAS有时也称为虚拟听觉显示(Virtual Auditory Display)、三维声再现系统(3D Sound Rendering/Reproducing System)、虚拟声再现系统(Virtual Sound Rendering/Reproducing System)、空间声音再现系统(Spatial Sound Rendering System)、虚拟空间/三维听觉系统(Virtual Spatial/(3D)Auditory Systems)、声音空间化系统(Sound Spatialization System )和双耳技术(Binaural Technology)等,是通过对双耳的声音信号进行捡拾、模拟和重放,让倾听者在虚拟环境中听到的声信号逼近在真实环境声场中听到的声信号,因而在电影院、家庭影院中得到了很好的应用。其中多通路环绕声经过许多年的发展,也获得了很好的效果,也先后出现了5.1、6.1、7.1甚至10.2通路的环绕声系统,而且5.1通路环绕声系统也为国际电信联盟(ITU)所推荐。

 

此外,为了适应音频的播放,特构建了一款音频DSP处理器以适应本系统。

 

三、项目立意

在耳机声源定位算法的框架上,采用MIT媒体实验室的KEMAR人工头HRTF数据库对3D虚拟环绕声的滤波器设计进行改进;

 

改进通用处理器体系结构,移植适合于音频处理DSP IP Core到FPGA上;

 

利用硬件描述语言直接实现算法,并与DSP IP Core进行集成;

 

在FPGA平台上进行IP核的设计,在Xilinx的FPGA平台上予以验证,并对功耗和时钟进行优化

 

四、原理和技术特点

1.本系统由以下三大部分构成:

A.虚拟环绕声模块;B.DSP处理器模块(包括了音频解码,音效叠加等模块);C.音频还原。总体框图大致如图1所示,

图1系统总体框图

 

DSP音频处理器是本系统的核心,负责音频解码,信号叠加等处理。虚拟环绕声模块,负责针对音频信号产生虚拟的环绕声音频效果。DAC负责还原出音频信号。在这些基本功能的础基上,实现诸如音频检索等新功能。

 

2.  虚拟环绕声原理介绍

由于虚拟环绕是以人耳的声源定位为基础的,故在此主要对人耳的声源定位予以介绍。心理声学的基本要素是到达人耳的声音的频率、强度和谱结构。以下将进一步讨论基于心理声学的声源定位、距离感知及包围感等。

 

2. 1 人耳对声源的定位

在自然听音中,人的听觉系统对声源的定位取决于多个因素——双耳接收到的信号差异用来决定声源的水平位置,由外耳对高频信号的反射所引起的耳郭效应决定声源的垂直位置,而人耳的某些心理声学特性对于声源的定位也起到很大的作用。

 

2.2 双耳效应

在自然听音环境中,双耳信号之间的差异对于声源的定位是非常重要的。该因素可以在直达声场的听音环境中得到最好解释,如图2所示。

 

图2 声源S与镜像声源S′引入最大程度相似的双耳因素

 

声源位于水平面上,水平方位角为θ,与人头中心的距离为r,到达左右耳的距离分别为SL和SR。由于SL>SR,声音首先到达右耳,从而在到达双耳的时间先后上形成时间差。这种时间差被定义为双耳时间差(interaural time difference,ITD),它与声源的水平方位角θ有关。当θ = 0°时, = 0;当θ = ±90°时,达到最大值,对一般人头来说,为0.6~0.7ms 的数量级。

 

在低中频(f <1.5kHz)情况下,双耳时间差是定位的主要因素,这时对固定频率的声音,双耳时间差与双耳相位差是相对应的。然而对于更高的频率,虽然双耳时间差的概念依然正确,但双耳相位差的概念将变得模糊不清。以正弦声音为例来进行解释,设双耳时间差的最大值为Δtmax,则角频率为ω的正弦声音在左、右两耳产生的相位差为ΔΦ = ωΔtmax。可以看出,当ω较小时,声音频率较低,波长较长,由时间差所造成的相位差有确定的意义,双耳可以根据它来判定声源的方位;当ω较大时,即声音频率较高、波长较短时,由时间差所形成的相位差数值将较大,甚至会超过180°,使人不能判断是超前还是滞后,因而失去了作为声源定位因素的意义。所以双耳相位差只对低频声的方位判断起主要作用,而双耳时间差(严格说是群延时)则可作为1.5~4.0kHz的一个定位因素。

 

另外一方面,人头对入射声波起到了阻碍作用,导致了两耳信号间的声级差(interaural intensity difference,IID)。声级差除与入射声波的水平方位角有关外,还与入射声波的频率有关。在低频时,声音波长大于人头尺寸,声音可以绕射过人头而使双耳信号没有明显的声级差。随着频率的增加,波长越来越短,头部对声波产生的阻碍越来越大,使得双耳信号间的声级差越来越明显——这就是我们常说的人头遮蔽效应。对于1.5~4.0kHz的频率范围来说,声级差和时间差是声源定位的共同因素,而当f > 5.0kHz时,双耳声级差是定位的主要因素,与时间差形成互补。总的来说,双耳时间差和声级差涵盖了整个声音频率范围。

 

但是如果只考虑双耳时间差和声级差两个因素,还不足以完全解释定位问题,其中最典型的问题就是前后镜像声源的定位。假设人头是一个球体,不存在外耳,如图3所示,水平方位角为θ的声源和水平方位角为180°.θ的镜像声源在人耳处会产生相同的IID和ITD。对于实际的人头来说,虽然IID和ITD不会完全相同,但是它们会在很大程度上相似。当只考虑双耳时间差和声级差时,就会产生前后镜像声源的混淆,其实这只是空间锥形区域声像混淆(cones of confusion)的一种特例。为了解决这个问题,就要依赖于其他的因素进行声源定位了。

 

图3 空间锥形区域声像混淆

 

 2.3 耳郭效应

在听觉系统中用于对声源进行垂直定位的因素通常被认为是“单耳信号”。耳郭具有不规则的形状,形成一个共振腔。当声波到达耳郭时,一部分声波直接进入耳道,另一部分则经过耳郭反射后才进入耳道。由于声音到达的方向不同,反射声和直达声之间强度比不仅发生变化,而且反射声与直达声之间在不同频率上产生不同的时间差和相位差,使反射声与直达声在鼓膜处形成一种与声源方向位置有关的频谱特性,听觉神经据此判断声音的空间方向。耳郭效应的本质就是改变不同空间方向声音的频谱特性,也就是说人类听觉系统功能上相当于梳状滤波器,将不同空间方向的声音进行不同的滤波。

 

频谱特性的改变主要是针对于高频信号,由于高频信号波长短,经耳郭折向耳道的各个反射波之间会出现同相相加、反相相减,甚至相互抵消的干涉现象,形成频谱上的峰谷,也即耳郭对高频声波起到了梳状滤波作用。

 

耳郭效应对声源的垂直定位起到很重要的作用。图4显示的是声源位于中垂面,仰角φ分别为.10°、0°和10°在人头模型上测得的耳郭响应曲线。由图可以看出,在高频处响应曲线变化比较大,因此可以对声源进行定位。例如对位于前后镜像的声源进行定位时,虽然位于(r , θ , φ)的声源和位于(r , 180°.θ , .φ)的镜像声源会在人耳处产生极相似的ITD和IID,但是可以通过耳郭效应对声源作精确定位。

 

图4 人头模型测量的耳郭效应
 

耳郭效应进行声音定位,主要是将每次接收到的声音与过去存储在大脑里的重复声排列或梳状波动记忆进行比较,然后判断定位。因每个人耳郭尺寸不同,所以每个人在大脑中存储的记忆是不同的,这一点应引起注意。

 

2.4 人头转动因素

如图5所示在低频或较差的听音环境中,当双耳效应和耳郭效应对声源的定位不能给出明确的信息时,听音者会转动头部来消除不确定性。最经常使用这种方法的情况是出现空间锥形区域声像混淆现象时,因为这样会造成不确定的双耳效应。

 

图5 头部转动避免声源位置前后混淆

 

2.5 优先效应

声音的定位除了以上因素外还有其他因素。在混响环境中,优先效应起到重要作用。它是心理声学的特性之一。所谓的优先效应是指当同一声源的直达声和反射声被人耳听到时,听音者会将声源定位在直达声传来的方向上,因为直达声会首先到达人耳处,即使反射声的强度比直达声高达10dB。因此,声源可以在空间中进行正确的定位,而与来自不同方向的反射声无关。但是优先效应不会完全消除反射声的影响。反射声可以增加声音的空间感和响度感。

 

当优先效应用在混响环境中识别语音时,就产生了哈斯效应(Haas effect)。哈斯观察到,只要早期反射声到达人耳足够早就不会影响语音的识别,相反,由于增加了语音的强度,还会有利于语音的识别。而且哈斯发现,相对于音乐来说,语音对反射延时时间和混响的变化更为敏感。对于语言声来说,只有滞后直达声50ms以上的延迟声才会对语音的识别造成影响。所以50ms被称为哈斯效应的最大延时量。在哈斯的平衡实验证明,当延时为10~20ms时,先导声会对滞后声有最大程度的抑制。

3.DSP音频处理器结构说明

由于本系统的音频处理器主要以一款现在的音频处理器为参考进行开发,故对音频处理器只作简单说明。

 

如图6所示

 

图6 音频DSP处理器结构

 

图示为一款商用DSP核的结构,区别于普通MCU处理器的是其采用了典型的哈佛结构,存储部分配置了X,Y,XY等部分,以适合于音频处理,至于数据通路和普通处理器相比区别不大,故考虑以移植为主。

 

五、实现目标

利用数字信号处理技术对数字滤波器的设计进行改进,主要对传递函数零极点处理;

 

采用Matlab进行原理性的仿真实验,验证滤波器效果和算法的正确性;

 

使用VerilogHDL硬件描述语言进行电路建模,划分好电路模块,分模块予以实现,最终实现整个IP核;

 

用ModelSim对IP Core进行硬件仿真,验证电路的正确性以及是否具备优化空间;

 

在Xilinx的Vertex系列或是Spartan系列FPGA上予以验证;

 

对整个3D虚拟环绕声系统进行主观综合评价。

 

六、预期成果

虚拟环绕声的算法的verilog实现;

 

将虚拟环绕声模块加入DSP音频处理器核,形成新的音频处理器;

 

在Vertex系列FPGA实现最终处理器;

 

利用ARM或是其它MCU实现对音频处理器控制,使之能播放音乐,并实虚拟环绕声效果;

 

使播放器具有其它创新特性的功能(在项目完成过程中发掘)。

 

 



评论

技术专区