USB音频基本原理介绍

发布人：dolphin 时间：2017-04-13

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

USB（通用串行总线）经过几十年发展，已经成为一种在个人电脑领域大量使用的标准。记忆棒、移动硬盘、鼠标和网络摄像头都通过USB连接。本文将深入分析USB音频：一种用来将PC、智能手机和平板电脑中所使用的电子音频与扬声器、麦克风或调音台等音频外设连接在一起的标准。本文将描述USB音频的工作原理，需要注意什么事项，以及对于高保真多通道输入输出，应如何使用USB音频等。
USB基本原理
USB是一种由PC（USB主机）发起一次传输，设备（例如一套USB扬声器）继而响应的通信协议。每次传输都寻址到一个特定设备，并寻址到该设备的一个特定端点。IN传输将数据发送至PC.当主机发起一次IN传输时，设备必须用主机所需的数据做出响应。OUT传输将数据传输至设备。当主机执行一次OUT传输时，它发送设备必须捕获的数据包。在USB音频领域，IN传输和OUT传输可以用于传输音频样本：一个OUT传输将音频数据从PC发送至扬声器，而IN传输用于将音频数据从麦克风发送至PC。
USB规范中有4种类型的IN传输和OUT传输：批量传输、同步传输、中断传输和控制传输。
批量传输用于在主机和设备之间可靠地传输数据。所有USB传输都带有CRC（校验和），它表明是否有错误发生。在一次批量传输中，数据的接收端必须验证CRC.如果CRC正确，传输被应答，数据被假定已经传输无误。如果CRC不正确，传输不会被应答，然后将会重试。如果设备未准备好接收数据，它将传送一个否定应答（NAK）信号，该信号将会使主机重试传输。批量传输不被认为对时间要求严格，因此将会安排在以下将要讨论的、对时间要求严格的各种传输的周边时间。
同步传输用于在主机和设备之间实时传输数据。若主机建立了同步端点，主机会为同步端点分配一定数量的带宽，并且它将在该端点上规律地执行IN传输或OUT传输。例如，主机可以每125μs对该设备OUT 1KB数据。由于分配了固定的、有限数量的带宽，如果出现了任何异常，都将没有时间重发数据。数据具有正常的CRC,但是如果接收端检测到错误，将没有重发机制。
中断传输被主机用于定期探询设备，以发现是否有值得做的事情发生。例如，主机可以探询音频设备，核对静音（MUTE）按钮是否已被按下。“中断”传输这个名称有一点混淆视听，因为其并不中断任何事情。然而，数据的定期探询给出了主机中断将会提供的相同类型的功能。
控制传输与批量传输非常相似。控制传输会被应答（即可以被NAK），并且以非实时方式传送。控制传输用于正常数据流以外的操作，例如询问设备功能或端点状态。设备功能描述的说明在本文范畴之外，本文仅陈述诸如“USB音频类”或“USB大容量存储类”等预定义的类型，它们能够实现跨平台的互操作性。
USB帧中制定了所有的传输类型。高速USB帧的长度为125μs（Full Speed USB帧为1ms），并由主机发送帧起始（SOF）消息进行标记。同步传输和中断传输每帧至多发送一次。
USB音频
USB音频使用了同步传输、中断传输和控制传输。所有音频数据通过同步传输来传输；中断传输用于转发关于音频时钟可用性的信息；控制传输用于设置音量、请求采样率等（参见图1）。

图1:主机和USB设备之间的传输--同步IN和OUT用于音频数据，控制用于设置参数，中断用于状态监视。
USB音频系统的数据需求取决于通道数、代表每个样本的位数，以及采样率。典型的通道数为2（立体声）、6（5.1声道）或者更高（用于录音室或DJ应用）。尽管传统音频可用16位，典型的采样率为24位，而高质量音频为32位。典型的采样率为44.1、48、96及192kHz，后者为高质量音频所使用。
这里假设去设计一个具有96kHz采样率和24位样本的立体声音频扬声器系统，为了简化主机和设备上的数据编组，24位值一般用一个零字节填充，因此，总数据吞吐速率为96，000×2通道×4B=768，000Bps。同步端点以每125μs进行一次传输（或8000次传输/s）的速率工作。用所需的字节速率除以帧速率，可以得到每次同步传输的字节数：768，000/8，000=每次传输96B。
假若使用例如44，000Hz 的CD唱片速率，传输速率经计算为44.1次传输/s。在USB音频中，每次传输总是运送整数个样本；传输在48B和40B（6个和5个立体声样本）之间交替进行，以至于平均速率算出为每次传输44.1B。
单次同步传输可运送1024B,最多能够运送256个样本（在24/32位时）。这意味着，单个同步端点在48kHz时能传输42个通道，或者在192kHz时能传输10个通道--假定使用的是高速USB（High Speed USB）--全速USB（Full Speed USB）在48kHz时无法运送多于一个立体声IN和OUT对。
当发送数字音频时，将会有延迟引入。在高速USB的情况下，延迟为250μs.数据包在每个125μs窗口中传输一次，但是考虑到它可能会在该窗口中的任何时候发送，需要有一个250μs的缓冲器。在该250μs延迟的顶端，操作系统（O/S）驱动程序和编解码器（CODEC）中可能引起额外延迟。注意：全速USB的固有延迟远远更高（为2ms），因为数据在每个1ms窗口中仅发送一次。
1s在“朋友”之间是什么？
在数字音频中，商定一个共同的时间概念是大问题。上文已经定义了USB帧的传输速率为8，000次/s，并设定了扬声器播放样本的速率为96，000次/s。仅当扬声器和主机约定了1s的长度，这才能够奏效。USB音频提供了3种模式，来确保主机和扬声器共同约定时序：
● 在同步模式中，1s的长度由主机设备定义。这就是说，主机以某个速率发送数据，设备必须精确匹配这个速率。
● 在异步模式中，这正好相反--设备设置1s的定义，主机必须对设备进行匹配。
● 在自适应模式中，数据流决定时钟。
自适应模式和同步模式并不理想，因为PC保持时钟稳定的能力非常差，而且经常有其他音频源介入，例如一台外部数字录音机。异步模式使外部时钟源（或是设备内的低抖动时钟）能够用作主时钟。一般两者都依赖于基于晶振的锁相环（PLL），如图2所示。

图2:一款带有一个晶振用于稳定音频频率的USB音频板，并且有一个低抖动PLL用于产生任何所需的频率信号。
因此，系统中至少有2个不同的时钟：USB时钟由主机产生，频率为8，000次传输/s；采样时钟由外部产生，例如，其采样率为96，000Hz。
这些时钟的频率会略有不同，其差别会随时间略微变化。因此，每帧音频样本的平均数会稍微高于或低于期望的比率。例如，在本文96,000Hz采样率的情况下，样本的平均数为12.001.为了确保主机发送正确数量的数据，并且不会太多或太低，主机向中断端点请求当前的采样率。每隔几个毫秒，上一个周期的平均采样率将以16.16位定点数格式回报。如果上一个周期取平均数为12.001帧，那么报告值将为0x000C0041（65536×12.001）。
给定该平均速率，主机将能计算出在一次传输中在何时发送额外样本；在此例中，每秒8次传输将运送一个额外样本。此外，主机能够利用该值与音频设备进行同步。这使得DVD播放器等主机应用能够将视频保持为与音频同步。如果没有同步，音频会慢慢地跑到视频前面，两个小时以后，音频将会有1s误差。
为了保持反馈回路较短，诀窍是不对音频包和反馈包做不必要的缓冲。任何附加的缓冲都会产生报告延迟，该延迟使得保持通信流的平滑变得更加困难。这意味着，底层USB栈和USB音频栈应紧密集成，而无需在它们之间缓冲。尽管这在应用处理器上难以达到，但是把软件在执行时间可预测的嵌入式处理器上来实现，这点将非常容易达到。诸如XMOS等公司现在可以提供这种可预测的嵌入式处理器，如XMOS的xCORE多核MCU等处理器系列。借助其丰富的内置USB接口，它们紧密地将底层USB栈和USB音频栈集成在一起。
多个时钟源
以上方案仅考虑了两个时钟源--或者USB设备提供时钟，或是主机提供时钟。在调音台等更复杂的设备中，可能还有其他设备提供采样率，例如，通过ADAT或S/PDIF等数字接口，或通过携带字时钟的BNC连接器提供。对于这样的系统，USB音频标准使设计人员能够在设备当中置入时钟选择器。
时钟选择器规定采用哪个时钟作为采样率。时钟选择器有多个输入时钟（例如，一个S/PDIF接口上的输入时钟、本地晶振、以及一个ADAT接口上的输入时钟），并带有一个用户可选择哪个时钟用作输入的控制传输，例如S/PDIF接口上的输入时钟。
符合性及原生支持
一旦一款设备符合USB音频类协议，它将会很便捷地集成到操作系统中。图3显示了USB音频设备插入到Mac OS/X系统中的控制界面截屏。它表明，时钟选择、采样率选择、通道音量控制以及静音控制等都是可以控制的，就像对于任何其他的音频设备那样。

图3:一款可互操作的设备出现在标准O/S对话框（例如本例中的OS/X）中，并且O/S可以设置音量和采样率等。
设备的标准符合性使其可以实现互操作。O/S供应商能够提供一种单独的USB音频驱动程序，该驱动程序可驱动大量设备，并具有众多功能。
的确，相同的USB音频实现能够进行参数化，以实现不同数量的通道，并且相同的驱动程序能够用于连接设备。

USB音频基本原理介绍

相关电路

相关新闻

相关资源

评论

技术专区