视频中的“帧”是指一张图片,那么在音频中,“帧”的含义就完全不同了。理解音频中的“帧”概念,对做音视频处理、流媒体开发非常关键。
一、声音是怎么采集的?
音频采集是指通过麦克风等设备捕捉周围环境中的声波,并将其转换为电信号,再通过模数转换器(ADC)将这些模拟电信号转换为数字信号的过程。这样,计算机就能对音频数据进行处理、存储或传输。
简单理解下:
1、声音的产生
麦克风是采集到周围环境中的声音。那声音是怎么产生的?实际上,声音是由振动产生的。人说话是通过声带产生了对周围的空气的振动;走路等运动也会根据幅度等因素产生不同等级的振动;各种振动混合造成了我们周围的声音。
2、声音数据怎么传输和存储
麦克风获取到周围的声音后,通过电信号的方式来标识采集到的数据。为了将数据在网络中进行传输,需要借助模数转化器,将模拟信号转化为数字信号,这样就可以在网络中传输了。
3、声音的存储
此时接收端收到的音频数据就是123456…这样的数字。实际上是一个非常大的浮点数组,对这些数据进行不同格式编码(wav,mp3等),在保存到磁盘上。
4、声音数据播放
存储的音频文件通过数模转换器(DAC)转换回模拟信号。在将模拟信号放大并通过扬声器或耳机等设备转换成声波,人耳就可以听到了。
二、采样率是什么?
采样率指的是每秒钟从连续信号中提取并组成离散信号的样本数量,通常以赫兹(Hz)为单位表示。例如,44.1kHz意味着每秒采集44,100个样本。
根据奈奎斯特定理,为了准确地重建原始音频信号而不产生混叠失真,采样率至少需要是最高音频频率的两倍。对于人类听觉范围(大约20Hz到20kHz),常用的CD质量音频采样率为44.1kHz。
三、音频中的帧是什么?
在音频处理中,“帧”通常指的是一组样本集合,这些样本可能来自单声道或多声道。帧的概念主要用于编码和解码过程中,作为最小处理单元。它不像视频帧那样是“图像”,而是一段短时间内的声音数据。
公式:
- 一个音频帧 = 所有声道在一个时间点上的采样值。
- 每个音频帧包含:- 采样数(samples per frame)- 声道数(channels)
假设你有一个立体声(2声道)音频,每个音频帧包含1024个采样点:
- 那么这个帧中就有:1024 × 2 = 2048个采样值
- 左右声道各 1024 个采样
帧的作用:
不同的音频编码格式可能有不同的帧大小。帧不仅包含音频样本数据,还可能包括用于同步、错误检测等功能的额外信息。
扩展一下:
位深度(Bit Depth)是什么?
位深度决定了每次采样所用的数据位数,直接影响到音频动态范围的大小。常见的位深度有16位、24位等。较大的位深度允许更大的动态范围和更低的噪音底。
比特率是什么?
比特率指的是每秒钟音频数据的传输速率。对于未压缩音频格式,比如WAV,比特率由采样率、位深度和通道数决定。例如,CD质量的音频具有44.1kHz的采样率、16位的位深度和2个声道(立体声),其比特率为 44100×16×2=1411.2 kbps。
公式:
比特率 = 采样率 × 位深度 × 声道数
提高任意一个参数(比特率、采样率或位深度)都可以提升音频的质量,但这也会增加文件的大小。
简单来说,比特率越高,音质也就越好。
四、音频帧和时间的关系
音频帧并不是以“每秒多少帧”来衡量的(像视频那样),而是通过采样率(Sample Rate)和每帧的采样数(Samples Per Frame)来计算它的持续时间。
计算公式:
示例:
- 采样率 = 48000 Hz(即每秒采集48000个样本)
- 每帧采样数 = 1024
那么一帧音频的时长为:
也就是说,每一帧音频大约持续21ms。
简单理解下:
假如你用麦克风采集了10秒的音频数据,采样率是48000Hz,帧的大小为1024。
那么这10秒内,每秒采集48000个采样值,10秒共采集480000个采样值。每秒包含48000/1024≈46.8个帧。音频的处理通常都是按照帧的大小来处理的。
五、常见音频帧大小(采样数)
不同编码格式或协议中,每帧的采样数可能不同:
六、音频帧的重要性?
1、同步音视频:
- 视频通常是以固定帧率(如25 FPS)播放;
- 音频则按帧的时间长度进行对齐,才能与视频同步。
2、网络传输:
- 在RTMP、RTP等流媒体协议中,音频是以帧为单位打包发送的;
- 每帧对应一定时间的声音,便于控制延迟和缓冲。
3、音频编码/解码:
- 多数音频编码器(如FFmpeg中的aac, opus)都要求输入的是完整的音频帧;
- 如果数据不够一帧,就不能编码。
七、类比理解(视频 vs 音频)
八、总结
音频采集是一个将声波转换为数字信号的过程,其中采样率决定了信号的质量,而帧则是在编码和解码过程中使用的结构化数据单元。要播放采集的数据,需先通过DAC将数字信号转回模拟信号,再通过物理设备如扬声器播放出来。理解帧和采样率的作用有助于更好在声音领域的相关研发。
向阳而生,Dare To Be!!!