音频信号处理

音频信号处理，又称音频处理，音乐信号处理（英语：Audio signal processing）等，用来调整音乐信号的振幅、频率、波形等信息。利用某些四则运算，升降频，及窗函数，就可以处理出各式各样的声音频号。

透过一些信号处理的技巧，可以从声音频号获取背后所代表的频率高低，做更进一步的分析与应用。

音频的来源

当物体发生震动时，就会产生声音，举例来说：当用力挥动手掌时，就会产生声音，以及蚊子翅膀快速震动时，所发出的扰人声音。
但是，在上述例子中，所听到的声音是来自于空气震动，而不是因为手掌摆动，
原因是人耳可以听到的声音频率介于20Hz到20000Hz之间，所以我们可以听到空气振动产生的声音，却听不到手掌摆动产生的声音，因为摆动的频率不够快。

音频的信息

声音频号是一种力学波，因此在传播过程中是一种模拟连续的信号，然而由于人耳是天然的傅里叶变换器，因此音频经过人耳后会变成数字信号。在这些信号中，有三个特征是处理时经常考虑的部分，可以参考下图：

音量：从信号来看，音量代表的是信号的振幅，信号振幅越大，所发出的音量也越大。
音频：信号的频率，就是所谓的音频，也就是声音震动的频率。其代表的是音调的高低，频率越高，音调就越高。除此之外，乐器所产生的声音频号，并非是单一频率的信号，而是有基带和泛音（倍频）的存在。
音色：每一个人或乐器所发出的音色都不一样，从信号上来看，音色就是信号的波形，因此只要利用波形分析，就可以判断出声音的来源，从下图可以看到小提琴跟钢琴的音色差异非常大。

音频的三个特征：音量、音频、音色。

音频的文件

音频的文件存储可以分成压缩和无压缩两种，常见的无压缩包案格式为*.wav，而压缩包案格式为*.mp3，关于这一部分的详细资料可以引用音频档案格式。声音档的访问时，主要有三个需要考虑因素：

采样率：在信号处理中，采样率所代表的是声音的质量，采样的频率越高，数字信号的波形越接近模拟信号的波形，因此声音的质量也越好。而在做采样时，必须遵守奈奎斯特频率，简单来说，频率在采样时至少要大于原信号频率的2倍，才可以得到有意义的信号，也能还原成原本的信号。
声音分辨率：访问信号资料点所用的比特数，即代表其分辨率。所使用的比特数越大，每个资料点的数值就越精确，声音的分辨率也越好。比较16bit与8bit两种访问比特，16bit可以访问到较精确的数值，但是也会花比较大的硬件存储空间。
声道：声道就是声音的来源数，常听到的单声道及双声道，代表的是声音是否有立体感。利用两个喇叭，拨放单声道的声音，左右两个喇叭发出的声音完全相同，因此会感觉声音是来自两个喇叭中间，但若是双声道声音，左右两个喇叭发出的声音会有一定差异，因此会觉得声音听起来有立体感。

举例来说，借由MATLAB输入指令audioinfo（音频档案名称），可以得到音频档案的相关信息如下图：

因为文件格式是*.wav，所以是无压缩 (uncompressed)。
声道 (NumChannels)： 1
采样率 (SampleRate)： 44100Hz
声音分辨率 (BitsPerSample)： 16

执行MATLAB函数：audioinfo(音频档案名称)

音频的处理

由于声音频号是一段长时间的信号，因此在处理时必须要分段进行，在处理之前会先开一个范围，选择出想要处理的部分，再针对范围内的部分做处理，声音信息主要包含：响度、音色和音高，三个部分，也是最常处理的部分。

响度控制：音量是一种相对信号，在信号中代表得是振幅，其计算方式是将范围内的信号取平方相加，在以10为底取log，单位是分贝（dB）如下公式： $Amplitude(dB)=10log_{10}\sum _{k=1}^{N}k^{2}$ $Amplitude(dB)=10log_{10}\sum _{k=1}^{N}k^{2}$ 但是，在对人耳来说，音量是一种主观的感受，根据佛莱彻森曲线（Fletcher-Munson Curve），在不同频率之下，人耳要听到声音的话，对音量有一个最低要求，如下图所示。反过来说，虽然声音频号的振幅相同，但是因为频率高低不同，对人耳的感受大小也会不同，相同声音强度，耳朵对低频的感受度较差，对3000Hz左右的声音感受度最高，越往高频又会慢慢降低。调整音量最简单的方式就是用加减法，首先把要处理的范围框出来，接着计算出振幅大小，最后再减掉想要减少的振幅强度，就可以降低音量，反之用加法就可以增强区域的音量。

在不同频率之下，人耳对声音的敏感度会有所不同。

音频控制：音频是声音频号处理的核心部分，最常用的简单处理方式是增频和降频。音频代表得是信号的音高，中音Do的频率约在262Hz，在音乐中，有C（Do），#C（#Do,♭Re），D（Re），#D（#Re,♭Mi），E（Mi,♭Fa），F（Fa），#F（#Fa,♭Sol），G（Sol），#G（#Sol,♭La），A（La），#A（#La,♭Si），B（Si），12个特定的音阶，每差12个音阶，频率会变为原来的两倍，其频率设置是以440Hz为标准音频，做进一步数学推算，其频率为440乘上2的n/12次方，其中n是上面列出的第几个音阶。音频的处理最常用的是升频和降频，先选出想要处理的区域，接着做升降频的动作，这其中必须要注意奈奎斯特理论，避免信号失真。 frequency = 2^n/12 * 440
频率分析：透过离散傅里叶变换（Discrete Fourier Transform），通常简称为DFT，可以将一段声音频号变换成其各个频率的正弦波分量，方便做更进一步的分析、运算。下图是将频率为440Hz的正弦波信号，借由MATLAB function: fft，可以得到信号组成频率的分量，从图上可以看到在440Hz的地方有特别大的值。

将正弦波的信号，经由傅里叶变换，可以得到信号组成的频率。

音色：每一组声音频号的波形都不一样，其物理意义是音色，因此如果改变波形的变化，就可以产生出音色类似的声音，处理波形最简单的方法就是用窗函数(window function)，利用既有或自制的窗函数，将信号做简单的卷积运算就可以改变信号的波形，创造出不同的音色。
倍频：通常音乐的信号不是单一频率的信号，而是由基带，以及其泛音(基带的整数倍，倍频)所组成，因此若自制电子音乐时，必须注意倍频对声音饱和度产生的影响。下图将音乐信号经过频率分析后，可以看到除了在 $f_{0}=330Hz$ $f_{0}=330Hz$ 左右的基带外，在 $2f_{0}$ $2f_{0}$ 、 $3f_{0}$ $3f_{0}$ 的部分也会有较大的分量。

音乐信号会由基带、泛音所组成，经过频率分析后，分量在基带倍数的地方有较大的值。

端点侦测：端点侦测的目的是使信号处理的范围更精确，方法很简单，只要设置一个音量阈值，若信号小于阈值，则将其视为没信号，但是若噪声过高，则会产生误差。

MATLAB声音信号处理指令

[y, fs] = audioread(文件名)：y是声音频号的向量，fs是采样率。
audioinfo(文件名)：回传各种声音文件的相关信息，像是采样率、通道数量、声音分辨率...等。
sound(y, fs)：以fs的频率播放声音频号y。
wavwrite(y, fs, filename)：将y信号，以采样速率fs，写到filename.wav之中。
Y = fft(y)：将时间轴上的信号y，变换为频率轴上的信号Y。

参考资料

^[1]http://djj.ee.ntu.edu.tw/ADSP7.pdf （页面存档备份，存于互联网档案馆）

^ 丁建均. 高等數位訊號處理 (PDF). [2017-05-27]. （原始内容存档 (PDF)于2021-03-18）.

[1] 丁建均. 高等數位訊號處理 (PDF). [2017-05-27]. （原始内容存档 (PDF)于2021-03-18）.

[1]

查论编数字信号处理
理论	信号检测理论离散信号估计理论采样定理
子领域	音频信号处理影像处理语音处理统计信号处理（英语：Statistical signal processing）
技术	Z变换高级Z变换匹配Z变换双线性变换常量Q变换傅里叶变换离散傅里叶变换（DFT）离散分数傅里叶变换（DFFT）离散时间傅里叶变换（DTFT）冲激不变法积分变换拉普拉斯变换拉普拉斯逆变换星标变换札克变换
采样	混叠抗混叠滤波器奈奎斯特率（英语：Nyquist rate） / 频率升采样降采样（英语：Undersampling）过采样欠采样（英语：Undersampling）采样率量化