音频采集
采集设备与接口
麦克风类型
– 模拟麦克风:传统麦克风,需要ADC转换
– 数字麦克风:直接输出数字信号,MEMS技术
– 阵列麦克风:多个麦克风组成阵列,支持波束成形、降噪
采集参数
– 采样率:每秒采样次数,常见值:8kHz、16kHz、44.1kHz、48kHz
– 位深:每个采样点的位数,常见值:16bit、24bit、32bit
– 声道数:单声道(Mono)、立体声(Stereo)、多声道(5.1、7.1等)
采集API
– Linux: ALSA(Advanced Linux Sound Architecture)
– macOS/iOS: CoreAudio
– Windows: DirectSound、WASAPI(Windows Audio Session API)
– Web: Web Audio API、MediaDevices API
– Android: AudioRecord、AudioManager
音频格式
PCM格式(Pulse Code Modulation)
– 未压缩的原始音频数据
– 采样率:决定频率范围(Nyquist定理,采样率需≥2倍最高频率)
– 位深:决定动态范围和信噪比
– 声道:单声道数据量最小,立体声数据量翻倍
音频预处理
– 自动降噪(ANS):去除背景噪声,提高信噪比
– 回声消除(AEC):去除扬声器播放声音的回声
– 自动增益控制(AGC):自动调整音量,保持稳定
– 静音检测(VAD):检测是否有声音,用于节省带宽
采集参数
采样率选择
– 8kHz:电话质量,带宽要求低
– 16kHz:语音通话常用,质量与带宽平衡
– 44.1kHz:CD质量,音乐播放
– 48kHz:专业音频、视频同步
位深选择
– 16bit:常用,动态范围96dB,足够大多数场景
– 24bit:专业音频,动态范围144dB
– 32bit:浮点格式,用于音频处理
声道配置
– 单声道:语音通话,数据量最小
– 立体声:音乐、视频,提供空间感
– 多声道:环绕声,数据量大
