Audio Processing Overview

概述

本目录包含音频处理完整流程的技术文档，涵盖从音频采集到最终渲染播放的各个环节。文档按照音频处理管道（Audio Pipeline）的逻辑顺序组织。

音频处理管道

音频处理的完整流程如下：

采集 → 前处理 → 编码 → 传输 → 解码 → 渲染 → 其他

文档目录

1. 音频采集 ✅

Audio Capture

音频处理的第一步，负责从麦克风等设备获取原始音频数据。

主要内容：
– 采集设备（麦克风、线路输入、虚拟音频设备）
– 音频接口标准
– Linux: ALSA、PulseAudio
– macOS/iOS: CoreAudio、AVFoundation
– Windows: DirectSound、WASAPI
– Web: MediaDevices API、Web Audio API
– Android: AudioRecord
– PCM格式（采样率、位深度、声道数）
– 采样参数
– 采样率：8kHz-48kHz（电话质量 8kHz、CD质量 44.1kHz、高保真 48kHz）
– 位深度：8-bit、16-bit、24-bit、32-bit
– 声道：单声道、立体声、多声道
– 基础音频前处理（降噪、AEC回声消除、AGC自动增益、VAD语音活动检测）

适用场景： 语音通话、视频会议、音频录制、实时通信

2. 音频前处理 ⚠️

Audio Preprocessing

对采集到的原始音频进行预处理，提升音质或满足特定需求。

主要内容：
– 降噪（Noise Reduction）
– 回声消除（AEC）
– 自动增益控制（AGC）
– 其他预处理技术

状态： 📝 待补充内容

3. 音频编码 ✅

Audio Encoding

将原始音频数据压缩为特定格式，减少数据量和传输带宽。这是音频处理中最核心的环节之一。

主要内容：
– 编码标准概述
– AAC（Advanced Audio Coding）：基于MDCT，码率32-320kbps，广泛使用
– Opus：结合CELP和MDCT，码率6-510kbps，低延迟（2.5-60ms），开源免费
– SILK：Skype开发，专为语音优化，低码率高质量
– G.711/G.722：传统电话系统，延迟极低
– MP3：经典格式，广泛支持但压缩率不如AAC
– 编码核心概念
– 码率控制（CBR、VBR、自适应码率）
– 采样率转换（上采样、下采样、重采样算法）
– 声道处理（单声道、立体声、多声道）
– 编码延迟（实时通信需低延迟<100ms）
– 编码方式对比表（码率、压缩率、延迟、质量、兼容性、专利）
– 硬件编码支持
– 各平台硬编硬解支持（iOS/macOS、Android、Windows、Linux）
– 3A音频处理支持（AEC、ANS、AGC）
– 硬编vs软编对比

适用场景： 语音通话、音乐流媒体、实时通信、音频存储

4. 音频传输 ✅

Audio Transport

将编码后的音频数据通过网络传输到接收端。

主要内容：
– 传输协议
– RTP/RTCP：实时传输协议，用于音视频流传输
– RTMP：基于TCP，延迟较低，用于直播推流
– WebRTC：浏览器实时通信，P2P传输，内置拥塞控制
– 传输机制
– 分包与重组（音频帧分割、序列号、时间戳）
– 丢包重传（ARQ、FEC前向纠错）
– 拥塞控制（检测网络拥塞、动态调整发送速率）
– QoS保障（优先级队列、带宽预留、流量整形）
– 传输优化
– 自适应码率（根据网络状况调整）
– Jitter Buffer（抖动缓冲，平滑网络抖动）
– 缓冲策略（平衡延迟和流畅度）

适用场景： 实时通信、语音通话、音频直播、VoIP

5. 音频解码 ✅

Audio Decoding

将接收到的压缩音频数据还原为原始音频（PCM）数据。

主要内容：
– 解码器类型
– 软件解码器
– FFmpeg/libavcodec：开源，支持几乎所有音频格式
– libopus：Opus专用解码器
– fdk-aac：高质量AAC解码器
– 硬件解码器（SoC集成，支持AAC、MP3等，功耗低）
– 解码流程
– 码流解析（解析容器格式MP4/FLV/OGG，提取编码参数）
– 音频重建（解码帧、应用反变换IMDCT、输出PCM）
– 错误恢复（检测丢包、错误隐藏、请求重传或FEC）
– 解码优化
– 多线程解码（帧级并行）
– 硬件加速（降低CPU占用）
– 低延迟解码（减少缓冲、快速启动）

适用场景： 音频播放器、实时通信、语音通话

6. 音频渲染播放 ✅

Audio Rendering

将解码后的音频数据输出到扬声器或耳机进行播放。

主要内容：
– 渲染方式
– 平台音频API
– Linux: ALSA、PulseAudio
– macOS/iOS: CoreAudio
– Windows: DirectSound、WASAPI
– Web: Web Audio API
– Android: AudioTrack、AudioManager
– 音频驱动接口（直接与驱动交互，低延迟但兼容性差）
– 音频设备管理（枚举设备、选择输入/输出、热插拔处理）
– 渲染优化
– 音频同步（与系统时钟同步、音视频同步）
– 音量控制（系统音量、应用音量、混音处理）
– 音效处理（均衡器EQ、混响Reverb、压缩Compressor、降噪）
– 播放控制
– 播放/暂停/停止（控制音频流、状态管理）
– 音量调节（实时调整、静音、音量渐变）
– 播放速度控制（倍速播放、保持音调不变）

适用场景： 音频播放器、实时通信、音乐播放

文档状态说明

✅ 完整文档：内容已完善，可直接参考使用
⚠️ 待补充：文档框架已建立，但内容尚未完善

快速导航

按使用场景查找

语音/视频通话（实时通信）
– 音频采集 → 音频编码 → 音频传输 → 音频解码 → 音频渲染
– 推荐编码：Opus（低延迟、高质量）
– 推荐协议：WebRTC（内置3A处理、拥塞控制）

音乐流媒体
– 音频编码 → 音频传输 → 音频解码 → 音频渲染
– 推荐编码：AAC（高质量、广泛支持）或Opus（开源、高效）
– 推荐协议：HTTP/HLS（自适应码率）

音频录制
– 音频采集 → 音频前处理 → 音频编码
– 推荐采集参数：48kHz、16-bit、立体声
– 推荐编码：AAC或FLAC（无损）

播客/电台
– 音频采集 → 音频编码 → 音频传输
– 推荐编码：AAC或MP3（兼容性好）
– 推荐码率：64-128kbps（语音）

按技术领域查找

编解码技术
– 音频编码：AAC、Opus、SILK、G.711/G.722、MP3
– 音频解码：FFmpeg、libopus、fdk-aac、硬件解码

网络传输
– 音频传输：RTP/RTCP、RTMP、WebRTC、丢包处理、拥塞控制

音频处理算法
– 音频采集 → 基础音频前处理（降噪、AEC、AGC、VAD）
– 音频前处理：待补充
– 音频编码 → 3A音频处理支持

硬件加速
– 音频编码 → 3.4 硬件编码支持
– 音频解码 → 5.1 硬件解码器

平台音频API
– 音频采集 → 1.2 音频接口
– 音频渲染 → 6.1 渲染方式

按编码格式查找

AAC
– 音频编码 → 3.1 编码标准概述 → AAC
– 特点：压缩率高、质量好、广泛支持
– 适用：音乐流媒体、视频音频轨道、广播

Opus
– 音频编码 → 3.1 编码标准概述 → Opus
– 特点：压缩率高、延迟低（2.5-60ms）、开源免费
– 适用：WebRTC、VoIP、实时通信、音乐流媒体

G.711/G.722
– 音频编码 → 3.1 编码标准概述 → G.711/G.722
– 特点：延迟极低、质量一般
– 适用：传统电话系统、VoIP

MP3
– 音频编码 → 3.1 编码标准概述 → MP3
– 特点：广泛支持、压缩率中等
– 适用：音乐存储、播放

音频参数速查表

采样率对照表

采样率	质量等级	典型应用
8kHz	电话质量	电话系统、对讲
16kHz	宽带语音	VoIP、语音通话
24kHz	高质量语音	视频会议
32kHz	FM广播	广播、视频
44.1kHz	CD质量	音乐、CD
48kHz	专业级	专业音频、视频
96kHz+	超高保真	专业音频制作

码率推荐表

内容类型	推荐编码	推荐码率	说明
语音通话	Opus	16-32kbps	窄带/宽带语音
视频会议	Opus	32-64kbps	高质量语音
音乐流媒体	AAC/Opus	128-192kbps	高质量立体声
高保真音乐	AAC	256-320kbps	接近无损
播客/电台	AAC/MP3	64-128kbps	语音为主

延迟对照表

应用场景	可接受延迟	推荐方案
实时通话	`<100ms`	Opus + WebRTC
视频会议	`<150ms`	Opus + RTP
音乐协作	`<50ms`	低延迟Opus + 专用协议
直播	2-5秒	AAC + RTMP/HLS
点播	>5秒	AAC + HTTP

最后更新：2026-01-21

浏览量: 20

音频处理概述