- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

FFmpeg开发笔记（十四）FFmpeg音频重采样的缓存

aqi00 发表于 2024/04/21 12:31:43 2024/04/21

【摘要】 FFmpeg在很多地方都运用了缓存机制，比如《FFmpeg开发实战：从零基础到短视频上线》一书的“3.3.2 对视频流重新编码”介绍了编解码的数据缓存，不单是视频编码过程和视频解码过程有缓存，甚至连音频重采样都用到了缓存。也就是说，重采样函数swr_convert一次只会输出指定长度的音频数据，超出这个长度的数据被留在重采样的缓存当中。那么在对一个音频文件转换格式之时，有可能所有音频帧都...

FFmpeg在很多地方都运用了缓存机制，比如《FFmpeg开发实战：从零基础到短视频上线》一书的“3.3.2 对视频流重新编码”介绍了编解码的数据缓存，不单是视频编码过程和视频解码过程有缓存，甚至连音频重采样都用到了缓存。

也就是说，重采样函数swr_convert一次只会输出指定长度的音频数据，超出这个长度的数据被留在重采样的缓存当中。那么在对一个音频文件转换格式之时，有可能所有音频帧都遍历完了，重采样缓存里面还保存着剩余未取走的音频数据。此时要像对待视频编码缓存那样，想办法把剩下的音频数据冲出来。
具体到代码实现上，在调用swr_convert函数之时，倒数第二个参数填NULL，表示输入的数据内容为空；倒数第一个参数填0，表示输入的数据大小为0。这便告诉采样器，已经没有要转换的音频了，请把缓存中剩余的数据冲出来吧。那么swr_convert函数的返回值就是本次冲走的输出数据大小，当返回值为0时，表示重采样缓存已经冲光了，再也没有剩余的数据了，此时才能结束音频的格式转换操作。
当然，对于常见的mp3和aac格式，它们每帧的长度是固定的，正常情况调用一次swr_convert函数即可输出完整的音频数据，无需另外处理重采样缓存。只有ogg、amr、wma等格式的每帧音频长度不固定，才需要额外处理音频的重采样缓存，于是对《FFmpeg开发实战：从零基础到短视频上线》一书第五章的重采样代码改动如下。
打开chapter05/swrmp3.c，把下面这行

swr_frame->nb_samples = audio_decode_ctx->frame_size;

改为下面几行（因为ogg、amr和wma的frame_size为0，所以需要另外赋值）：

swr_frame->nb_samples = audio_decode_ctx->frame_size;
if (swr_frame->nb_samples <= 0) {
    swr_frame->nb_samples = 512;
}

另外在轮询数据包的循环结束之后，补充下面的重采样缓存冲刷代码，这样新生成的音频文件才是完整的：

while (1) { // 冲走重采样的缓存（兼容对ogg、amr等格式的重采样）
    // 重采样。也就是把输入的音频数据根据指定的采样规格转换为新的音频数据输出
    ret = swr_convert(swr_ctx, // 音频采样器的实例
                    // 输出的数据内容和数据大小
                    swr_frame->data, swr_frame->nb_samples,
                    // 输入内容填NULL、输入大小填0表示冲走缓存
                    NULL, 0);
    if (ret < 0) {
        av_log(NULL, AV_LOG_ERROR, "swr_convert frame occur error %d.\n", ret);
        return -1;
    } else if (ret == 0) { // 到末尾了
        break;
    }
    save_mp3_file(fp_out, swr_frame); // 把音频帧保存到MP3文件
}

接着执行下面的编译命令。

gcc swrmp3.c -o swrmp3 -I/usr/local/ffmpeg/include -L/usr/local/ffmpeg/lib -lavformat -lavdevice -lavfilter -lavcodec -lavutil -lswscale -lswresample -lpostproc -lm

编译完成后执行以下命令启动测试程序，期望把ring.ogg重采样后保存为MP3文件。

./swrmp3 ../ring.ogg

程序运行完毕，发现控制台输出以下的日志信息，说明完成了对ogg文件重采样mp3音频的操作。

Success open input_file ring.ogg.
audio_decode_ctx frame_size=0, sample_fmt=8, sample_rate=11025, nb_channels=1
audio_encode_ctx frame_size=1152, sample_fmt=6, sample_rate=44100, nb_channels=1
target audio file is output_swrmp3.mp3
Success resample audio frame as mp3 file.

然后打开影音播放器可以正常播放output_swrmp3.mp3，表示上述代码正确实现了将ogg音频数据重采样再转存MP3文件的功能。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

FFmpeg开发笔记（十四）FFmpeg音频重采样的缓存

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

FFmpeg开发笔记（十四）FFmpeg音频重采样的缓存

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品