【Audio音频开发】音频基础知识及PCM技术详解_audio pcm-程序员宅基地

技术标签: 音视频  Audio Develop  Audio音频开发  服务器  音频  Linux驱动开发  

img
个人主页:董哥聊技术
我是董哥,嵌入式领域新星创作者
创作理念:专注分享高质量嵌入式文章,让大家读有所得!
img

1、前言

现实生活中,我们听到的声音都是时间连续的,我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。

目前我们在计算机上进行音频播放都需要依赖于音频文件。那么音频文件如何生成的呢?

音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程,我们人耳所能听到的声音频率范围为(20Hz~20KHz),因此音频文件格式的最大带宽是20KHZ

根据奈奎斯特的理论,音频文件的采样率一般在40~50KHZ之间。

奈奎斯特采样定律,又称香农采样定律,即:为了不失真地恢复模拟信号,采样频率应该大于等于模拟信号频谱中最高频率的2倍。

 

2、概念

声音的本质是一种能量波,由振动而产生的能量波,通过传输介质传输出去。

img

声音有三个属性

  • 音调:声音频率的高低,表示人的听觉分辨一个声音的调子高低的程度。音调主要由声音的频率决定,同时也与声音强度有关。
  • 音量:由“振幅”(amplitude)和人离声源的距离决定,振幅越大响度越大
  • 音色:又称声音的品质,波形决定了声音的音色。

波长是决定音调高低;振幅是决定音量高低;波纹是决定音色。

 

3、 PCM介绍

PCM(Pulse Code Modulation),即脉冲编码调制技术。

由于我们人耳听到的声音均为模拟信号,那么我们如何将听到的信息存储起来呢?这就涉及到了PCM技术。

PCM技术就是把声音从模拟信号转化为数字信号的技术,即对声音进行采样、量化的过程,经过PCM处理后的数据,是最原始的音频数据,即未对音频数据进行任何的编码和压缩处理。

 

4、 PCM原理

脉冲编码调制就是把一个时间连续,取值连续的模拟信号变换成时间离散,取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样,再对样值幅度量化,编码的过程。

简化来说:PCM脉冲编码调制,以一个固定的频率对模拟信号进行采样,并将采样的信号按照一定精度进行量化,最终量化后的值被输出,记录到存储介质中。

如下图所示

  • 原始模拟音频数据如下

image-20220801191024951

  • 按照固定频率进行采样,得到

image-20220801191056431

  • 最后,对采样后的数据选择合适精度进行量化

image-20220801191140538

 

5、PCM相关概念

5.1 采样频率

采样频率单位时间内对模拟信号的采样次数,它用赫兹(Hz)来表示。采样频率越高,声音的还原就越真实越自然,当然数据量就越大。采样频率一般共分为22.05KHz44.1KHz48KHz三个等级。

Tip:

  • 5kHz的采样率仅能达到人们讲话的声音质量。

  • 11kHz的采样率是播放小段声音的最低标准,是CD音质的四分之一。

  • 22kHz采样率的声音可以达到CD音质的一半,目前大多数网站都选用这样的采样率。

  • 44kHz的采样率是标准的CD音质,可以达到很好的听觉效果。

  • 48KHz:miniDV、数字电视、DVD、电影和专业音频。

 

5.2 采样位数

采样位数(Sample Bits):又称为采样精度,量化级,也相当于每个采样点所能被表示的数据范围。

采样位数通常有8bits16bits两种,采样位数越大,所能记录声音的变化度就越细腻,相应的数据量就越大。

8bits为低品质,16bits为高品质,16bits最为常见。

 

5.3 声道数

声道数(Channels):又称为通道数,指的是:能支持不同发声的音响个数,它是衡量音响设备的重要指标之一。

Tip:

  • 单声道的声道数为1个声道;
  • 双声道的声道数为2个声道;
  • 立体声道的声道数默认为2个声道;
  • 立体声道(4声道)的声道数为4个声道。

 

5.4 音频数据大小计算

知道上面三个概念,我们就能够计算出来一个原始的音频文件所占用空间大小了。
空间大小 ( B y t e ) = 采样频率 ( h z ) ∗ 时长 ( s ) ∗ 采样位数 ( b i t ) ∗ 声道数 / 8 空间大小(Byte)=采样频率(hz) * 时长(s) * 采样位数(bit)*声道数/8 空间大小(Byte)=采样频率(hz)时长(s)采样位数(bit)声道数/8
 

5.5 量化

量化: 量化就是通过四舍五入的方法将采样后的模拟信号转换成一种数字信号的过程。

对于采样来说,就是在时间轴上对信号数字化

对于量化来说,就是在幅度轴上对信号数字化

通过采样时测的的模拟电压值,要进行分级量化,按整个电压变化的最大幅度划分成几个区段,把落在某区段的采样到的样品值归成一类,并给出相应的量化值。

img

 

5.6 其他参数相关

  • 帧(Frame):一个声音的基本数据单元,其长度为采样位数和通道数的乘积

  • 周期(Period Size)音频设备一次处理所需要的帧数,对于音频设备的数据访问以及音频数据的存储,都是以此为单位。硬件缓冲传输单位,即完成这么多采样帧的传输,就会回馈一个中断。

在这里插入图片描述

  • Buffer Bytes: 一个应用Buffer有多少个字节,DMA缓冲区大小。

因为Buffer Size由应用设置,其可大可小,若其太大,则传输的延时太大,所以对此进行分片,提出Period的概念。overrun,录制时,数据都满了,应用来不及取走;underrun,需要数据来播放,应用来不及写入数据

  • Sign :表示样本数据是否是有符号位

  • Byte Ordering:字节序,表明数据是小端(little-endian)存储还是大端(big-endian)存储,通常均为little-endian

  • nteger Or Floating Point :整形或者浮点型,大多数格式的PCM样本数据使用整形表示。

  • **交错模式:**数字音频信号存储的方式。数据以连续帧的方式存放,即首先记录第一帧的左声道样本和右声道样本,再开始第2帧的记录…

  • 非交错模式: 首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本。

以FFmpeg中常见的PCM数据格式s16le为例:它描述的是有符号16位小端PCM数据。

s表示有符号,16表示位深,le表示小端存储。

 

6、PCM数据流

对于PCM数据都是一些文本化的描述,那么一段PCM格式的数据流怎么表示的呢?

以8-bit有符号为例,长得像这样:

+---------+-----------+-----------+----
 binary 	| 0010 0000 | 1010 0000 | ...
 decimal	| 32        | -96       | ...
+---------+-----------+-----------+----  

每个分割符"|"分割字节。因为是 8-bit 有符号表示的采样数据,所以采样的范围为-128~128

 

OK,对于PCM数据流的存储而言,上面仅仅只是单声道。对于多声道的PCM数据而言,通常会交错排列,就像这样:

+---------+-----------+-----------+-----------+-----------+----
     FL 	|     FR    |     FL 	  |     FR    |     FL 	  |    
+---------+-----------+-----------+-----------+-----------+----

对于8-bit有符号的PCM数据而言,上图表示第一个字节存放第一个左声道数据(FL),第二个字节放第一个右声道数据(FR),第三个字节放第二个左声道数据(FL)

 

7、编码

一个完整的音频,经过采样和量化后的信号,需要将它转化为数字编码脉冲,这一过程称为编码。

编码简单来说,就是按一定格式记录采样和量化后的数字数据

PCM技术仅仅包含采样和量化,并不包含编码部分,这里仅简单介绍。

7.1 音频编码协议ACC

AAC(Advanced Audio Coding) 高级音频编码,是一种声音数据的文件压缩格式。AAC分为ADIFADTS两种文件格式。

  • ADIF(Audio Data Interchange Format): 音频数据交换格式。这种格式的特征是只有音频数据最前面具有头字节,音频数据流中间没有头字节。因此它的解码只能在头字节处开始进行。故这种格式常用在磁盘文件中。
  • ADTS(Audio Data Transport Stream): 音频数据传输流。这种格式的特征是它每一单元音频数据都有一个header字节,解码可以在这个流中任何位置开始。

 

7.2 压缩

PCM数据是最原始的音频数据,完全无损,所以PCM数据虽然音质优秀但体积庞大,为了解决这个问题先后诞生了一系列的音频格式,这些音频格式运用不同的方法对音频数据进行压缩,其中有无损压缩和有损压缩两种。

  • 无损压缩:将数据压缩之后,通过解码还能还原成与原始数据一模一样的数据为无损压缩。
    • ALAC、APE、FLAC
  • 有损压缩:消除冗余信息,如人耳能听到的声音为20Hz - 20000Hz 以内,所以可以将此范围外的声音去除掉。
    • MP3、AAC、OGG、WMA

 

7.3 其他概念

  • 码率:(也成位速、比特率) 是指在一个数据流中每秒钟能通过的信息量,代表了压缩质量。

比如MP3常用码率有128kbit/s、160kbit/s、320kbit/s等等,越高代表着声音音质越好。

MP3中的数据有ID3和音频数据组成,ID3用于存储歌名、演唱者、专辑、音轨等我们可以常见的信息。

码率 = 采样率 ∗ 采样位数 ∗ 声道数 码率 = 采样率 * 采样位数 * 声道数 码率=采样率采样位数声道数

例如:

如果是CD音质,采样率44.1KHz,采样位数16bit,立体声(双声道), 码率 = 44.1 * 1000 * 16 * 2 = 1411200bps = 176400Bps,那么录制一分钟的音乐, 大概176400 * 1 * 60 / 1024 / 1024 =10.09MB。

  • 音频帧: 音频数据是流式的,本身没有明确的一帧帧的概念,在实际的应用中,为了音频算法处理/传输的方便,一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。

 

img

8、参考文章

[1]:https://blog.csdn.net/weixin_41910694/article/details/107644742

[2]:https://blog.csdn.net/qq_22310551/article/details/123905051

img
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/dong__ge/article/details/126128225

智能推荐

软件测试流程包括哪些内容?测试方法有哪些?_测试过程管理中包含哪些过程-程序员宅基地

文章浏览阅读2.9k次,点赞8次,收藏14次。测试主要做什么?这完全都体现在测试流程中,同时测试流程是面试问题中出现频率最高的,这不仅是因为测试流程很重要,而是在面试过程中这短短的半小时到一个小时的时间,通过测试流程就可以判断出应聘者是否合适,故在测试流程中包含了测试工作的核心内容,例如需求分析,测试用例的设计,测试执行,缺陷等重要的过程。..._测试过程管理中包含哪些过程

政府数字化政务的人工智能与机器学习应用:如何提高政府工作效率-程序员宅基地

文章浏览阅读870次,点赞16次,收藏19次。1.背景介绍政府数字化政务是指政府利用数字技术、互联网、大数据、人工智能等新技术手段,对政府政务进行数字化改革,提高政府工作效率,提升政府服务质量的过程。随着人工智能(AI)和机器学习(ML)技术的快速发展,政府数字化政务中的人工智能与机器学习应用也逐渐成为政府改革的重要内容。政府数字化政务的人工智能与机器学习应用涉及多个领域,包括政策决策、政府服务、公共安全、社会治理等。在这些领域,人工...

ssm+mysql+微信小程序考研刷题平台_mysql刷题软件-程序员宅基地

文章浏览阅读219次,点赞2次,收藏4次。系统主要的用户为用户、管理员,他们的具体权限如下:用户:用户登录后可以对管理员上传的学习视频进行学习。用户可以选择题型进行练习。用户选择小程序提供的考研科目进行相关训练。用户可以进行水平测试,并且查看相关成绩用户可以进行错题集的整理管理员:管理员登录后可管理个人基本信息管理员登录后可管理个人基本信息管理员可以上传、发布考研的相关例题及其分析,并对题型进行管理管理员可以进行查看、搜索考研题目及错题情况。_mysql刷题软件

根据java代码描绘uml类图_Myeclipse8.5下JAVA代码导成UML类图-程序员宅基地

文章浏览阅读1.4k次。myelipse里有UML1和UML2两种方式,UML2功能更强大,但是两者生成过程差别不大1.建立Test工程,如下图,uml包存放uml类图package com.zz.domain;public class User {private int id;private String name;public int getId() {return id;}public void setId(int..._根据以下java代码画出类图

Flume自定义拦截器-程序员宅基地

文章浏览阅读174次。需求:一个topic包含很多个表信息,需要自动根据json字符串中的字段来写入到hive不同的表对应的路径中。发送到Kafka中的数据原本最外层原本没有pkDay和project,只有data和name。因为担心data里面会空值,所以根同事商量,让他们在最外层添加了project和pkDay字段。pkDay字段用于表的自动分区,proejct和name合起来用于自动拼接hive表的名称为 ..._flume拦截器自定义开发 kafka

java同时输入不同类型数据,Java Spring中同时访问多种不同数据库-程序员宅基地

文章浏览阅读380次。原标题:Java Spring中同时访问多种不同数据库 多样的工作要求,可以使用不同的工作方法,只要能获得结果,就不会徒劳。开发企业应用时我们常常遇到要同时访问多种不同数据库的问题,有时是必须把数据归档到某种数据仓库中,有时是要把数据变更推送到第三方数据库中。使用Spring框架时,使用单一数据库是非常容易的,但如果要同时访问多个数据库的话事件就变得复杂多了。本文以在Spring框架下开发一个Sp..._根据输入的不同连接不同的数据库

随便推点

EFT试验复位案例分析_eft电路图-程序员宅基地

文章浏览阅读3.6k次,点赞9次,收藏25次。本案例描述了晶振屏蔽以及开关电源变压器屏蔽对系统稳定工作的影响, 硬件设计时应考虑。_eft电路图

MR21更改价格_mr21 对于物料 zba89121 存在一个当前或未来标准价格-程序员宅基地

文章浏览阅读1.1k次。对于物料价格的更改,可以采取不同的手段:首先,我们来介绍MR21的方式。 需要说明的是,如果要对某一产品进行价格修改,必须满足的前提条件是: ■ 1、必须对价格生效的物料期间与对应会计期间进行开启; ■ 2、该产品在该物料期间未发生物料移动。执行MR21,例如更改物料1180051689的价格为20000元,系统提示“对于物料1180051689 存在一个当前或未来标准价格”,这是因为已经对该..._mr21 对于物料 zba89121 存在一个当前或未来标准价格

联想启天m420刷bios_联想启天M420台式机怎么装win7系统(完美解决usb)-程序员宅基地

文章浏览阅读7.4k次,点赞3次,收藏13次。[文章导读]联想启天M420是一款商用台式电脑,预装的是win10系统,用户还是喜欢win7系统,该台式机采用的intel 8代i5 8500CPU,在安装安装win7时有很多问题,在安装win7时要在BIOS中“关闭安全启动”和“开启兼容模式”,并且安装过程中usb不能使用,要采用联想win7新机型安装,且默认采用的uefi+gpt模式,要改成legacy+mbr引导,那么联想启天M420台式电..._启天m420刷bios

冗余数据一致性,到底如何保证?-程序员宅基地

文章浏览阅读2.7k次,点赞2次,收藏9次。一,为什么要冗余数据互联网数据量很大的业务场景,往往数据库需要进行水平切分来降低单库数据量。水平切分会有一个patition key,通过patition key的查询能..._保证冗余性

java 打包插件-程序员宅基地

文章浏览阅读88次。是时候闭环Java应用了 原创 2016-08-16 张开涛 你曾经因为部署/上线而痛苦吗?你曾经因为要去运维那改配置而烦恼吗?在我接触过的一些部署/上线方式中,曾碰到过以下一些问题:1、程序代码和依赖都是人工上传到服务器,不是通过工具进行部署和发布;2、目录结构没有规范,jar启动时通过-classpath任意指定;3、fat jar,把程序代码、配置文件和依赖jar都打包到一个jar中,改配置..._那么需要把上面的defaultjavatyperesolver类打包到插件中

VS2015,Microsoft Visual Studio 2005,SourceInsight4.0使用经验,Visual AssistX番茄助手的安装与基本使用9_番茄助手颜色-程序员宅基地

文章浏览阅读909次。1.得下载一个番茄插件,按alt+g才可以有函数跳转功能。2.不安装番茄插件,按F12也可以有跳转功能。3.进公司的VS工程是D:\sync\build\win路径,.sln才是打开工程的方式,一个是VS2005打开的,一个是VS2013打开的。4.公司库里的线程接口,在CmThreadManager.h 里,这个里面是我们的线程库,可以直接拿来用。CreateUserTaskThre..._番茄助手颜色

推荐文章

热门文章

相关标签