视频编码零基础入门

鲜枣课堂 2019-11-12 22:06

如今我们所处的时代,是移动互联网时代,也可以说是视频时代。



从快播到抖音,从“三生三世”到“延禧攻略”,我们的生活,被越来越多的视频元素所影响。



而这一切,离不开视频拍摄技术的不断升级,还有视频制作产业的日益强大。



此外,也离不开通信技术的飞速进步。试想一下,如果还是当年的56K Modem拨号,或者是2G手机,你还能享受到现在动辄1080P甚至4K的视频体验吗?



除了视频拍摄工具和网络通信技术升级之外,我们能享受到视频带来的便利和乐趣,还有一个重要因素,就是视频编码技术的突飞猛进。



今天,我就给大家做一个关于它的零基础科普。




     图像基础知识    




说视频之前,先要说说图像。


图像,大家都知道,是由很多“带有颜色的点”组成的。这个点,就是“像素点”



像素点的英文叫Pixel(缩写为PX)。这个单词是由 Picture(图像) 和 Element(元素)这两个单词的字母所组成的。


电影《像素大战(Pixels)》,2015年


像素是图像显示的基本单位。我们通常说一幅图片的大小,例如是1920×1080,就是长度为1920个像素点,宽度为1080个像素点。乘积是2,073,600,也就是说,这个图片是两百万像素的。


1920×1080,这个也被称为这幅图片的分辨率。



分辨率也是显示器的重要指标


那么,我们经常所说的PPI又是什么东西呢?


PPI,就是“Pixels Per Inch”,每英寸像素数。也就是,手机(或显示器)屏幕上每英寸面积,到底能放下多少个“像素点”。


这个值当然是越高越好啦!PPI越高,图像就越清晰细腻。



以前的功能机,例如诺基亚,屏幕PPI都很低,有很强烈的颗粒感。



后来,苹果开创了史无前例的“视网膜”(Retina)屏幕,PPI值高达326(每英寸屏幕有326像素),画质清晰,再也没有了颗粒感。



像素点必须要有颜色,才能组成缤纷绚丽的图片。那么,这个颜色,又该如何表示呢?


大家都知道,我们生活中的颜色,可以拥有无数种类别。


光是妹纸们的口红色号,就足以让我们这些屌丝瞠目结舌。。。


在计算机系统里,我们不可能用文字来表述颜色。不然,就算我们不疯,计算机也会疯掉的。在数字时代,当然是用数字来表述颜色。


这就牵出了“彩色分量数字化的概念。


以前我们美术课学过,任何颜色,都可以通过红色(Red)绿色(Green)蓝色(Blue)按照一定比例调制出来。这三种颜色,被称为“三原色”



在计算机里,R、G、B也被称为“基色分量”。它们的取值,分别从0到255,一共256个等级(256是2的8次方)。


所以,任何颜色,都可以用R、G、B三个值的组合表示。


RGB=[183,67,21]


通过这种方式,一共能表达多少种颜色呢?256×256×256=16,777,216种,因此也简称为1600万色。RGB三色,每色有8bit,这种方式表达出来的颜色,也被称为24位色(占用24bit


这个颜色范围已经超过了人眼可见的全部色彩,所以又叫真彩色。再高的话,对于我们人眼来说,已经没有意义了,完全识别不出来。





      视频编码基础知识     




好了,刚才说了图像,现在,我们开始说视频。


所谓视频,大家从小就看动画,都知道视频是怎么来的吧?没错,大量的图片连续起来,就是视频。



衡量视频,又是用的什么指标参数呢?


最主要的一个,就是帧率(Frame Rate)


在视频中,一个帧(Frame)就是指一幅静止的画面。帧率,就是指视频每秒钟包括的画面数量(FPS,Frame per second)。  


帧率越高,视频就越逼真、越流畅。


有了视频之后,就涉及到两个问题,一个是存储,二个是传输。



而之所以会有视频编码,关键就在于此:一个视频,如果未经编码,它的体积是非常庞大的。


以一个分辨率1920×1280,帧率30的视频为例。


1920×1280=2,073,600(Pixels 像素)

每个像素点是24bit(前面算过的哦)

也就是每幅图片2073600×24=49766400bit


8 bit(位)=1 byte(字节),所以,49766400bit=6220800byte≈6.22MB。


这是一幅1920×1280图片的原始大小,再乘以帧率30,也就是说,每秒视频的大小是186.6MB,每分钟大约是11GB,一部90分钟的电影,约是1000GB。。。


吓尿了吧?就算你现在电脑硬盘是4TB的(实际也就3600GB),也放不下几部大姐姐啊!


不仅要存储,还要传输,不然视频从哪来呢?


如果按照100M的网速(12.5MB/s),下刚才那部电影,需要22个小时。。。再次崩溃。。。


正因为如此,屌丝工程师们就提出了,必须对视频进行编码。



什么是编码?


编码,就是按指定的方法,将信息从一种形式(格式),转换成另一种形式(格式)。


视频编码,就是将一种视频格式,转换成另一种视频格式。



编码的终极目的,说白了,就是为了压缩。


各种五花八门的视频编码方式,都是为了让视频变得体积更小,有利于存储和传输。


我们先来看看,视频从录制到播放的整个过程,如下:



首先是视频采集。通常我们会使用摄像机、摄像头进行视频采集。限于篇幅,我就不打算和大家解释CCD成像原理了。



采集了视频数据之后,就要进行模数转换,将模拟信号变成数字信号。其实现在很多都是摄像机(摄像头)直接输出数字信号。


信号输出之后,还要进行预处理,将RGB信号变成YUV信号。


前面我们介绍了RGB信号,那什么是YUV信号呢?


简单来说,YUV就是另外一种颜色数字化表示方式。


视频通信系统之所以要采用YUV,而不是RGB,主要是因为RGB信号不利于压缩


在YUV这种方式里面,加入了亮度这一概念。


在最近十年中,视频工程师发现,眼睛对于亮和暗的分辨要比对颜色的分辨更精细一些,也就是说人眼对色度的敏感程度要低于对亮度的敏感程度


所以,工程师认为,在我们的视频存储中,没有必要存储全部颜色信号。我们可以把更多带宽留给黑—白信号(被称作“亮度”),将稍少的带宽留给彩色信号(被称作“色度”)。于是,就有了YUV。


YUV里面的“Y”,就是亮度(Luma),“U”和“V”则是色度(Chroma)。


大家偶尔会见到的Y'CbCr,也称为YUV,是YUV的压缩版本,不同之处在于Y'CbCr用于数字图像领域,YUV用于模拟信号领域,MPEG、DVD、摄像机中常说的YUV其实就是Y'CbCr。


YUV(Y'CbCr)是如何形成图像的


YUV码流的存储格式其实与其采样的方式密切相关。(采样,就是捕捉数据。


主流的采样方式有三种,YUV4:4:4,YUV4:2:2,YUV4:2:0。



具体解释起来有点繁琐,大家只需记住,通常用的是YUV4:2:0的采样方式,能获得1/2的压缩率。


这些预处理做完之后,就是正式的编码了。




     视频编码的实现原理    




前面我们说了,编码就是为了压缩。要实现压缩,就要设计各种算法,将视频数据中的冗余信息去除。


当你面对一张图片,或者一段视频的时候,你想一想,如果是你,你会如何进行压缩呢?


对于新垣女神,我一bit也不舍得压缩…


我觉得,首先你想到的,应该是找规律。


是的,寻找像素之间的相关性,还有不同时间的图像帧之间,它们的相关性。


举个例子,如果一幅图(1920×1080分辨率),全是红色的,我有没有必要说2073600次[255,0,0]?我只要说一次[255,0,0],然后再说2073599次“同上”。




如果一段1分钟的视频,有十几秒画面是不动的,或者,有80%的图像面积,整个过程都是不变(不动)的。那么,是不是这块存储开销,就可以节约掉了?


以我们的签名图为例,只有部分元素在动,大部分是不动的


是的,所谓编码算法,就是寻找规律,构建模型。谁能找到更精准的规律,建立更高效的模型,谁就是厉害的算法。


通常来说,视频里面的冗余信息包括:




视频编码技术优先消除目标,就是空间冗余和时间冗余。



接下来,小枣君就和大家介绍一下,究竟是采用什么样的办法,才能干掉它们。


以下内容稍微有点高能,不过我相信大家耐心一些还是可以看懂的。


视频是由不同的帧画面连续播放形成的。


这些帧,主要分为三类,分别是I帧,B帧,P帧。


I帧,是自带全部信息的独立帧,是最完整的画面(占用的空间最大),无需参考其它图像便可独立进行解码。视频序列中的第一个帧,始终都是I帧。


P帧,“帧间预测编码帧”,需要参考前面的I帧和/或P帧的不同部分,才能进行编码。P帧对前面的P和I参考帧有依赖性。但是,P帧压缩率比较高,占用的空间较小。


P帧


B帧,“双向预测编码帧”,以前帧后帧作为参考帧。不仅参考前面,还参考后面的帧,所以,它的压缩率最高,可以达到200:1。不过,因为依赖后面的帧,所以不适合实时传输(例如视频会议)。


B帧


通过对帧的分类处理,可以大幅压缩视频的大小。毕竟,要处理的对象,大幅减少了(从整个图像,变成图像中的一个区域)。



如果从视频码流中抓一个包,也可以看到I帧的信息,如下:



我们来通过一个例子看一下。


这有两个帧:



好像是一样的? 


不对,我做个GIF动图,就能看出来,是不一样的:



人在动,背景是没有在动的。


第一帧是I帧,第二帧是P帧。两个帧之间的差值,就是如下:



也就是说,图中的部分像素,进行了移动。移动轨迹如下:



这个,就是运动估计和补偿。



当然了,如果总是按照像素来算,数据量会比较大,所以,一般都是把图像切割为不同的“块(Block)”或“宏块(MacroBlock)”,对它们进行计算。一个宏块一般为16像素×16像素。


将图片切割为宏块



好了,我来梳理一下。


对I帧的处理,是采用帧内编码方式,只利用本帧图像内的空间相关性。


对P帧的处理,采用帧间编码(前向运动估计),同时利用空间和时间上的相关性。简单来说,采用运动补偿(motion compensation)算法来去掉冗余信息。 



需要特别注意,I帧(帧内编码),虽然只有空间相关性,但整个编码过程也不简单。


如上图所示,整个帧内编码,还要经过DCT(离散余弦变换)、量化、编码等多个过程。限于篇幅,加之较为复杂,今天就放弃解释了。



那么,视频经过编码解码之后,如何衡量和评价编解码的效果呢?


一般来说,分为客观评价和主观评价。


客观评价,就是拿数字来说话。例如计算“信噪比/峰值信噪比”。


搞通信的童鞋应该对这个概念不会陌生吧?



信噪比的计算,我就不介绍了,丢个公式,有空可以自己慢慢研究...



除了客观评价,就是主观评价了。


主观评价,就是用人的主观感知直接测量,额,说人话就是——“好不好看我说了算”。





     视频编码的国际标准    




接下来,我们再说说标准(Standard)


任何技术,都有标准。自从有视频编码以来,就诞生过很多的视频编码标准。


提到视频编码标准,先介绍几个制定标准的组织。


首先,就是大名鼎鼎的ITU(国际电信联盟)。


 


ITU是联合国下属的一个专门机构,其总部在瑞士的日内瓦。


ITU下属有三个部门,分别是ITU-R(前身是国际无线电咨询委员会CCIR)、ITU-T(前身是国际电报电话咨询委员会CCITT)、ITU-D。



除了ITU之外,另外两个和视频编码关系密切的组织,是ISO/IEC。



ISO大家都知道,就是推出ISO9001质量认证的那个“国际标准化组织”。IEC,是“国际电工委员会”。


1988年,ISO和IEC联合成立了一个专家组,负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。这个专家组,就是大名鼎鼎的MPEG,Moving Picture Expert Group(动态图像专家组)




三十多年以来,世界上主流的视频编码标准,基本上都是它们提出来的。


ITU提出了H.261、H.262、H.263、H.263+、H.263++,这些统称为H.26X系列,主要应用于实时视频通信领域,如会议电视、可视电话等。


ISO/IEC提出了MPEG1、MPEG2、MPEG4、MPEG7、MPEG21,统称为MPEG系列。

ITU和ISO/IEC一开始是各自捣鼓,后来,两边成立了一个联合小组,名叫JVT(Joint Video Team,视频联合工作组)



JVT致力于新一代视频编码标准的制定,后来推出了包括H.264在内的一系列标准。


压缩率对比


视频编码标准的发展关系


大家特别注意一下上图里面的HEVC,也就是现在风头正盛的H.265。


 


作为一种新编码标准,相比H.264有极大的性能提升,目前已经成为最新视频编码系统的标配。



最后,我再说说封装


对于任何一部视频来说,只有图像,没有声音,肯定是不行的。所以,视频编码后,加上音频编码,要一起进行封装。


封装,就是封装格式,简单来说,就是将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中。再通俗点,视频轨相当于饭,而音频轨相当于菜,封装格式就是一个饭盒,用来盛放饭菜的容器。


目前主要的视频容器有如下:MPG、VOB、MP4、3GP、ASF、RMVB、WMV、MOV、Divx、MKV、FLV、TS/PS等。


封装之后的视频,就可以传输了,你也可以通过视频播放器进行解码观看。




     最后的话    




好啦!额滴神啊,终于介绍完了。。。


其实,小枣君之所以要做视频编码这么一个看似和通信无关的“跨界”专题,是有原因的。


以前我上大学的时候,就有一门专业课程,叫图像识别,当时是我们学校的王牌专业,属于计算机系。那个时候我并不明白,图像识别到底是什么,为什么“画画”这种事情,会归为“计算机类”。


后来,我才明白,所谓的“图像识别”,就是让计算机看懂图像。怎么样才能看懂呢?就是把图像数字化。


图像变成了数字,计算机就能从中找到规律,也就能对它进行分析(图像识别)和学习(机器学习)。



这么多年过去了,图像识别取得了非常大的发展。我们渐渐发现,摄像头开始“认脸”了,停车场开始“看懂”车牌了,生活开始变得不一样了。



更没有想到的是,机器学习和AI人工智能也因此迅速崛起,开始对传统技术发起挑战。


前段时间很火的谷歌“你画我猜”程序,就是AI结合图像识别技术的一个“人机交互”经典案例。


运算速度足够快,存储空间足够大,学习数据足够多,计算机可以海量分析图像和视频数据,寻找其中的规律,构建模型。如果这个AI足够强大,就能做出反应和处理。


在电影《鹰眼》里,也描绘到这样的一个场景:强大的AI大脑,控制全球的视频摄像头,还有所有的计算机系统、武器系统,可以随时在全球范围内,找到想找到的人,并且干掉他。电影《速度与激情6》里,也有类似的场景。


电影《鹰眼》,2008年


除此之外,还有3D视频、VR/AR等,也都是和图像视频密切相关的应用。


总而言之,图像和视频识别是一个非常有前途的技术领域,也是AI人工智能的基础,值得深入进行研究。我们一直在寻找的5G爆款应用,也很可能与这个领域有关!



好啦,今天的内容就到这里,感谢大家的耐心观看!


下期再见!



鲜枣课堂 学通信,学5G,就上鲜枣课堂!
评论
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 68浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 141浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 80浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 125浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 85浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 87浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 104浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 44浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 116浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 75浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 100浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 170浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦