哪能得到 .yuv 视频源文件?

enjoychallenge 2002-10-02 11:38:24
由于没有采集卡,又需要做关于MPEG4的研究,在encoder时,需要yuv(4:2:0)的未压缩的视频源文件,不知哪里能获得?
...全文
144 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
WoodenMoon 2002-10-27
  • 打赏
  • 举报
回复
bingle.pku.edu.cn
搜索 *.yuv
TMPGEnc 是日本人堀浩行开发的一套老牌的高画质视频编码转换工具软件,在 Canopus ProCoder v2.0 Final 推出以前,一直是视频转换领域的画质冠军,支持 VCD、SVCD、DVD 以及所有主流媒体格式 (Windows Media、Real Video、Apple QuickTime、Microsoft DirectShow、Microsoft Video for Windows、Microsoft DV、Canopus DV、Canopus MPEG-1 和 MPEG-2 编码),而且还提供对高清晰度视频格式的支持。 TMPGEnc Xpress 4.0 最新推出的版本,在保证原有的高质量视频转换品质的前提下,对新近推出的英特尔和 AMD 处理器进行了代码优化,支持最新的多媒体扩展指令,令其在提高视频转换质量的情况下大大加快了视频转换的速度。同时,软件在提供各类视频格式的标准编码设置外还提供了各种自定义设置,加强了编码的灵活性。 程序安装时如出现提示错误则选择“忽略”,安装完成后点击绿化然后退出程序,再运行软件即可使用!小日本TMPGEnc为津波同享(TMPGEnc)的商业版。津波同享(TMPGEnc)应广大用户的期待,郑重推出商品版津波视像编码(TMPGEnc Plus )。 即使非专业人员也能易如反掌地进行编码设定的“项目助手”功能 装备面向更高画质的“新2次处理可变码率编码引擎” 制作原版DVD/VCD的“DVD,SVCD和VCD源码”生成之功能对AVI等类型的影片文件进行MPEG-1/2软编码 编码时画面大小,宽高比调整视频与音频的码流合成/分解 TMPGEnc小日本参数设定详解 本文并不介绍tmpgenc的菜单部分,因为影响mpeg编码效率/质量的主要是参数设置。TMPGEnc小日本菜单提供了一些很好的功能,比如压缩完成自动关机等,请大家自己摸索。 A. video(视频)部分: 本部分设定输出的视频码流的类型和参数,大部分参数在模版中已经固定。 1)基本类型:有mpeg1/mpeg2,mpeg1用于vcd, mpeg2用于svcd/dvd. 2)大小:PAL vcd标准为352x288, pal svcd标准为480x576, pal dvd标准为720x576 3)画面宽高比:一般应该用4:3 625 line PAL, 这是电视机的屏幕比例 4)桢率:pal 的标准为25fps 5) 码率控制:码率控制算法是造成各种编码器编码效率和质量不同的关键因素。mpeg标准中并没有对次算法的具体实现做规定,这通常也是商业版本的知识产权内容。 CBR(固定码率):保持码率基本维持在平均码率。实现简单,对复杂场景会因码率不足造成马赛克现象,对于简单场景则不能充分利用编码空间。(老枯这里讲的复杂场景是指细节/边缘丰富以及快速变化场景)。 VBR, (2-pass VBR), “二次处理VBR”。老枯认为其意思是通过对整个视频源进行2次处理使编码效率最高:第一遍判断何处为复杂场景和简单场景,第二遍根据码率的上下限,把码 率重新分配更多给复杂场景。可以在实验中看出,tmpgenc在进行这种编码时进度指示在50%以前是没有预览图象的,而且桢进度指示为0。所以老枯建议 威龙改译为“二次处理”。这种码流控制方式应该在给定码率下得到最好的质量,但是和具体2次分配算法关系很大。同时耗时最长。一些其他编码器甚至有3次处 理的码率优化。 MVBR (手动可变码率),设定最大码率和对不同的帧类型设定不同的信息损失量,实现局部码率优化。可以通过手工指定复杂场景为I帧对之进行较精细的编码。参见对于GOP参数设定部分。 CQ-VBR (自动可变码率),设定主观质量值和码率上下限,以主观质量标准对编码器量化环节进行控制,在可选参数中设定主观质量值以后,编码器就在能达到此质量标准 的前提下尽量节省码率。关键在于编码器对主观质量的评价方法。这是CQ和VBR的综合,也可以看作自动的MVBR. 威龙汉化5版在可选参数中有一行是“不破坏最小码率的状态而填充数据”,老枯的理解是,如果码率过低就填充无意义码(好浪费啊,不过可能是为了兼容性的原 因),英文版这一句没有翻译,还是日文。 :-( CQ (固定品质),就是比MVBR多了一个主观质量值的设定。老枯不明白到底是怎么控制的。 RT-CBR (实时固定码率):连GOP层次的码率优化也不做了的CBR,快一点,质量不高 RT-CQ (实时固定品质):连GOP层次的码率优化也不做了的CQ,快一点,质量不高 6)码率:这个码率是指CBR方式下的平均码率 7)VBV缓冲区大小:缓冲区大的话,编码优化会好一些,但是解码的时候也要求大一些的缓冲区。因此,vcd/svcd标准中参数是固定的,否则可能机器无法播放。 8)Pofile & level(类别与级别): 这个参数是mpeg1没有的。在svcd/dvd应用中应该是MP&ML,模版自动选定。 MP&HL是为HDTV定义的,分辨率可以高达 19??x11?? . 9)制式:好象这个也是mpeg2相关的参数。我们应该用PAL. 10) 隔行扫描:mpeg1只支持逐行扫描(25 frame/sec),mpeg2可以选择隔行(50 field/sec)。如果成品在电视上播放,老枯建议选择隔行,使运动平滑。但是隔行的视频在pc上看会有毛刺现象,在水平运动景象中尤其明显。 11)播放时实现3:2下拉: 这是在film/NTSC制式转换中需要的,即在编码时维持帧率不变,不做3:2下拉,而在播放中实现。参见 B.advanced部分。感谢威龙指正。 12)YUV格式:给亮度/红色差/蓝色差分配的码位。对于人眼来说,亮度信号是最敏感的,所以就分配比较多的编码空间以求精细,对于色差则粗糙些。一般就是4:2:0了。(其实4:2:0方案给蓝色差的码位不是0,老枯不知道为什么这样写) 13)DC分量精度:在mpeg编码中需要对8x8的图象块进行DCT(离散余弦变换),DC分量的意义基本是代表8x8块中的平均值,一般需要为之分配比较大的编码空间,否则马赛克的边缘效应就比较明显。(8bit就不小啦,图象压缩中是每个bit的油水都要榨干的) 14)运动检测精度:mpeg是对I帧进行帧内编码,对P帧进行预测误差编码。就是对于P帧的图块,在I帧中寻找对应的部分,然后对两个图块的差异部分进 行编码,可以大大节省码率。运动检测精度越高,图块搜索匹配的范围越大,编码效率越高,同时编码速度越慢。这部分算法同样没有在mpeg标准中定义,各个 厂商实现水平相差会很大。一般来说,在tmpgenc中设置为普通即可。 B. Advanced (影象源)部分: 本部分设置视频源相关的参数,以及在编码之前对视频源进行的预处理。 1)视频源类型:隔行扫描/逐行扫描。这个参数在打开视频源文件的时候会对之自动判断设置。Tmpgenc12版不能自动识别type 1 DV,在12a版本中已经解决。参看老枯的编码测试页。 2)场顺序:这是整个tmpgenc甚至整个桌面视频领域中最混乱的一部分。tmpgenc12a好象也不能根据视频源自动设置这个参数。老枯在这个问题 上搞了很久,才算明白了一点。这个参数是至关重要的,设置反了会造成生成图象的明显闪动,打个比方,一个物体的运动位置次序本来是1-2-3-4-5-6 -……,设置反了以后就成了2-1-4-3-6-5-8……对于模拟视频源,其场序是由捕捉卡类型决定的,对于dv,则定义为 field order A。讲到这里还没有什么麻烦,但麻烦的是虽然场序只有2种,对于他们的叫法却有3种: field order A/B (在ulead软件中的叫法), even/odd line first (tmpgenc的叫法), field top/bottom first(bitrate viewer叫法),这3种叫法之间的对应关系是最让人头疼的。在英文版的tmpgenc12a中,缺省的设置为“even line first (field A)”,,但在威龙汉化中缺省设置为“奇数场->偶数场”,老枯曾就此请教威龙,威龙讲这是日文版的原意,注意不要在字面上混淆了。总之,3种叫法 的关系是这样的:field A = even line first(奇数场->偶数场) = field bottom first。最可*的方法,是用不同的设置对高速运动场景各生成一段隔行扫描的视频,并在电视上观察,应该能够看到差别。 3)视频源的宽高比:tmpgenc可以自动识别设置,一般应该为4:3 625line PAL. 4) 画面显示比例和位置:一般选用“全画面显示并宽高比不变”,所谓“全画面显示并宽高比不变2”选项可能是会造成部分画面不可见,老枯没有尝试过这一种。在 4:3视频源中可能没有差别,但对于16:9宽屏影象在4:3屏幕上输出而言,“全画面显示并宽高比不变”是在上下留出空白,“全画面显示并宽高比不变 2”会截掉左右两端画面。。。没有这样试过,仅为老枯猜测,不正确的地方请朋友们指正。 5)滤镜选项组: 这一组设置可以对视频源进行预处理以提高影象质量。一般来说,老枯都是在非编软件中实现这些功能的。另外,对滤镜的使用要适度,因为客观上任何滤镜的使用都是引入了信息损失,这是对低品质视频源提高主观质量的代价。 影象源范围:选取部分影象源进行压缩 24fps化:24fps是电影标准,一般不选 消除鬼影:鬼影是影象的重影,视频源不好的时候会出现。老枯在dv中没有遇到过。 消除噪点:在低光条件下的拍摄中影响中回出现明显的颗粒噪点,利用此滤镜可以消除。不过副作用是平滑了图象,比如人的面部会象橡皮娃娃一样,光滑但没有质感。 锐化边缘:可以对横向/纵向边缘分别设置参数,做增强处理。 简单色彩校正:调整亮度,对比度,gamma,色度等 高级色彩校正:可以按照不同的色彩空间RGB/YUV等进行色彩校正。 消除交错信号(de-interlace):把隔行扫描的视频源转换成逐行扫描的视频,如果对输出的视频设置为隔行扫描(如在打算电视上播放的 svcd/dvd),则不要选用。老枯认为在做vcd(逐行扫描mpeg1)时候也未必需要选用,要看视频源的大小决定。比如老枯用dv 576线,在做vcd时候只需要288线,简单舍弃一个场就可以,不需要deinterlace. 相反,如果视频源是352x288的隔行扫描视频,则需要做de-interlace. 裁剑画面:由于电视机播放视频的时候对边缘四周的部分做舍弃,所以可以利用这一点只对可见部分进行编码,这样可以加快编码速度,并且因为节省的码率可以利用在未裁剪区域从而提高画面质量。一般来说对上下左右各裁剪5%是安全的。 3:2下拉变换:因film 24fps和 NTSC 30fps帧率不同,在制式转换中所需要做的调整。一般不用。 帧率不变:没什么好讲的 声音处理:可以增大/减小音量,并做声音的淡入/淡出。 C. GOP结构 GOP = group of picture. 在mpeg中一个GOP就是一组时间上连续的画面。mp4视频中的画面分为3种:I,P,B. I是内部编码帧,编码方式基本上就是jpeg的格式。P是前向预测帧,编码方式是使用运动检测误差编码,参看A部分对运动检测的说明;B是双向内插帧,根 据前后I/P帧进行插值运算,对插值误差进行编码。 建议一般不要修改GOP结构,以取得压缩比例和图象质量之间的最好平衡。极端的例子是只用I帧,图象质量会有保证,但码流会很大。 1)输出编辑用的码流:这个选项会把GOP最后的B帧取消。因为B帧是双向内插的,其编码/解码不仅需要以前的I/P,也需要以后的I/P帧。取消最后的B帧,可以去除GOP之间的依赖性,从而便于编辑。 2)检测场景变化:对于快速变化的场景,强行设置为I帧,以保证画面质量 3)手工强制设定帧类型:手工设定需要精细编码的画面帧为I帧。结合MVBR码流控制可以全面控制码流分配。 D、量化矩阵 mpeg中的量化是对8x8 YUV 信号图块进行DCT变换之后的系数的量化。通过对高频分量使用比较大的量化阶从而达到减小高频分量的编码空间,达到压缩的目的。代价就是丧失图像细节,边缘模糊等。 1)帧内编码量化矩阵:这是指对I帧使用的帧内编码量化矩阵 2)帧间编码量化矩阵:是指对非I帧的帧间预测误差编码所用的量化矩阵。威龙汉化版中叫外部矩阵。 3)矩阵模版的选择:建议对一般的视频选用mpeg标准,可以看到,其帧间编码矩阵统一为16,这是因为帧间误差已经抵消了低频分量,高频分量丰富,所以 和帧内编码矩阵有所不同。对于计算机动画尤其是2维线条为主的动画,建议选用CG模版,可以看到因为CG本身高频信号丰富,其帧内编码矩阵也统一为32。 4)YUV输出为YCrCb: YCrCb色彩空间分配给Y亮度信号的编码空间更大,如果视频源是YCrCb格式的话,这个选项可以增加画面质量。不过一般都是采用YUV(CCIR601),如dv,所以不要选择这个选项,否则白白浪费码率。 5)浮点离散余弦变换:整点运算的速度比浮点要快很多,但精度不如浮点。老枯猜测这里的浮点其实只是把DCT变换的系数从8bit增大为16bit的精度,并不需要浮点运算器单元参与变换,否则速度是不可忍耐的。 6)不对静止部分做半像素的运动检测:由于视频源是隔行的,对于精细的静止边缘线条(1个像素宽度)比如静止字幕会出现一个场中出现,另一个场中不出现的闪动。选中这个选项会消除闪动。。不过老枯觉得好像这个和量化矩阵无关。 F. 系统: mpeg的系统是指视频+音频。vcd/svcd/dvd模版中已经设定好。
一直以来, 在多媒体播放器这块, 即使目前有许多开源的播放器项目, 但要写一个播放器仍然是件非常困难的事, 如果在windows上你有可能需要熟悉DShow, 另外的话, 你需要学习一堆开源项目(比如FFmpeg, MPC, VLC, Mplayer), 而且多数都是基于linux, 在windows上学习起来很不容易, 然而这些开源项目对于一些希望快速实现自己播放器, 就显得很困难. 因此, 我创建了这个项目, 致力于以最简单的方法实现自己的播放器, 并提供一个可以很方便使用的接口. 目前, 在这个代码中, 主要链接到FFmpeg来进行解码, 并将其改造成一个通用的播放器框架. 在这个框架中能够接受各种数据的读入, 可以很方便的封装自己的数据读取模块, 也可以很方便的定制自己的视频渲染模块和音频播放模块, 你只需要参考其中的实现即可. 另外在当前的实现中, 因为个人精力实在有限, 所以借鉴了一些开源项目的代码(如Mplayer), 并且该代码主要基于windows平台, 有移植到linux等其它平台的打算. 所以, 我希望有朋友能参与到这个项目中一起研究和学习, 并完成这个目标. 在 https://github.com/Jackarain/avplayer/downloads 中有已经编译好的exe可供测试, 测试命令如下: avplayer.exe test.mp4 或者 avplayer.exe http://edstream.googlecode.com/files/stream.m3u8 或者 avplayer.exe gq.flv.torrent gq.flv.torrent 是从优酷找的一个超清视频文件做的种子. 整个项目分为几个模块: 1. avcore 这只是一个包装类, 实现windows上的窗口创建以及消息响应, 比如: 右击暂停/开始, 单击按屏幕宽百分比seek, F2全屏切换. 在这个模块中, avplayer类是外部接口类, 具体实现在player_impl类中. 在player_impl类中, 初始化各模块结构指针由下面几个函数实现, void init_file_source(media_source *ms); void init_audio(audio_render *ao); void init_video(video_render *vo); 你可以根据自己的需求来修改这些函数实现. media_source是一个提供数据访问的结构, 包含一些函数指针, 如果你需要重新从其它地方读取数据进来提供给播放器, 那么你可以参照这个结构体, 实现这些函数并指向它, 就可以获得从你指定的地方读取数据来进行播放, 这里实现了一个从文件读取数据播放的dll. audio_render是用于播放音频的结构, 同样包含了一些函数指针, 只要实现这些函数指针, 就可以改变音频输出, 比如把音频数据写到文件, 这里实现了2种方式输出音频, 一种是使用dsound来输出音频, 另一种是使用waveout来输出音频. video_render是用于渲染视频的结构, 原理同上, 需要注意的是render_one_frame的data是YUV420格式. 2. libav 这是一个基于ffmpeg的播放框架, 该框架不包含视频渲染和音频播放以及数据读取, 若需要可以实现上述结构体各函数即可, 这个框架中主要完成了使用ffmpeg解码, 以及音视频同步, seek操作处理, 并提供一些基本的控制播放器的函数(在avplay.h中定义). 3. audio 是一个音频播放输出模块实现, 主要实现了audio_render中那几个函数指针. 在这个模块中实现了2套音频输出dsound和waveout. 4. video 是一个视频渲染模块的实现, 实现了video_render中的那几个函数指针. 在这个模块中, 实现了3套视频渲染输出d3d, ddraw, opengl这些方式(还有gdi方式渲染没有添加到video_out.h中). 5. avplayer 是一个使用avcore实现一个简单播放器的示范, 如果要创建一个播放器, 只需要avplayer.h, 然后使用创建一个avplayer对象, 就可以创建一个播放器, 关于如何使用avcore的具体细节可以参考avplayer/main.cpp. 最后, 任何方式(包括商业或非商业)修改或引用该项目的全部或部分源码(或dll), 请在你的软件中或产品文档中必须清楚的声明引用了该项目, 并注明url(https://github.com/Jackarain/avplayer), 你可以偷偷的不这样做, 但这样做是令人欣赏的做法. 最后本程序作者不承担使用该程序所带来的任何问题并拥有一切解释权. mail: jack.wgm@gmail.com
警告:本资源版权归原作者所有,下载后仅可用于学习、交流。 本资源是一个《基于WebCam的人脸检测技术》毕业设计,解压缩后除得到源代码外,还有两个文档:附件(文献综述、外文资料译文、开题报告、评审答辩表、答辩记录)(已填写).doc、论文答辩演示文稿new.ppt。 内容预览: 1.人脸检测的意义,本文的研究内容 2.基于肤色的人脸定位 3.视频流 4.试验数据与展望 人脸检测的意义 实现在Internet上的身份认证和安全 本文的研究内容 利用WebCam获取视频流 在获取的视频流中进行人脸定位 基于肤色的人脸定位 (1)转换彩色空间 (2)人脸肤色模型,二值化 (3)后处理 (4)人脸区域的定位 彩色空间 RGB彩色空间 图像的每个像素都是由3个字节表示,每个字节代表一个不同的颜色分量,依次是蓝色分量B、绿色分量G、红色分量R,三个字节存储的实际内容就是三个分量的值,范围在(0,255)。这种被大多数图像格式所采用的彩色空间,称之为RGB彩色空间。 YCrCb彩色空间 YCrCb彩色空间(也称为YUV彩色空间)的Y分量是表示像素的亮度, Cr和Cb称为色度,其中Cr分量表示红色色差分量,Cb表示蓝色色差分量。 决定色度 , 决定饱和度。 彩色空间转换 在多媒体计算机中采用的YCrCb彩色空间,数字化后Y:Cb:Cr为8:4:4或8:2:2。为了简化起见,本文从RGB彩色空间转换到YCrCb彩色空间的每个像素存放位数未做压缩,变换公式如下: 人脸肤色建模 文献[2]介绍的人脸肤色模型 自定义的人脸肤色模型 人脸肤色建模,二值化 自定义的人脸肤色模型 后处理 采用膨胀与统计的后处理方法来去掉单帧图像中那些离散的非人脸区域。 人脸区域的定位 视频视频工具包Video for Windows VFW是Microsoft公司推出的关于数字视频的一个软件开发包,包含了一整套完整的视频采集、压缩、解压、回放和编辑的应用程序编程接口(后简称API)。 视频流采集的实现 利用AVICAP.DLL文件里的视频采集函数 。 视频流的显示 在整个VFW软件开发包中,DrawDib模块是用来在视频终端(如显式器,打印机)上回放视频数据的。我们采用WebCam直接采集视频流,以DIB位图方式存储在数据缓冲区中,然后由DrawDib模块为我们提供的DrawDibDraw函数来绘制DIB图像。 试验数据 本文分两种情况来试验视频流图像中的人脸定位,下面举4张具有代表性的实验结果来进行说明: 情况1:在无大面积的与人脸肤色相近区域的情况下,对人脸的定位。 情况2:存在较大面积的与人脸肤色相近区域的情况下,对人脸的定位。 总的来说,本次毕业设计实现了对单帧图像的人脸定位,可以为下一步即“验证检测到人脸是否是参加在线考试的人员”提供基础。但是,对人脸的精确验证还需要更好的能抽象出人脸特征的建模公式,比如在视频流处理过程中,可以利用“眨眼”这种面部表情中的特征来进行融合处理,实现更准确的定位。

8,303

社区成员

发帖
与我相关
我的任务
社区描述
游戏开发相关内容讨论专区
社区管理员
  • 游戏开发
  • 呆呆敲代码的小Y
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧