1 准备工作:
- EsrXP……内嵌字幕截取软件(有汉化版)
- CAJ浏览器……OCR文字识别软件
- 格式工厂……视频格式转换软件
- SrtSubMaster……字幕编辑软件
软件下载请自行百度、谷歌下载!
2 提取步骤
2.1 视频格式转换
由于EsrXP的视频播放应该是用的Media Player控件,跟你系统的Windows Media Player有关,如果你用WMP播放不了,那么ESRXP绝对打不开,所以建议你用“格式工厂”先将视频转换成WMP可播放的格式(例如MPG,AVI等),然后再用ESRXP提取字幕。
图1 格式工厂
图2 截取视频
图3 开始格式转换
注:到底EsrXP能识别哪一种格式,这都说不准,所以得多试试,视频格式转换的时候可以截取视频的一小段进行测试,可加快测试速度。有时候视频太大,EsrXP也不能显示视频,所以手上必须得有一个视频转换分割工具,本人亲自测试过好几款流行的视频转换软件,格式工厂是速度最快、效果最好的一款。
2.2 EsrXP提取字幕
2.2.1 打开影片
图4 打开影片
2.2.2 设置过滤器
图5 打开过滤器
图6 调整字幕区域
注:可以先点选“Full Width”按钮,调整上下区域时先将下面数值调到位,再调上面的数值,因为区域是以从上往下的顺序,所以上面数值的极限就是下面的数值,试一试便知道我说的是什么。
图7 设置识别参数
注:这里应该是最为关键的地方,参数是没有一个固定的设置,要根据你的视频的字幕色,底色等等进行调节,不懂没有关系,每一个选项都上下调整试一试,总之一个原则,使识别的字幕既完整又清晰。多试吧!
图8 设置识别参数
注:这几个选项我一般按默认地设置,我试着改了几次,好像都没有影响。
2.2.3 开始提取
图9 开始提取字幕
注:等几分钟吧,这得看视频文件的大小。
2.2.4 编辑
图10 打开管理器
图11 删除重复或多余的字幕图片
注:这一项工作的工作量也不小,注意多使用“放大”,“缩小”按钮以及“拖选”的技巧。
图12 删除按钮
图13 勾选高质量选项
注:许多人可能没注意到这一选项,勾选它可以大大增加后续文字识别的准确度。
2.2.5 保存OCR图片
图14 保存字幕图片文件
图15 OCR图片文件选项
注:第一个选项是指每张图片中有多少行字幕,这个随便;第二个选项指字幕分几栏,为了后续编辑的方便,建议还是设置为1。
图16 保存的字幕图片文件
2.3 文字识别
具有OCR文字识别功能的软件非常多,随意选择一款便可以。作者习惯于使用CAJViewer,因为它识别准确率较多。但使用CAJViewer先得将”OCR图片”转换为PDF文件,然后在CAJViewr中打开该PDF文件,接着是选择图像,OCR文字识别,发送到Word(亦可复制粘贴到Text文件)。本人亦测试过许多流行的OCR文字识别软件,准确率都不高,不知是何原因,大家可以Baidu或Google一下相关内容。
图17 将图片转换为PDF
图18 CAJViewer打开PDF并点“选择图像”
图19 框选识别区域
图20 进行文字识别
图21 将识别结果发到Word
2.4 字幕初步编辑
CAJViewer识别的文字并不能达到100%的准确度(同时受EsrXP的影响也非常大),当然还没有任何一款软件能达到如此高的准确度。所以,将识别的字幕拷贝到EsrXP左侧的编辑框,对照右侧的字幕图片进行校正。(或对照PDF文件的字幕对Word文件中字幕进行校正。)
图22 校正前
注:当时忘了抓图,这是编辑好之后随意调的。
图23 校正后
图24 保存srt字幕文件
2.5 字幕精确编辑
如果初步校正是在EsrXP中完成那么更为简单直接导出为srt字幕文件便可以了。最后使用SrtSubMaster软件,对照视频,进行准确的断句和再校正工作。
图25 用SrtSubMaster编辑字幕
注:这一步事实上十分地必要,我们可以看到,不论是EsrXP字幕识别还是OCR文字识别,都不能100%保证没错误,所以再校正工作还是需要的。
2.6 字幕的发布
将编辑好的srt字幕文件改得与视频文件同名,同时将srt文件放在视频文件的同一目录下,播放器便可以自动调用相应的字幕文件进行显示。
比如讲常用的时间轴、关于字幕延迟或提前如何纠正等
大神能出一篇关于字幕编辑的简单介绍吗?