(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210735278.8
(22)申请日 2022.06.27
(71)申请人 咪咕文化科技有限公司
地址 100032 北京市西城区华远街1 1号
申请人 中国移动通信集团有限公司
(72)发明人 李宗祥
(74)专利代理 机构 北京银龙知识产权代理有限
公司 11243
专利代理师 欧文芳
(51)Int.Cl.
G06F 40/258(2020.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)
G06F 40/232(2020.01)
G06V 40/16(2022.01)G06V 20/62(2022.01)
G06V 10/774(2022.01)
(54)发明名称
一种字幕纠错方法、 装置及电子设备
(57)摘要
本申请公开了一种字幕纠错方法、 装置及电
子设备, 涉及信息处理技术领域, 以解决现有字
幕纠错方法效率较低的问题。 该方法包括: 获取
直播视频流的初始字幕; 识别所述直播视频流中
的目标元素, 并根据所述目标元素确定目标名词
集, 其中, 所述目标元素包括身份标识元素, 所述
目标名词集包括人名; 利用所述目标名词集对所
述初始字幕进行纠正处理, 得到目标字幕; 将所
述目标字幕 添加在所述直播视频流中。 本申请实
施例通过对直播视频流进行视频理解, 根据其中
的目标元素确定匹配词集, 可以缩小字幕纠正时
的匹配范围, 且无需进行分词处理, 从而可节省
分词和匹配名词开销, 提高字幕纠正效率。
权利要求书2页 说明书17页 附图3页
CN 115034210 A
2022.09.09
CN 115034210 A
1.一种字幕纠错方法, 其特 征在于, 包括:
获取直播视频流的初始字幕;
识别所述直播视频流中的目标元素, 并根据 所述目标元素确定目标名词集, 其中, 所述
目标元素包括身份标识元 素, 所述目标名词集包括人名;
利用所述目标名词集对所述初始字幕进行纠正处 理, 得到目标字幕;
将所述目标字幕添加在所述 直播视频流中。
2.根据权利要求1所述的方法, 其特征在于, 所述根据所述目标元素确定目标名词集,
包括:
确定所述 直播视频流的各帧视频画面中各目标 元素的像素占比;
根据所述各目标 元素的像素占比, 确定各目标 元素的重要度;
根据预设的元 素与名词的对应关系, 确定各目标 元素对应的各目标名词;
根据所述各目标元素的重要度, 从各目标名词中选择重要度排序 前N的N个目标名词形
成所述目标名词集, 其中, N 为正整数。
3.根据权利要求2所述的方法, 其特征在于, 所述识别所述直播视频流的目标元素, 包
括:
识别所述直播视频流的各帧视频画面中的各目标元素、 包含各目标元素的帧数和各目
标元素在各帧视频画面中的像素 数;
所述确定所述 直播视频流的各帧视频画面中各目标 元素的像素占比, 包括:
根据第一元素在各帧视频画面中的像素数、 各帧视频画面的总像素数、 各帧视频画面
中包含所述第一元素 的帧数和各帧视频画面的总帧数, 计算所述第一元素 的像素占比, 其
中, 所述第一元 素为任一目标 元素。
4.根据权利要求3所述的方法, 其特征在于, 所述根据所述各目标元素的像素占比, 确
定各目标 元素的重要度, 包括:
根据所述第一元素的像素占比、 目标参数和各帧视频画面的总帧数, 计算所述第一元
素的重要度, 其中, 所述目标参数包括各帧视频画 面中包含所述第一元素的帧数、 所述第一
元素在各帧视频画 面中像素占比排序前M的帧数和各帧视频画 面中不包含 所述第一元素的
帧数中的至少一个, M为 正整数。
5.根据权利要求1所述的方法, 其特征在于, 所述获取直播视频流的初始字幕之前, 所
述方法还 包括:
获取并复制所述 直播视频流, 得到第一 直播视频流和第二 直播视频流;
将所述第一 直播视频流存 入视频缓存队列;
所述识别所述 直播视频流中的目标 元素, 包括:
识别所述第二 直播视频流中的目标 元素;
所述将所述目标字幕添加在所述 直播视频流中, 包括:
将所述视频缓存队列中的所述第一 直播视频流与所述目标字幕结合 播放。
6.根据权利要求5所述的方法, 其特 征在于, 所述视频缓存队列包括至少两个队列;
所述将所述第一 直播视频流存 入视频缓存队列, 包括:
将所述第一 直播视频流存 入第一视频缓存队列;
所述利用所述目标名词集对所述初始字幕进行纠正处理之后, 所述将所述视频缓存队权 利 要 求 书 1/2 页
2
CN 115034210 A
2列中的所述第一 直播视频流与所述目标字幕结合 播放之前, 所述方法还 包括:
将所述第一视频缓存队列中的所述第 一直播视频流转移至第 二视频缓存队列, 并清 空
所述第一视频缓存队列;
所述将所述视频缓存队列中的所述第一 直播视频流与所述目标字幕结合 播放, 包括:
将所述第二视频缓存队列中的所述第一 直播视频流与所述目标字幕结合 播放。
7.根据权利要求1所述的方法, 其特征在于, 所述利用所述目标名词集对所述初始字幕
进行纠正处 理, 得到目标字幕, 包括:
将所述目标名词集中的各目标名词分别与所述初始字幕中的名词进行匹配;
在所述目标名词集中的第一目标名词与所述初始字幕中的第一名词匹配成功的情况
下, 使用所述第一目标名词替换 所述第一名词, 得到纠正后的目标字幕。
8.根据权利要求7所述的方法, 其特征在于, 所述将所述目标名词集中的各目标名词分
别与所述初始字幕中的名词进行匹配, 包括:
分别以所述目标名词集中的各目标名词的长度为匹配窗口, 将该目标名词与 所述初始
字幕中的名词进行文本和拼音匹配;
其中, 在所述目标名词集中的第 一目标名词与 所述初始字幕中的第 一名词的文本匹配
度大于第一预设值, 且拼音匹配度大于第二预设值的情况下, 确定所述第一 目标名词与所
述第一名词匹配成功。
9.一种字幕纠错装置, 其特 征在于, 包括
获取模块, 用于获取直 播视频流的初始字幕;
确定模块, 用于识别所述直播视频流中的目标元素, 并根据所述目标元素确定目标名
词集, 其中, 所述目标 元素包括身份标识元 素, 所述目标名词集包括人名;
纠错模块, 用于利用所述目标名词集对所述初始字幕进行纠正处 理, 得到目标字幕;
添加模块, 用于将所述目标字幕添加在所述 直播视频流中。
10.一种电子设备, 包括: 存储器、 处理器及存储在所述存储器上并可在所述处理器上
运行的计算机程序; 其特征在于, 所述处理器, 用于读取存储器中的程序实现如权利要求1
至8中任一项所述的字幕纠错方法中的步骤。
11.一种计算机可读存储介质, 用于存储计算机程序, 其特征在于, 所述计算机程序被
处理器执行时实现如权利要求1至8中任一项所述的字幕纠错方法中的步骤。权 利 要 求 书 2/2 页
3
CN 115034210 A
3
专利 一种字幕纠错方法、装置及电子设备
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:49上传分享