专利 一种字幕纠错方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210735278.8 (22)申请日 2022.06.27 (71)申请人咪咕文化科技有限公司地址 100032 北京市西城区华远街1 1号申请人中国移动通信集团有限公司 (72)发明人李宗祥　 (74)专利代理机构北京银龙知识产权代理有限公司 11243 专利代理师欧文芳 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G06F 40/232(2020.01) G06V 40/16(2022.01)G06V 20/62(2022.01) G06V 10/774(2022.01) (54)发明名称一种字幕纠错方法、装置及电子设备 (57)摘要本申请公开了一种字幕纠错方法、装置及电子设备，涉及信息处理技术领域，以解决现有字幕纠错方法效率较低的问题。该方法包括：获取直播视频流的初始字幕；识别所述直播视频流中的目标元素，并根据所述目标元素确定目标名词集，其中，所述目标元素包括身份标识元素，所述目标名词集包括人名；利用所述目标名词集对所述初始字幕进行纠正处理，得到目标字幕；将所述目标字幕添加在所述直播视频流中。本申请实施例通过对直播视频流进行视频理解，根据其中的目标元素确定匹配词集，可以缩小字幕纠正时的匹配范围，且无需进行分词处理，从而可节省分词和匹配名词开销，提高字幕纠正效率。权利要求书2页说明书17页附图3页 CN 115034210 A 2022.09.09 CN 115034210 A 1.一种字幕纠错方法，其特征在于，包括：获取直播视频流的初始字幕；识别所述直播视频流中的目标元素，并根据所述目标元素确定目标名词集，其中，所述目标元素包括身份标识元素，所述目标名词集包括人名；利用所述目标名词集对所述初始字幕进行纠正处理，得到目标字幕；将所述目标字幕添加在所述直播视频流中。 2.根据权利要求1所述的方法，其特征在于，所述根据所述目标元素确定目标名词集，包括：确定所述直播视频流的各帧视频画面中各目标元素的像素占比；根据所述各目标元素的像素占比，确定各目标元素的重要度；根据预设的元素与名词的对应关系，确定各目标元素对应的各目标名词；根据所述各目标元素的重要度，从各目标名词中选择重要度排序前N的N个目标名词形成所述目标名词集，其中， N 为正整数。 3.根据权利要求2所述的方法，其特征在于，所述识别所述直播视频流的目标元素，包括：识别所述直播视频流的各帧视频画面中的各目标元素、包含各目标元素的帧数和各目标元素在各帧视频画面中的像素数；所述确定所述直播视频流的各帧视频画面中各目标元素的像素占比，包括：根据第一元素在各帧视频画面中的像素数、各帧视频画面的总像素数、各帧视频画面中包含所述第一元素的帧数和各帧视频画面的总帧数，计算所述第一元素的像素占比，其中，所述第一元素为任一目标元素。 4.根据权利要求3所述的方法，其特征在于，所述根据所述各目标元素的像素占比，确定各目标元素的重要度，包括：根据所述第一元素的像素占比、目标参数和各帧视频画面的总帧数，计算所述第一元素的重要度，其中，所述目标参数包括各帧视频画面中包含所述第一元素的帧数、所述第一元素在各帧视频画面中像素占比排序前M的帧数和各帧视频画面中不包含所述第一元素的帧数中的至少一个， M为正整数。 5.根据权利要求1所述的方法，其特征在于，所述获取直播视频流的初始字幕之前，所述方法还包括：获取并复制所述直播视频流，得到第一直播视频流和第二直播视频流；将所述第一直播视频流存入视频缓存队列；所述识别所述直播视频流中的目标元素，包括：识别所述第二直播视频流中的目标元素；所述将所述目标字幕添加在所述直播视频流中，包括：将所述视频缓存队列中的所述第一直播视频流与所述目标字幕结合播放。 6.根据权利要求5所述的方法，其特征在于，所述视频缓存队列包括至少两个队列；所述将所述第一直播视频流存入视频缓存队列，包括：将所述第一直播视频流存入第一视频缓存队列；所述利用所述目标名词集对所述初始字幕进行纠正处理之后，所述将所述视频缓存队权　利　要　求　书 1/2 页 2 CN 115034210 A 2列中的所述第一直播视频流与所述目标字幕结合播放之前，所述方法还包括：将所述第一视频缓存队列中的所述第一直播视频流转移至第二视频缓存队列，并清空所述第一视频缓存队列；所述将所述视频缓存队列中的所述第一直播视频流与所述目标字幕结合播放，包括：将所述第二视频缓存队列中的所述第一直播视频流与所述目标字幕结合播放。 7.根据权利要求1所述的方法，其特征在于，所述利用所述目标名词集对所述初始字幕进行纠正处理，得到目标字幕，包括：将所述目标名词集中的各目标名词分别与所述初始字幕中的名词进行匹配；在所述目标名词集中的第一目标名词与所述初始字幕中的第一名词匹配成功的情况下，使用所述第一目标名词替换所述第一名词，得到纠正后的目标字幕。 8.根据权利要求7所述的方法，其特征在于，所述将所述目标名词集中的各目标名词分别与所述初始字幕中的名词进行匹配，包括：分别以所述目标名词集中的各目标名词的长度为匹配窗口，将该目标名词与所述初始字幕中的名词进行文本和拼音匹配；其中，在所述目标名词集中的第一目标名词与所述初始字幕中的第一名词的文本匹配度大于第一预设值，且拼音匹配度大于第二预设值的情况下，确定所述第一目标名词与所述第一名词匹配成功。 9.一种字幕纠错装置，其特征在于，包括获取模块，用于获取直播视频流的初始字幕；确定模块，用于识别所述直播视频流中的目标元素，并根据所述目标元素确定目标名词集，其中，所述目标元素包括身份标识元素，所述目标名词集包括人名；纠错模块，用于利用所述目标名词集对所述初始字幕进行纠正处理，得到目标字幕；添加模块，用于将所述目标字幕添加在所述直播视频流中。 10.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器，用于读取存储器中的程序实现如权利要求1 至8中任一项所述的字幕纠错方法中的步骤。 11.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的字幕纠错方法中的步骤。权　利　要　求　书 2/2 页 3 CN 115034210 A 3

专利 一种字幕纠错方法、装置及电子设备

专利一种字幕纠错方法、装置及电子设备