(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210591315.2
(22)申请日 2022.05.27
(71)申请人 北京兰姆达科技有限公司
地址 100050 北京市朝阳区利泽中二路望
京科技园E座 一层易蓝空间
(72)发明人 肖轶 李林
(74)专利代理 机构 北京中索 知识产权代理有限
公司 11640
专利代理师 隋晓勇
(51)Int.Cl.
G06F 16/41(2019.01)
G06F 16/48(2019.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)
G10L 15/18(2013.01)G10L 15/26(2006.01)
(54)发明名称
一种插入音频或视频的方法以及系统
(57)摘要
本发明提供了一种插入音频或视频的方法
以及系统, 其中插入音频或视频的方法, 包括以
下步骤: 通过语音转文字技术获取含时间标签的
内容文本; 通过NLP、 NLU算法获取文本中的关键
要素; 通过NLP算法和判断, 获取可插入音频或视
频的时间节点; 将上述数据存储、 整合记录, 用于
后续音频或视频的插入。 本发明的方法用以改善
传统音频或视频插入方式简单、 单一的问题, 能
够提高插入 方式的灵活度和效率, 也可用于音 频
可视化、 音频内搜索、 提升音频商业 化效率方面。
权利要求书1页 说明书5页 附图1页
CN 114925223 A
2022.08.19
CN 114925223 A
1.一种插 入音频或视频的方法, 其特 征在于, 包括如下步骤:
将目标音频通过语音转文字的方法, 生成含有相应内容和时间标签的文本, 并镜像生
成与所述含有相应内容和时间标签文本对应的数据;
对所述含有相应 内容和时间标签的文本, 进行后续操作得到关键要素以及可插入音频
或视频的时间节点, 并镜像生成与关键要 素对应的数据以及与可插入音频或视频的时间节
点对应的数据;
其中, 所述关键要素得到的方法包括: 通过NLP和NLU算法对文本进行文字识别或语义
识别, 提取 得到关键要素;
所述时间节点得到的方法包括: 通过NLP算法识别文本中文字的文意, 经过判断, 形成
可插入音频或视频的时间节点;
将上述所有得到的数据存 储、 整合记录, 以备后续插 入音频或视频。
2.根据权利要求1所述插入的方法, 其特征在于, 所述判断方法包括: 先通过程序, 基于
断句、 停顿的音轨区别寻找可插入音频或视频的时间节点, 再经过人工判断, 基于上下文的
内容, 确定插 入音频或视频的时间节点。
3.根据权利要求1所述插入的方法, 其特征在于, 所述后续插入音频或视频的方法包
括: 在所述目标音频播放过程中, 将目标音频对应的时间标签, 与其所对应关键要 素或可插
入音频或视频的时间节点逐一比对后, 插 入音频或视频。
4.根据权利要求1所述插入的方法, 其特征在于, 所述语音转文字的方法包括: ASR语音
识别和NLP自然语言处理, 是基于断句、 停顿的音轨差别, 自动在任意文字前后添加时间标
签, 不局限字、 词、 句。
5.根据权利 要求4所述插入的方法, 其特征在于, 所述时间标签为 “[t1:t2]”,其中t1表
示起始时间点, t 2表示结束时间点, 单位 为毫秒。
6.一种插 入音频或视频的系统, 其特 征在于, 包括:
文本信息模块: 用于将目标音频通过语音转文字的方法, 生成含有相应内容和时间标
签的文本, 并镜像生成与所述含有相应内容和时间标签文本对应的数据;
内容标签模块: 用于对所述含有相应内容和时间标签的文本, 通过NLP和NLU算法对文
本进行文字识别或语义识别, 提取 得到关键要素, 并镜像生成与所述关键要素对应的数据;
植入点模块: 用于对所述添加时间标签后的文本内容, 通过NLP算法识别文字的文意,
经过判断, 形成可插入音频或视频的时间节点, 并镜像生成与可插入音频或视频时间节点
对应的数据;
存储模块: 用于对文本信息模块、 内容标签模块、 植入点模块镜像生成的数据进行存
储、 整合记录, 以备后续插 入音频或视频。
7.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序 执行时实
现权利要求1 ‑5任一项所述插 入方法的步骤。
8.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计
算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑5任一项所述插入方
法的步骤。权 利 要 求 书 1/1 页
2
CN 114925223 A
2一种插入音频或视频的方 法以及系统
技术领域
[0001]本发明涉及音频技术领域, 具体而言, 涉及一种在音频中插入音频或视频的方式
以及系统。
背景技术
[0002]当前音频或视频插入的方式相对简单, 主要是学习、 跟随传统的视频行业, 音频或
视频通过如前贴片、 中贴片、 后贴片、 暂停悬浮窗、 植入式贴片等方式插入, 其中也存在许多
问题, 如一次成型后难以修改、 影响用户观看 体验、 商业 化效率低等问题。
[0003]当前音频管理系统主要是借助音频文件标签和标注的方式进行粗放式的音频内
容生产管理, 在广电、 互联网音视频等领域因为对音频内容的关注度偏向于音视频结合的
管理方式。 目前 的已有技术主要以元数据和索引数据管理音频内容为主, 内容管理不够细
致。
[0004]有鉴于此, 特提出本发明。
发明内容
[0005]本发明提供一种插入音频或视频的方法以及系统, 可以直接在成型的音频中插
入, 插入音频或视频的时段可以在音频中的任何处, 插入时段的选取更为灵活, 且易于修
改、 不会影响用户的观看体验, 可提升音频内商业化效率, 解决或大幅度优化上述问题, 管
理上也更为细致。
[0006]具体地, 本发明是通过以下技 术方案实现的:
[0007]第一方面, 本发明公开了一种插 入音频或视频的方法, 包括如下步骤:
[0008]将目标音频通过语音转文字 的方法, 生成含有相应内容和时间标签的文本, 并镜
像生成与所述含有相应内容和时间标签文本对应的数据;
[0009]对所述含有相应内容和时间标签的文本, 进行后续操作得到关键要素以及可插入
音频或视频的时间节 点, 并镜像生成与关键要 素对应的数据以及与可插入音频或视频的时
间节点对应的数据;
[0010]其中, 所述关键要素得到的方法包括: 通过NLP和NLU算法对文本进行文字识别 或
语义识别, 提取 得到关键要素;
[0011]所述时间节点得到的方法包括: 通过NLP算法识别文本中文字的文意, 经过判断,
形成可插 入音频或视频的时间节点;
[0012]将上述所有得到的数据存 储、 整合记录, 以备后续插 入音频或视频。
[0013]进一步地, 所述判断方法包括: 先通过程序, 基于断句、 停顿的音轨差别寻找可插
入音频或视频的时间节点, 再经过人工判断, 基于上下文的内容, 确定可插入音频或视频的
时间节点。 可选出适 合的插入节点, 不会影响用户体验。
[0014]进一步地, 所述后续插入音频或视频的方法包括: 在所述目标音频播放过程中, 将
目标音频对应的时间标签, 与其所对应的关键要 素或可插入音频或视频的时间节点逐一比说 明 书 1/5 页
3
CN 114925223 A
3
专利 一种插入音频或视频的方法以及系统
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:09:03上传分享