专利 一种插入音频或视频的方法以及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210591315.2 (22)申请日 2022.05.27 (71)申请人北京兰姆达科技有限公司地址 100050 北京市朝阳区利泽中二路望京科技园E座一层易蓝空间 (72)发明人肖轶　李林　 (74)专利代理机构北京中索知识产权代理有限公司 11640 专利代理师隋晓勇 (51)Int.Cl. G06F 16/41(2019.01) G06F 16/48(2019.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G10L 15/18(2013.01)G10L 15/26(2006.01) (54)发明名称一种插入音频或视频的方法以及系统 (57)摘要本发明提供了一种插入音频或视频的方法以及系统，其中插入音频或视频的方法，包括以下步骤：通过语音转文字技术获取含时间标签的内容文本；通过NLP、 NLU算法获取文本中的关键要素；通过NLP算法和判断，获取可插入音频或视频的时间节点；将上述数据存储、整合记录，用于后续音频或视频的插入。本发明的方法用以改善传统音频或视频插入方式简单、单一的问题，能够提高插入方式的灵活度和效率，也可用于音频可视化、音频内搜索、提升音频商业化效率方面。权利要求书1页说明书5页附图1页 CN 114925223 A 2022.08.19 CN 114925223 A 1.一种插入音频或视频的方法，其特征在于，包括如下步骤：将目标音频通过语音转文字的方法，生成含有相应内容和时间标签的文本，并镜像生成与所述含有相应内容和时间标签文本对应的数据；对所述含有相应内容和时间标签的文本，进行后续操作得到关键要素以及可插入音频或视频的时间节点，并镜像生成与关键要素对应的数据以及与可插入音频或视频的时间节点对应的数据；其中，所述关键要素得到的方法包括：通过NLP和NLU算法对文本进行文字识别或语义识别，提取得到关键要素；所述时间节点得到的方法包括：通过NLP算法识别文本中文字的文意，经过判断，形成可插入音频或视频的时间节点；将上述所有得到的数据存储、整合记录，以备后续插入音频或视频。 2.根据权利要求1所述插入的方法，其特征在于，所述判断方法包括：先通过程序，基于断句、停顿的音轨区别寻找可插入音频或视频的时间节点，再经过人工判断，基于上下文的内容，确定插入音频或视频的时间节点。 3.根据权利要求1所述插入的方法，其特征在于，所述后续插入音频或视频的方法包括：在所述目标音频播放过程中，将目标音频对应的时间标签，与其所对应关键要素或可插入音频或视频的时间节点逐一比对后，插入音频或视频。 4.根据权利要求1所述插入的方法，其特征在于，所述语音转文字的方法包括： ASR语音识别和NLP自然语言处理，是基于断句、停顿的音轨差别，自动在任意文字前后添加时间标签，不局限字、词、句。 5.根据权利要求4所述插入的方法，其特征在于，所述时间标签为 “[t1:t2]”,其中t1表示起始时间点， t 2表示结束时间点，单位为毫秒。 6.一种插入音频或视频的系统，其特征在于，包括：文本信息模块：用于将目标音频通过语音转文字的方法，生成含有相应内容和时间标签的文本，并镜像生成与所述含有相应内容和时间标签文本对应的数据；内容标签模块：用于对所述含有相应内容和时间标签的文本，通过NLP和NLU算法对文本进行文字识别或语义识别，提取得到关键要素，并镜像生成与所述关键要素对应的数据；植入点模块：用于对所述添加时间标签后的文本内容，通过NLP算法识别文字的文意，经过判断，形成可插入音频或视频的时间节点，并镜像生成与可插入音频或视频时间节点对应的数据；存储模块：用于对文本信息模块、内容标签模块、植入点模块镜像生成的数据进行存储、整合记录，以备后续插入音频或视频。 7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序执行时实现权利要求1 ‑5任一项所述插入方法的步骤。 8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求 1‑5任一项所述插入方法的步骤。权　利　要　求　书 1/1 页 2 CN 114925223 A 2一种插入音频或视频的方法以及系统技术领域 [0001]本发明涉及音频技术领域，具体而言，涉及一种在音频中插入音频或视频的方式以及系统。背景技术 [0002]当前音频或视频插入的方式相对简单，主要是学习、跟随传统的视频行业，音频或视频通过如前贴片、中贴片、后贴片、暂停悬浮窗、植入式贴片等方式插入，其中也存在许多问题，如一次成型后难以修改、影响用户观看体验、商业化效率低等问题。 [0003]当前音频管理系统主要是借助音频文件标签和标注的方式进行粗放式的音频内容生产管理，在广电、互联网音视频等领域因为对音频内容的关注度偏向于音视频结合的管理方式。目前的已有技术主要以元数据和索引数据管理音频内容为主，内容管理不够细致。 [0004]有鉴于此，特提出本发明。发明内容 [0005]本发明提供一种插入音频或视频的方法以及系统，可以直接在成型的音频中插入，插入音频或视频的时段可以在音频中的任何处，插入时段的选取更为灵活，且易于修改、不会影响用户的观看体验，可提升音频内商业化效率，解决或大幅度优化上述问题，管理上也更为细致。 [0006]具体地，本发明是通过以下技术方案实现的： [0007]第一方面，本发明公开了一种插入音频或视频的方法，包括如下步骤： [0008]将目标音频通过语音转文字的方法，生成含有相应内容和时间标签的文本，并镜像生成与所述含有相应内容和时间标签文本对应的数据； [0009]对所述含有相应内容和时间标签的文本，进行后续操作得到关键要素以及可插入音频或视频的时间节点，并镜像生成与关键要素对应的数据以及与可插入音频或视频的时间节点对应的数据； [0010]其中，所述关键要素得到的方法包括：通过NLP和NLU算法对文本进行文字识别或语义识别，提取得到关键要素； [0011]所述时间节点得到的方法包括：通过NLP算法识别文本中文字的文意，经过判断，形成可插入音频或视频的时间节点； [0012]将上述所有得到的数据存储、整合记录，以备后续插入音频或视频。 [0013]进一步地，所述判断方法包括：先通过程序，基于断句、停顿的音轨差别寻找可插入音频或视频的时间节点，再经过人工判断，基于上下文的内容，确定可插入音频或视频的时间节点。可选出适合的插入节点，不会影响用户体验。 [0014]进一步地，所述后续插入音频或视频的方法包括：在所述目标音频播放过程中，将目标音频对应的时间标签，与其所对应的关键要素或可插入音频或视频的时间节点逐一比说　明　书 1/5 页 3 CN 114925223 A 3

专利 一种插入音频或视频的方法以及系统

专利一种插入音频或视频的方法以及系统