国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221074986 6.7 (22)申请日 2022.06.29 (71)申请人 深圳太极数智技 术有限公司 地址 518000 广东省深圳市福田区梅林街 道梅都社区中康路136号深圳新一代 产业园3栋1402 (72)发明人 李晓琼 黄鼎 陈昭  (74)专利代理 机构 深圳中一联合知识产权代理 有限公司 4 4414 专利代理师 张菁华 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/242(2020.01)G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 7/00(2006.01) (54)发明名称 一种文本情感分析的方法及装置 (57)摘要 本申请适用于自然语 言处理技术领域, 提供 了一种文本情感分析的方法及装置。 该方法包 括: 根据第一情感词在语料库中出现的次数, 确 定所述第一情感词的情感倾向强度值; 根据所述 第一情感词典 中的第二情感词, 在所述语料库中 提取与所述第二情感词具有相似句法结构的第 三情感词; 根据所述情感倾向强度值和所述第三 情感词, 生成第二情感词典, 所述第二情感词典 包括所述第一情感词、 所述第二情感词和所述第 三情感词; 根据所述第二情感词典对待测文本的 情感极性进行分析。 本申请可以提高在基于情感 词典对待测文本进行情感极性分析时的覆盖面 和准确率。 权利要求书4页 说明书24页 附图7页 CN 115098636 A 2022.09.23 CN 115098636 A 1.一种文本情感分析的方法, 其特 征在于, 包括: 根据第一情感词在语料库中出现的次数, 确定所述第一情感词的情感倾向强度值; 根据第二情感词在所述语料库中提取第 三情感词, 所述第 二情感词指第 一情感词典中 的词, 所述第三情感词与所述第二情感词具有相似的句法结构; 根据所述情感倾向强度值和所述第三情感词, 生成第二情感词典, 所述第二情感词典 包括所述第一情感词、 所述第二情感词和所述第三情感词; 根据所述第二情感词典对待测文本的情感极性进行分析。 2.根据权利要求1所述的方法, 其特征在于, 在根据 所述第二情感词典对待测文本的情 感极性进行分析之前, 所述方法还 包括: 确定所述待测文本的情感极性 概率; 其中, 所述 根据所述第二情感词典对待测文本的情感极性进行分析, 包括: 根据所述情感极性 概率和所述第二情感词典, 对所述待测文本的情感极性进行分析。 3.根据权利要求1或2所述的方法, 其特征在于, 所述第一情感词包括正面情感词和负 面情感词, 所述语料库中包括 正面情感语料和负面情感语料; 其中, 所述根据第一情感词在语料库中出现的次数, 确定所述第一情感词的情感倾向 强度值, 包括: 根据所述正面情感词在所述正面情感语料中表示正面语义 时的出现次数、 所述正面情 感词在所述负面情感语料中表示正面语义时的出现次数、 所述正面情感词在所述负面情感 语料中出现次数、 在所述正面情感语料中所有表 示正面语义的情感词出现次数之和中的一 项或多项, 确定所述 正面情感词的情感倾向强度值; 根据所述负面情感词在所述负面情感语料中表示负面语义 时的出现次数、 所述负面情 感词在所述正面情感语料中表示负面语义时的出现次数、 所述负面情感词在所述正面情感 语料中出现次数、 在所述负面情感语料中所有表 示负面语义的情感词出现次数之和中的一 项或多项, 确定所述负面情感词的情感倾向强度值。 4.根据权利要求3所述的方法, 其特征在于, 所述正面情感词的情感倾向强度值满足下 式: 其中, ti为所述正面情感词, 为ti的情感倾向强度值, 为ti在所述正面情感语料 中表示正面语义时的出现次数, pwords为所有所述正面情感词构成 的集合, 为所 述正面情感语料中所有表示正面语义的情感词出现次数之和, 为ti在所述负面情感语 料中表示 正面语义时的出现次数, 为ti在所述负面情感语料中出现次数; 所述负面情感词的情感倾向强度值满足下式:权 利 要 求 书 1/4 页 2 CN 115098636 A 2其中, ti为所述负面情感词, 为ti的情感倾向强度值, 为ti在所述负面情感语料 中表示负面语义时的出现次数, nwords为所有所述负面情感词构成的集合, 为所 述负面情感语料中所有表示负面语义的情感词 出现次数之和, 为ti在所述正面情感语 料中表示负面语义时的出现次数, 为ti在所述正面情感语料中出现次数。 5.根据权利要求1至4中任一项的所述方法, 其特征在于, 所述根据第二情感词在所述 语料库中提取第三情感词, 包括: 对所述语料库中的文本进行句法分析, 获得句法分析 结果; 将所述文本划分为短句集; 根据所述第 二情感词确定所述第 二情感词所在的第 一短句, 所述第 一短句为所述短句 集中的短句; 对所述第二情感词和所述第一短句进行 标注, 获得句法结构标注结果; 根据所述句法分析结果以及所述句法结构标注结果, 确定第 二短句以及所述第 三情感 词, 所述第二短句为所述第三情感词在所述短句集中所在的短句, 且所述第二短句与所述 第一短句具有相似的句法结构, 其中, 所述第三情感词在语料库中的出现次数大于第一阈 值; 根据所述第二情感词, 确定所述第三情感词的情感倾向, 所述情感倾向包括正面情感 倾向和负面情感倾向; 根据所述第三情感词的情感倾向, 确定所述第三情感词的情感倾向强度值。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述第二情感词, 确定所述第三 情感词的情感倾向, 包括: 根据所述第二情感词和所述第三情感词在同一所述文本中的共现关系, 确定情感词 图, 所述情感词图包括 正面情感子图和负面情感子图; 确定第一分离代价以及第二分离代价, 其中, 所述第一分离代价指所述第三情感词与 所述正面情感子图的分离代价, 所述第二分离代 价指所述第三情感词 与所述负面情感子图 的分离代价; 比较所述第一分离代价和所述第二分离代价; 将所述第一分离代价和所述第二分离代价中分离代价最大的情感子图所对应的情感 倾向, 确定为所述第三情感词的情感倾向。 7.根据权利要求6所述的方法, 其特 征在于, 所述第一分离代价满足下式: 其中, SepCost为所述第一分离代价, si为所述正面情感子图中的所述第二情感词的情 感倾向强度值, G为所述正面情感子图, di表示所述正面情感子图中所述第二情感词与所述权 利 要 求 书 2/4 页 3 CN 115098636 A 3

.PDF文档 专利 一种文本情感分析的方法及装置

文档预览
中文文档 36 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共36页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本情感分析的方法及装置 第 1 页 专利 一种文本情感分析的方法及装置 第 2 页 专利 一种文本情感分析的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:09:14上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。