(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210700536.9
(22)申请日 2022.06.20
(71)申请人 重庆科技学院
地址 401331 重庆市沙坪坝区大 学城东路
20号
(72)发明人 葛继科 程文俊 向月 陈祖琴
武承志 胡庭恺 杨照旭 刘浩因
刘苏 陈超 胥纪超 余文成
董焱 郑育
(74)专利代理 机构 重庆信航知识产权代理有限
公司 50218
专利代理师 穆祥维
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/33(2019.01)G06F 40/30(2020.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于多类别表格填充的情感三元组生
成方法
(57)摘要
本发明提供一种基于多类别表格填充的情
感三元组生成方法, 包括如下步骤: 利用联合标
注框架对原始评论文本的解析与评论文本的方
面词、 评论观点及情感极性统一标签; 利用Bert
预训练语言模 型提取文本信息的语义特征; 利用
多类别多头注意力机制学习方面词与评论观点
的关联类别增强向量表示; 方面词识别与评论观
点检测任务的信息分区及过滤; 利用情感三元组
统一标记空间实现单元格分数的填充及表格结
构的对称性约束与隐含性约束; 利用方面词、 评
价观点及情感极性在统一标注空间中均为矩形
框的特性, 进行统一标签搜索及结构化解码; 构
建多功能评论文本方面词情感三元组。 本发明提
升了方面词识别和评论观点检测的准确率 以及
消除了情感三元组重 叠的问题。
权利要求书5页 说明书15页 附图5页
CN 115098675 A
2022.09.23
CN 115098675 A
1.一种基于多类别表格填充的情感三元组生成方法, 其特 征在于, 包括以下步骤:
S1、 首先将爬虫工具所获得的评论文本信 息数据进行清洗; 其次对数据中的评论观点、
评价对象即方面词以及情感类型进行统一标签, 构建情感三元组统一标记空间; 最后将标
注好的数据以8: 1: 1的比例划分成训练集、 验证集和 测试集;
S2、 利用B ert预训练语言模型, 对评论文本进行特征编码, 从而抽取出文本的深层次语
义信息H;
S3、 根据所述情感三元组统一标记空间, 利用多类别多头注意力机制分别学习评论所
属类别与方面词相关联的类别增强向量表示HA, 以及与评论观点的关联类别增强向量表示
HO;
S4、 以类别增强向量表示HA、 HO为基础, 利用分区过滤机制将方面词识别任务与评论观
点检测任务进行双向关联, 首先利用线性层神经网络实现类似LSTM神经网络的方面门
和
观点门
然后利用门控机制将每个时间步单元分割成方面词识别任务分区ρA、 评论观点
检测任务分区ρO和共享任务分区ρS, 最后利用过滤机制过滤与任务无 关信息, 得到分区过滤
信息Hp;
S5、 利用双仿射深度注意力机制计算每个词对间的概率分布得分向量, 并将概率分布
得分向量 填充到情感三元组 统一标记空间二维表的每 个词对单 元格中;
S6、 向情感三元组统一标记空间二维表中的统一标签添加对称性约束Lsym和隐含性约
束Limp;
S7、 利用情感三元组统一标记空间联合解码框架, 遍历搜索二维表中表示方面词与评
论观点的正方形以及表示情感极性的矩形, 首先利用二 维表中方面词或者评价对象相 邻行
或列标记一致的性质, 确定两者信息的边界, 其次利用正方形关于对角线对称的性质, 解码
方面词或评论观点, 最后利用已检测的方面词以及评论观点, 遍历搜索方面词和评论观点
之间对齐的矩形框结构的情感极性;
S8、 构建评论文本方面词情感三元组, 聚合各个类别下方面词情感评价的优劣及产生
原因, 并归纳整体评论文本的情感三元组以反 映总体的评价结果, 以及根据用户的查询条
件自动生成反馈信息 。
2.根据权利要求1所述的基于多类别表格填充的情感三元组生成方法, 其特征在于, 所
述步骤S1中情感三元组 统一标记空间的构建包括以下步骤:
S11、 获取评论文本中的方面词A、 评论观点词O的起始位置与截止位置, 以及对应方面
词的情感极性Ysent={Pos,Neg,Neu};
S12、 获取评论文本中描述各个方面词与评论观点之间的类别信息, 统计分析得到m个
类别信息, 定义 为Yc={y1,y2,…,ym};
S13、 以得到的m个类别信息为基础, 对方面词、 评论观点标签以及情感极性进行标记,
定义方面词的标记方式为YA={y1,…,yi,None}, yi∈Yc, 评论观点的标记方式为YO=
{y1,…,yi,None}, yi∈Yc, 情感极性的联合标记方 式为YP={y1+p1,…,yi+pi,None}, yi∈Yc,
pi∈Ysent, None表示词对之间无关联;
S14、 将获得 的方面词标记、 评论观点标记和情感极性联合标记分别填充到表格Tn×n的
各个单元格中, 以表示词对wi,j之间的信息类别关系, 从而构建出情感三元组统一标记空权 利 要 求 书 1/5 页
2
CN 115098675 A
2间, 其中n表示评论文本S的长度。
3.根据权利要求1所述的基于多类别表格填充的情感三元组生成方法, 其特征在于, 所
述步骤S3中利用多类别多头注意力机制分别学习评论所属类别与方面词相关联的类别增
强向量表示HA, 以及与评论观点的关联类别增强向量表示HO具体包括以下步骤:
S31、 利用LSTM神经网络模型进一步获取每个时间步的文 本上下文深层次语义信息
详细计算方式如下:
其中, W、 b为可训练参数, σ 表示sigmoid激活函数, it、 ot、 ft分别表示输入门、 输出门和
遗忘门, ct表示当前时间步的单元状态; ct‑1表示前一时间步的单元状态;
表示单元状态更
新值;
S32、 将Bert输出向量表示
与上一个时间步输出的隐藏层向量ht‑1当作多类别多头注
意力机制模块的输入部分, 首先将
和K(t)点乘得到各个类别与方面词或者评论观点之间
的语义相似度a(t), 然后将V(t)与a(t)点乘得到方面词类别或评论观点类别增强向量表示
最后将LSTM神经网络模 型的隐藏层输出向量与类别增强向量表 示拼接, 形成该单元时间步
的最终向量表示ht, 具体如下式所示:
其中, softmax表示激活函数, de表示Bert输出的词向量维度, attention表示计算注意
力机制方式,
m表示文本描述方
面词或评论观点的所属类别种 类,
表示第i个类别关联的键值对, 具体如下式所
示:权 利 要 求 书 2/5 页
3
CN 115098675 A
3
专利 一种基于多类别表格填充的情感三元组生成方法
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:43上传分享