国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210708418.2 (22)申请日 2022.06.22 (71)申请人 南京邮电大 学 地址 210046 江苏省南京市栖霞区文苑路9 号 (72)发明人 王睿 陈佳怡 黄海平  (74)专利代理 机构 南京正联知识产权代理有限 公司 32243 专利代理师 姜梦翔 (51)Int.Cl. G06F 40/126(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于词嵌入和生成式神经网络的主题 挖掘方法 (57)摘要 本发明公开了一种基于词嵌入和生成式神 经网络的主题挖掘方法, 属于自然语言处理领 域。 本方法包括: 对语料库中的文本进行预处理; 将文档词袋表 示作为编码器网络的输入, 将编码 器网络的输出作为表示该文档主题分布的主题 向量; 文档主题向量经过加噪后作为高斯解码器 的输入, 将高斯解码器的输出作为表 示该文档词 分布的生 成式词袋表示; 以自编码器网络的重构 损失和狄利克雷先验分布对齐的正则化损失最 小为目标, 对模型进行训练。 本发明利用多维高 斯分布在词向量空间对主题进行建模, 融入了词 向量中的外部语义知识, 有效提高了主题的一致 性; 同时采用优化最大平均差的方法进行狄利克 雷先验分布对齐, 提高了主题的准确性。 权利要求书4页 说明书9页 附图2页 CN 115099188 A 2022.09.23 CN 115099188 A 1.一种基于词嵌入和生成式神经网络的主题挖掘方法, 其特征在于, 具体包括如下步 骤: S1、 对语料库中的文本进行 预处理, 将文档用词袋表示; S2、 将步骤S1得到的文档词袋表示作为编码器网络的输入, 将编码器网络的输出作为 表示该文档主题分布的主题向量; S3、 将步骤S2得到的文档主题向量经过加噪后作为高斯解码器的输入, 将高斯解码器 的输出作为表示该文档词分布的生成式词袋表示; S4、 以自编码器网络的重构损 失和狄利克雷先验分布对齐的正则化损 失最小为目标, 对模型进行训练。 2.根据权利要求1所述的一种基于词嵌入和生成式神经网络的主题挖掘方法, 其特征 在于, 步骤S1中所述将文档用词 袋表示采用TF ‑IDF表示法, 所述TF ‑IDF表示法的具体计算 方法如下: tf‑idfv,d=tfv,d×idfv 其中, nv,d表示词表第v个词出现在文档d中的次数, |D|表示语料中文档的个数, |Dv|表 示语料库中包含词表中第v个词的文档的个数; 因此, 每个文档可以被表示为一个V维的多 项式分布且第v维表示词表中第v个词与该文档的语义相关度。 3.根据权利要求2所述的一种基于词嵌入和生成式神经网络的主题挖掘方法, 其特征 在于, 步骤S2中所述编 码器网络由2个全连接层组成, 所述编码 器网络以真实语料中随机采 样的真实文档的V维向量表示 为输入, 并将其变换为K维服从多项式分布的文档 ‑主题分 布 所述步骤S2的具体实现步骤如下: S201、 将真实语料中随机采样的真实文档的V维向量表示 输入编码器网络, 所述编码 器网络首 先通过如下变换将其映射到S维语义空间: 其中, 和 分别为两个表示层的权重矩阵和偏置项, 是经过批 归一化BN(·)的状态向量, leak是LeakyReLU激活函数的超参数, 为表示层的输出向量;权 利 要 求 书 1/4 页 2 CN 115099188 A 2S202、 编码器网络利用如下变换将 映射为K维的文档主题分布: 其中, 为与文档 对应的文档主题分布且第k∈{1,2,...,K}维θe(k)表示第k个主题 在文档 中所占的比重 。 4.根据权利要求3所述的一种基于词嵌入和生成式神经网络的主题挖掘方法, 其特征 在于, 所述步骤S3中使用的高斯解码器以从编码器网络得到的文档 主题分布 加噪后的 为输入, 通过非线性变换将其 转换为与之对应的V维文档词分布 其具体实现步骤如下: S301、 对编码器的输出 进行加噪, 即 其中, 采样自先验狄利克雷分布; β 为比例系数, 当β =0 时, 说明高斯解码器的输入 就是编码 器的输出, 当β = 1时, 说明高斯解码 器的输入完全采样自先验分布, 而不考虑编码 器的输出 结果; S302、 利用多维高斯分布对每 个主题进行建模 解码器网络D用一个词向量维度的高斯分布 来建模第k个主题, 其中, 和Σk 是可训练参数, 分别代表该高斯分布的均值和协方差矩阵; 对于词表 中的第v∈{1,2,..., V}个词, 根据高斯分布的概 率密度计算公式, 其在第k个主题中的概 率φk,v可由下式得 出: 其中, 为词表中第v个词的词向量, V是词表大小, |Σk|=detΣk是协方差矩阵Σk的行 列式, De是词向量的维度, 为通过概率密度计算出的概率值, 为第k个主题归 一化后的词分布 S303、 计算主题词分布 根据加噪后的主题分布 和计算得到的主题词分布, 文档词分布 可由下式计算: 其中, θ(k)为第k个主题所占的比重 。 5.根据权利要求4所述的一种基于词嵌入和生成式神经网络的主题挖掘方法, 其特征 在于, 步骤S4中所述自编 码器网络的重构损失和狄利克雷先验分布对齐的正则化损失具体 如下: 重构损失: 正则化损 失计算主要分为两步: 一是从狄利克雷分布中采样文档主题分布; 二是计算权 利 要 求 书 2/4 页 3 CN 115099188 A 3

.PDF文档 专利 一种基于词嵌入和生成式神经网络的主题挖掘方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于词嵌入和生成式神经网络的主题挖掘方法 第 1 页 专利 一种基于词嵌入和生成式神经网络的主题挖掘方法 第 2 页 专利 一种基于词嵌入和生成式神经网络的主题挖掘方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:31上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。