文本相似度检索技术及其应用研究

时间:2021-08-16 00:35:12 浏览量:

黄丽娟

摘要:本文运用深层神经网络针对基于语义的文本情感倾向分析方法实行了探究。通过改良策略和模式布局的设想,提出了两种情感倾向的检索布局,以便得到最佳的检索效益。实验说明,BO-BI-LSTM和BO-CNN神经网络语言模式在一定意义上提升了基于语义的文本情感倾向分析的采集方法的精确度,丢失率明显降低,预防了极度吻合。

关键词:深度神经网络;文本检索;应用研究

中图分类号:TP18      文献标识码:A

文章编号:1009-3044(2021)12-0188-02

1 前言

传统的文本情感倾向的检索分析的算法大部分依存于庞大的情感词典与基于浅层的机器学习,但是特征提取方法用的时间特别长,训练难度大,成本很高的不足,不适合当今数据信息庞大的场合。基于深层的神经网络的文本情感的检索分析的算法可以从大数据中自动地训练包括语义所指向的词向量,并且经过的深度的神经网络获取的句子或文档的特征和情感表达。深度的神经网络中的损失函数对模式训练的过分吻合有主要作用。改正的损失函数就可以提升模式的泛化的能力,减少过分吻合。情感词在文本的分类中起着主要影响。在循环神经网络当中,输入词在情感分类的结果当中的贡献可以被快速地排序,情感词在文本分类中的影响被增长,这就可以降低情感倾向的信息丢弃。

2研究内容

当前,如何在文本情感倾向分析应用深层神经网络还处在探究阶段。本文的研究目标是确立一种高效、精确的情绪倾向分析的方法。在这基础上,主要研究内容和创新点如下:深度神经网络的损失函数对于模式训练的极度吻合有明显的影响。使得让情感二类模式更加有效地吻合预定误差范例,本文借鉴于合页损失的函数和三元组损失的函数的思路,改进了BI-LSTM和CNN模式中的交叉熵的损失函数,设想了BO-BI-LSTM和BO-CNN模式。

3研究方法

3.1词向量

词向量的训练有两种方式:语言模式与主题模式。语言模式主要用来计算句子的出现几率,主要分成统计语言的模式与神经网络语言的模式。使得判定文本是否属于自然语言,就可以明确文本的概率分布来判断其存在的可能性。并且语言模式的词语是有顺序。用给出的n个词语来判定句子是合理的自然语言与否,关键是在于判断这些词语的顺序能否正确。据此,统计语言的模式的基本思路是计算条件几率。长度为T的词语序列{W1,W2…,WT}的联结几率表示为P(W1,W2…,WT)。于给出前一个词语序列W1:(t-1)的句子当中,必须估算出每一个词语的条件概率。但是,因为数据稀零,就很难估计出来所有的字符序列。有一种解决方法就是Mark性质:假如有一个单词的几率取决在于其前面的n-1个单词。如果n=1时,叫作单词的模式;如果n=2时,叫作二元语言的模式。2-gram的词频是经过计算目前单词和其前面的单词来计算的。如果n值增大时,模式中的参数值就增大,并且还是存在数据稀零与维数灾难的问题。使得解决这两个问题,于是我们采用了神经网络对语言模式进行训练,得出词向量。

3.2神经网络语言模式—Word2vec框架

经过神经网络的语言模式,在大量没有标记的语料库上进行词向量的训练。利用神经网络的语言模式对词向量进行预先训练有两个弊端:一个是尽管利用改正的神经网络的语言模式,他的训练也要大批计算的资源,并且训练时间很长。第二,改进神经网络的语言模式的目标就是使语言模式的目标函数降低,而且也不能直接反映出学习词向量的质量。

Word2vec框架,重点采用深层神经网络的方法把词map到低维实数向量空间。Word2vec框架主要包括两种不一样的实现的模式:CBOW和Skip-gram。两种模式只包括三层,就输入层、隐层和输出层。CBOW模式是在给定单词的上下文找到单词的条件几率。

3.3深度神经网络的模式

(1)卷积神经网络(CNN)

卷积神经网络是一种含有卷积的运算并且结构复杂的前向的神经网络。其开始用在图像处理方面。它卷积池的结构可以很好地提炼图像的信息。近几年来,积神经网络在自然语言处理的应用也得到了很好的效益,例如语义分析、查询检索、文本分类等等工作。积神经网络有四个组成部分:输入层、池层、卷积层、全连接层。在输入层时,输入的是和句子相应的矩阵。利用k维分布式的词向量。针对长度为n的句子时,会产生n?k的矩阵。第二部分就是池层,主要用在最重要的特征提取。利用最大值的池法,每一个特征映射合并之后,就产生一个一维向量。用最大值作为特征也可以解决句子长度不一不能自致的问题。在前面一部分,经过卷积层的卷积核运算得出几个特征映射,然后经过合并层处理产生一些一维向量。第三部分就是卷积层,主要用在句子的特征提取。其重点采用卷积核在输入层上下滑动来进行卷积运算。最后一部分就是全连接层。经过池层,我们能得到特征。再经过softmax分类器得到每个分类的概率。最后,比较预测类和标准类,再经过反向传播更换网络参数。

(2)LSTM和BI-LSTM模式

长短期记忆神经网络是一种特别的循环神经网络。它基于循环神经网络的基础上,在隐藏层的每一个神经上加上了记忆单元,然而可以控制時间序列上的记忆消息。经过几个可控门,能控制以前消息和目前消息的记忆与忘记进程,让LSTM能具有长期记忆的功能。LSTM能经过训练学习需要记忆哪些消息,需要忘记哪些消息,以便更好地捕捉长距离的依附。但是,应用LSTM建模一个个语句还存在一个问题,网络只能够解决单方向的时间序列。所以,提出了一种双向的长短时记忆的神经网络(BI-LSTM)。

在BI-LSTM模式中,计算从1次到t次的前向是前向层,从而得到并保存每一次对从向隐层得到的输出。后向从时间t往后计算至时间1,并得到和保存每一次从后向隐层得到的输出,最后前向层和后向层合并在每一时刻的相应时间输出从而得到最终输出。所以,BI-LSTM模式可以更准确地捕捉双向语义依附。

3.4评价指标

只为评价模式的功能,在情感二分类的工作中使用了如下评价规范。

(1)精确度

在文本分类领域中,精确度主要是衡量分类器的功能,也是最经常常用的评价标准。总的说来,精确度如果越高,分类器的功能就越好。精确度等于正确预测的正反例数除以总数。

(2)损失函数

损失函数是机器学习的一个主要观点,用来评估模式的预测值和实际值之间的差别。损失函数的推算是学习过程中的重要依据,更是学习后用来判断算法优劣的主要目标。总的说来,丢失率如果越小,模式越能反映出真实的数据。一些常见的损失函数如下:

① 绝对平均误差的损失函数:
归回模式中经常使用的损失函数就是目标和预测变量之间的绝对差的总和,其体现了预测值的平均误差的局限。合页的损失函数:
合页的损失函数能用在“最大边缘”的分类,经常用来作为支持向量机的目标函数。

② 三元组的损失函数:三元组的损失函数就是深层神经网络中的一种损失函数,通常用来作为训练差别较小的样品。

③ 交叉熵的损失函数:交叉熵是分类任务中很常用的损失函数,其显示出实际输出和期望输出之间的范围。如交叉熵越小,两种几率的分布就越接近。

3.5 基于深层神经网络和基于语义的文本情感倾向分析的方法研究

近几年以来,深层神经网络的思路提议了神经网络的语言模式。并通过大规模的语料库进行了训练,得到词向量,才可以实现基于语义的文本情感分析与标注等习见的自然语言处理工作。在深层神经网络的网络模式中,卷积神经网络处理了自然语言管理领域的问题,在查询采集、语义分析、文本归类等工作中获得了杰出的成果。循环神经网络因为具有记忆的功能,对序列的变化数据的解决能力更高。并且LSTM模式可以处理循环神经网络中的梯度丢失和长序列的数据处理的难题。

基于深度神经网络的损失函数对模式的训练的极度吻合有关键作用。改进损失函数不但可以提升模式的泛化能力,并且也可以减少极度吻合;情感词在文本的分类中起到要重要影响。如在循环神经网络之中,输入词可以快速排序情感分类的结果的贡献,因此让情感词增加了在文本分类中的影响,定值地降低了情感消息的丢失。在以上的思想下,设想了两个文本情感分析的模式。以致验证模式的有用性,在中英文的知识库上执行了参数改进和对比分析的实验,在情感分类任务中对两种模式的体现进行了评估。

(1)基于改进的损失函数的BO-BI-LSTM和BO-CNN模式

基于语义的文本情感分析的模式里,损失函数常常使用交叉熵。在实际的情绪倾向分析的工作里,每当模式对样品的测定值大于0.5的时候,就作为样品作为正样品,不然作为负样品。所以,证明了样品的判定就可以使模式可以有选择地更换。本文的改进思路是:设立最小输入值为M,M的值处于[0,1]范围。每当模式对正样品的测定值大于M或者对负样品的测定值小于1-M的时候,模式就不会因为样品而新换。每当样品的预测值处于1-M和M之间的时候,模式才可能会更换。这样的目的是让模式关注那些不正确的测定的样品,以便预防损失函数的下落,选择那些容易吻合与过训练的样品,让模式能够更加有效地吻合不正确测定的样品,以便提高精确度。为了实现上述思路,本文依据合页的损失函数和三元组的损失函数对二分类的模式中的损失函数进行改正,所以,若正样品的输出大于M,就不更换模式,若小于,就更换;若负样品的输出小于1-M,就不更换模式,而且接着在新的损失函数的基础之上,对BI-LSTM的模式和卷积神经网络的模式的损失函数进行了创新,设计了BO-BI-LSTM和BO-CNN的模式。

4总结

本文运用深层神经网络针对基于语义的文本情感倾向分析方法实行了探究。通过改良策略和模式布局的设想,提出议了两种情感倾向的检索布局,以便得到最佳的检索效益。本文的要点的研究工作和改进点如下:

在BI-LSTM和CNN的前提下,对两值分类工作的交叉熵损失函数实行改进,使模式更有效力地拟合预定误差范例,减少极度吻合。在改进的交叉熵的损失函数的基础上,设计出了BO-BI-LSTM和BO-CNN两种模式,在中英文的知识库上进行了改进参数和分析对比的实验。实验说明,BO-BI-LSTM和BO-CNN神经网络的语言模式在一定的意义上提升了基于语义的文本情感傾向分析的采集方法的精确度,丢失率明显降低,预防了极度吻合。

参考文献:

[1] 聂琼.浅谈遗传算法与人工神经网络的结合[J].轻纺工业与技术,2012,41(6):35-37.

[2] 曾瑜民.探讨神经网络算法在人工智能识别中的应用[J].信息通信,2019,32(7):104-105.

[3] 赵宏,王乐,王伟杰.基于BiLSTM-CNN串行混合模型的文本情感分析[J].计算机应用,2020,40(1):16-22.

【通联编辑:唐一东】

猜你喜欢 应用研究 家庭参与式护理在新生儿重症监护室中的应用健康护理(2021年1期)2021-04-06信息技术在高中英语教学中的运用教育周报·教育论坛(2020年51期)2020-04-18思维导图在高中历史教学设计中的应用研究综述中学课程辅导·教师教育(上、下)(2020年21期)2020-04-07水利水电工程大坝建筑施工技术和方法的实际应用研究装饰装修天地(2019年8期)2019-10-21广西民族元素吉祥物设计在动漫教学中的应用研究中国民族博览(2019年3期)2019-06-11内部控制在行政事业单位资产管理中的应用设计行政事业资产与财务(2019年5期)2019-06-11浅析微课在初中信息技术教学上的应用东方教育(2018年14期)2018-08-22小学语文阅读教学中翻转课堂教学模式的应用课程教育研究·学法教法研究(2018年15期)2018-08-10BIM技术电力工程造价中的应用研究魅力中国(2018年23期)2018-08-06高中数学导数公式的应用研究课程教育研究·学法教法研究(2018年6期)2018-07-30

推荐访问:及其应用 文本 检索

《文本相似度检索技术及其应用研究.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:

文档为doc格式

一键复制全文 下载 投诉