基于稀疏子空间聚类的文本谱聚类算法研究

时间：2021-06-06 14:51:58 浏览量：

摘要：本文为解决传统文本谱聚类算法聚类纯度低的问题，提出了基于稀疏子空间聚类的文本谱聚类算法研究。通过提取文本谱特征，设计文本谱低维数据稀疏地线性表示矩阵，融合文本谱低维数据特征，构建文本谱特征向量稀疏子聚类空间，实现文本谱聚类算法。设计实例分析，结果表明，设计聚类算法的聚类纯度明显高于传统聚类算法。

关键词：稀疏子空间聚类;文本谱;聚类算法

文本谱聚类算法的研究意义是为了找寻蕴藏在算法中文本数据的结构，并依据其共有的特性，将具有同样性质的数据进行归类处理。考虑到文本谱聚类对于提高文本谱信息特征挖掘具有十分关键的作用。目前我国常用的文本谱聚类算法是在K-means算法的基础上衍生而成，通过扩展文本数据在空间中的向量，聚类文本谱信息[1]。尽管传统的聚类算法能够取得一定的研究成果，但经常会由于对文本谱数据的可视化观察能力差，无法识别出复杂的文本谱聚类形状，导致出现聚类纯度低的问题，针对文本谱数据信息的聚类效果不尽理想。基于此，针对文本谱聚类算法的优化设计是十分有必要的。

1 稀疏子空间聚类

稀疏子空间聚类又称SSC算法，作为一种先进的聚类算法，其根本原理是通过同一子空间的低维数据稀疏地线性表示高维数据，从而得到全新的稀疏系数矩阵，实现数据空间聚类[2，3]。稀疏子空间聚类过程中，最主要的流程即為稀疏表示，将基于稀疏子空间聚类的数据稀疏表示矩阵，应用在文本谱聚类算法的优化设计中，设计基于稀疏子空间聚类的文本谱聚类算法，稀疏子空间聚类基本框架如图1所示。

2 文本谱聚类算法

2.1 文本谱预处理

本文提出的文本谱预处理共分为两部分，分别为：文本谱特征表示以及文本谱特征提取[4]。文本谱特征表示的具体流程为：首先，采集文本谱数据中描述性特征的元数据和语义性特征元数据;而后，基于稀疏子空间聚类非结构化表示元数据，此过程可通过计算方程式表示，设基于稀疏子空间聚类非结构化表示的目标函数为m，如公式（1）所示。

ω==tf（i，d）

（1）

在公式（1）中，t指的是文本谱中的词向量;f指的是文本谱中子空间的个数，为实数;i指的是i词汇在文本谱中出现的次数;d指的是文本谱中元数据的高维特征权重。通过公式（1），得到非结构化处理后的文本谱数据。采用稀疏子空间聚类中的稀疏表示技巧，通过同一子空间的低维数据表示文本谱特征。基于稀疏子空间聚类非结构化表示文本谱特征后，可提取文本谱特征，为文本谱聚类提供基础数据。

2.2 设计文本谱低维数据稀疏地线性表示矩阵

在完成文本谱预处理后，基于稀疏子空间聚类通过同一子空间的低维数据稀疏地线性表示高维数据，设计文本谱低维数据稀疏地线性表示矩阵。首先，本文采用稀疏子空间聚类正则化处理文本谱数据，设操作后得到的正则化文本谱数据为C，考虑到正则化文本谱数据中的高维特征可达数十万维，为提高文本谱聚类的纯度，还需要运用稀疏子空间聚类中的全局稀疏最优化模型，凸松弛处理文本谱低维数据，剔除文本谱低维数据中的奇异点。设使用全局稀疏最优化模型凸松弛处理文本谱低维数据的表达式为s，则运用稀疏子空间聚类算法，得出的s的计算公式，如公式（2）所示。

在公式（2）中，a指的是文本谱聚类空间的稀疏奇异值。基于稀疏子空间聚类算法无需提前掌握数据子空间个数和维数的前提，凸松弛处理文本谱低维数据后，可直接设计文本谱低维数据稀疏地线性表示矩阵。

以上述公式为依据，设文本谱低维数据稀疏地线性正则化表示矩阵为r，则r的计算公式，如公式（3）所示。

在公式（3）中，s指的是文本谱低维数据标签与空间聚类子区域标签的对应约束关系;v指的是文本谱低维数据标签与空间聚类子区域标签的对应函数关系;T指的是不同子空间的文本谱数据低维权重。通过设计文本谱低维数据稀疏地线性表示矩阵，融合文本谱低维数据特征，提高文本谱低维数据稀疏地线性表示精度，使同一类别的文本谱数据维数区域很容易被聚类到一起，进而确保文本谱聚类纯度。本文通过稀疏子空间聚类算法中的ADMM机制，仿射文本谱低维空间的数据点，完成文本谱低维数据稀疏地线性表示矩阵求解，提高对文本谱数据的可视化观察能力。

2.3 构建文本谱特征向量稀疏子聚类空间

在设计文本谱低维数据稀疏地线性表示矩阵的基础上，为解决文本谱聚类过程中，特征向量长短差距大的问题，通过相似度定义的方式归一化处理文本谱特征向量。设归一化处理文本谱特征向量方程式为E，则其计算公式，如公式（4）所示。

在公式（4）中，M指的是文本谱特征向量的字符长度;N指的是文本谱数据的语义特征;x（Zj）指的是文本谱数据在稀疏子空间的投影距离;z指的是文本谱数据在稀疏子空间的横坐标;j指的是文本谱数据在稀疏子空间的纵坐标。通过公式（4），归一化处理文本谱特征向量后，构建文本谱特征向量稀疏子聚类空间。基于稀疏子空间聚类建立的文本谱特征向量稀疏子聚类空间中间层，主要负责数据挖掘聚类迭代调度管理，使用稀疏子空间聚类算法，缩短特征向量之间的长短差距，进而提高文本谱聚类纯度。通过构建的文本谱特征向量稀疏子聚类空间，在此空间中执行文本谱聚类操作，操作流程如图2所示。

2.4实现文本谱聚类算法

在文本谱特征向量稀疏子聚类空间中，选择一个可以准确评价文本谱聚类算法的指标。在文本谱聚类迭代过程中，随着聚类中心的数目不断减少，各个聚类中心的位置也会随之发生变化。这时需运用稀疏子空间聚类建立数据挖掘聚类数据库，将聚类中心的位置整合数据的形式存储在数据库中。通过数据挖掘聚类数据库，将大量类型相同的文本谱数据挖掘聚类构成同构数据库，实现文本谱聚类算法。再通过文本谱聚类迭代过程不断地位移，最后通过计算余弦相似度的方式，保证聚类中心的坐标能够非常接近真实的聚类中心。设文本谱聚类算法的余弦相似度为q，则q的计算公式，如公式（5）所示。

g= cos（pi，pj）

（5）

在公式（5）中，p指的是两文本谱特征向量夹角的余弦值。求得本谱聚类算法的余弦相似度后，利用余弦相似度实现文本谱聚类算法，得到最终的文本谱聚类结果。

3 实例分析

3.1实验准备

本文通过实例分析的形式测试基于稀疏子空间聚类的文本谱聚类算法应用的时效性，此次实验内容为选择Terwqsder文本谱数据集作为此次实验的研究对象。

实验软环境包括：Weapectll.2.1软件，本次实验测试指标为聚类纯度，聚类纯度能夠对文本谱数据的可视化观察能力，聚类纯度越高证明该聚类算法的聚类观察能力越高。首先，采用本文提出的观察能力对文本谱数据执行聚类操作，通过Weapect11.2.1软件获取该算法下的聚类纯度，设置其为实验组;再使用传统的聚类算法执行聚类操作，将得到的聚类纯度记为对照组。

3.2 实验结果与分析

根据上述设计的实例分析，统计实验结果，如图3所示。

通过图3可得出如下的结论，本文设计聚类算法的聚类纯度明显高于传统聚类算法，聚类算法对文本谱数据的可视化观察能力更强。因此，基于稀疏子空间聚类的文本谱聚类算法可以最大限度的提高文本谱聚类纯度，实现基于稀疏子空间聚类的文本谱聚类。

4 结束语

通过基于稀疏子空间聚类的文本谱聚类算法研究，希望能够在提高文本谱聚类纯度的同时，提高文本谱聚类精度。在后期的发展中，应加大本文设计聚类算法在文本谱聚类中的应用。基于此次研究时间有限，虽然取得了一定的研究成果，但对于该算法研究还不足，今后还要对其进行进一步研究，为文本谱聚类算法的进一步优化提供参考依据。通过实例分析结果表明，本文设计的聚类算法在提高文本谱聚类纯度方面中的具体优势已经显现出来，有必要在现实中广泛投入使用。

参考文献

[1]刘玉馨，何光辉.k近邻约束的稀疏子空间聚类[J].计算机工程与应用，2019，55 （03）：39-45.

[2]荣光李，黄尉，基于子空间追踪算法的稀疏子空间聚类[J].合肥工业大学学报（自然科学版），2019，42 （07）：999-1004.

[3]陈智平，陈晓云，简彩仁.非线性多视角子空间聚类方法[J].福州大学学报（自然科学版），2020，48 （01）：7-13.

[4]马盈仓，杨小飞，续秋霞等，基于k-近邻与局部相似度的稀疏子空间聚类[J].计算机工程与应用，2020，56 （04）：99-108.

作者简介

原虹（1981-），女，山西省临猗县人。硕士学位，讲师。研究方向为计算机应用、数据挖掘。

猜你喜欢聚类算法基于k-means算法聚类问题的研究数码设计(2020年8期)2020-10-20高温地区乘用车行驶工况的构建与研究时代汽车(2020年8期)2020-07-23基于模糊聚类的大学生网络情感分析研究电脑知识与技术(2019年28期)2019-12-10智能电网非结构化数据安全技术研究中国科技纵横(2019年19期)2019-12-06基于异常检测的K-means改进算法研究软件导刊(2019年4期)2019-06-09聚类法阈值分割专题教学探讨电脑知识与技术(2019年12期)2019-06-01太阳辐射两级区化方法及其应用土木建筑与环境工程(2018年2期)2018-05-23基于点密度与邻域信息的模糊C均值算法软件导刊(2018年4期)2018-05-15基于数据挖掘的中医治疗冠心病用药规律研究中国医药导报(2017年36期)2018-01-29互联网隐式文本特征的提取电子技术与软件工程(2017年23期)2018-01-17

推荐访问:稀疏算法文本

基于稀疏子空间聚类的文本谱聚类算法研究

限时特价:19.99元

限时特价:4.99元