基于最大中心间隔的缩放型η-极大熵聚类算法

摘要：

【摘要】为了调控数据之间的差异性,一般化的处理方式是对数据简单地进行按比例缩放,而此类做法本身对于数据的信息是不存在任何破坏的。但在进行聚类分析时,大部分算法对于按比缩放的数据都是很敏感的,其中较典型的算法有极大熵聚类(MEC)算法。大量的实验表明,当缩放尺度位于10-3数量级以下时,极大熵聚类算法已经失效,通过该算法得到的聚类中心趋于一致。为了解决上述问题,在MEC算法的基础上引入最大中心间隔项与缩放因子η,构造出了全新的目标函数,称为η型最大中心间隔极大熵聚类(η-MCS-MEC)算法。该算法通过调控中心点间的距离使之达到最大,并有效利用缩放因子η对各类划分进行调控,从而避免了聚类中心趋于一致。通过在模拟数据集以及UCI仿真数据集上的实验,结果均显示出算法对变化的数据不再敏感而具有鲁棒性。
【关键词】最大中心间隔；数据缩放；极大熵聚类；中心一致；
【基金】国家自然科学基金资助项目(90820002);江苏省自然科学基金资助项目(BK2009067)

引言：

【引言】在数据挖掘及模式识别领域内，有关聚类技术的分析与讨论总是不间断的。而在各种的聚类技术中又以基于划分的聚类算法最为常用。在这些算法中比较著名的有基于模糊理论的模糊聚类算法，最具代表性的有FCM 算法，该类技术被广泛应用于模式识别的各个领域，以此算法为基础又出现了相关的改进算法如AFCM、PFCM和CFCM等算法。无论经过了何种改进，该类算法都始终以模糊划分作为其基础。在1995 年，Li 等人创造性地在C-均值算法的基础上引入了熵的概念，并通过将极大熵应用于最小化均方误差的思想，构造出了新的聚类方法，即极大熵聚类( MEC) 算法。这一方法比以往的聚类技术具有更为简洁的数学表达和明确的物理含义，引发了许多研究人员的兴趣。后来有人以此为基础进行了改进，得到了如MECA、FBACN及RMEC等算法。上述改进算法在一定的领域内有着更好的适用能力，但其本质仍然是以最初的MEC 算法为基础。在经过一系列的研究与分析之后，发现MEC 算法在处理微量级或缩放处理过的数据时，由于其划分的计算策略问题，导致该算法对变化的数据非常敏感，并在数量级达到一定的阶级时，传统MEC 算法得到的聚类中心会发生中心一致的现象，这直接导致了聚类效果的明显恶化，特别在数量级处于毫米级以下时，该算法将直接失效。此问题的存在严重影响了极大熵聚类的适用领域以及面对变化数据的鲁棒性。

作者：

陈爱国；蒋亦樟；钱鹏江

作者单位：

江南大学物联网工程学院；江南大学数字媒体学院；