✅ 操作成功!

聚类分析论文

发布时间:2023-06-13 作者:admin 来源:文学

聚类分析论文

聚类分析论文

-

2023年3月18日发(作者:好听的狗狗名字男)

河北工程大学

硕士学位论文

模糊聚类技术在心电波形分类中的应用研究

姓名:***

申请学位级别:硕士

专业:计算机应用技术

指导教师:***

2011-04

摘要

I

摘要

心血管疾病是当今危害人类健康的主要疾病之一,心电图检查是临床上诊断

心血管疾病的重要方法。心电图准确的自动分类对于心血管疾病的诊断起着关键

作用。

聚类分析是非监督模式识别的一个重要分支,它是用数学的方法研究和处理

给定对象分类。

模糊聚类建立在样本对于类别的不确定性描述的基础上,更能客观的反映现

实世界,从而成为聚类分析研究的主流,并在许多领域得到了广泛的应用。

目前,已提出了许多模糊聚类算法,其中最常用的是基于目标函数的模糊c-

均值聚类算法(FCM)。针对此算法中存在的需要聚类先验知识的问题,采用SOM

神经网络算法作为FCM算法的先导级,先将样本经过SOM神经网络的训练,得

到聚类类别数,但此方法得到的类别数与实际结果存在较大偏差。因此提出了一

种改进方法,即将SOM神经网络、优化的系统聚类法和FCM算法相结合的聚类

方法。首先对系统聚类法进行优化,然后使用优化后的系统聚类法分析SOM神经

网络初始分类的结果,最终得到更合理的聚类类别数和聚类中心,将此聚类数和

聚类中心用于FCM算法的输入进行进一步聚类,从而得到精确的聚类信息。

最后,采用MIT/BIH心电数据库中的数据来仿真,结果说明此种方法具有很

好的聚类效果。

关键词:聚类;FCM算法;SOM神经网络;系统聚类;心电图

Abstract

II

Abstract

Cardiovasculardiseaseisoneofmajordiseasewhichendangershuman’shealth.

TheanalysisofECG(Electrocardiogram)isanimportantmeansfordiagnosing

urateautomaticclassificationofECGplaysa

keyroleforthediagnosisofcardiovasculardisease.

Theclusteranalysisisanimportantbranchofnon-supervisionpatternrecognition,

whichusesthemethodsofmathematicstoresearchanddealwithgivenclassificationof

objects.

Fuzzyclusteringbasedontheuncertaindescriptionforsampletocategory,which

canmoreobjectivelyreflecttherealworld,thusbecomingthemainstreamofcluster

analysis,andhasbeenwidelyusedinmanyareas.

Atpresent,manyalgorithmsforfuzzyclusteringareproposed,inwhichthemost

commonlyusedisthefuzzyc-meansclusteringalgorithmbasedontheobjective

problemofthealgorithmwhichrequiresclusteringpriorknowledge,

theSOMneuralnetworktotrainsamples,andgetthenumberofclusteringcategories.

Butithasabigdeviationintheactualresultsandtheresultsforusingthismethod.

Therefore,thispaperproposesanimprovedmethod,whichisacombinationclustering

methodoftheSOMneuralnetwork,theoptimizingsystemalgorithmandtheFCM

,optimizingthesystemclusteringmethod,thenusingtheoptimized

systemclusteringmethodtoanalyzetheinitialclassificationresultsofSOMneural

network,ultimatelygetmorereasonablenumberofclustercategoriesandclustercenters,

throughusingthenumberofclustercategoriesandclustercentersastheinputofFCM

clusteringalgorithmtofurthercluster,sothatgetaccurateclusteringinformation.

Finally,takethedataintheMIT/BIHECGdatabasetosimulate,andshowthat

thismethodhasgoodclusteringeffectthroughtheresults.

Keywords:clustering;FCMalgorithm;SOMneuralnetwork;systemclustering;ECG

独创性声明

本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究

工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或

集体已经发表或撰写过的研究成果,也不包含为获得河北工程大学或其他教育

机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,

均已在论文中作了明确的说明并表示了谢意。本人完全意识到本声明的法律结果

由本人承担。

学位论文作者签名:签字日期:年月日

学位论文版权使用授权书

本学位论文作者完全了解河北工程大学有关保留、使用学位论文的规

定。特授权河北工程大学可以将学位论文的全部或部分内容编入有关数据库

进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同

意学校向国家有关部门或机构送交论文的复印件和电子文档。

(保密的学位论文在解密后适用本授权说明)

学位论文作者签名:导师签名:

签字日期:年月日签字日期:年月日

第1章绪论

1

第1章绪论

1.1研究背景及意义

心脏病是威胁人类生命的主要疾病之一,长期以来,对心脏病的研究一直是

医学界的重要课题。人体心电图(Electrocardiograph,ECG)作为心脏电活动在体表

的综合反映,蕴涵着丰富的心脏节律及其电传导的生理和病理信息,在一定程度

上可以客观反映心脏各部位的生理状况,是诊断心脏疾病、评价心脏功能的重要

依据之一,尤其对于各种心律失常和传导障碍的诊断分析具有重大诊断价值,是

目前分析与鉴别各种心律失常最精确的方法。

如今,心电图已经成为临床上重要的常规检查手段,是医生诊断心脏疾病的

得力助手。由于病态心电图种类繁多、变异极大,同种病理不同患者的心电图、

甚至同一患者不同时刻的心电图都存在着较大的差异,要对其做出准确判断,通

常需要医师具有丰富的领域知识和积累大量的临床经验。另一方面,若医师长期

从事大量图形的识别工作,极易疲劳,容易漏检、出错。因而心电自动分析技术

一度是人们的研究热点。这一研究的真正实现可以使医师从繁琐的图形识别工作

中解脱出来,将精力集中在异常心电波形的识别和判断上,从而提高医疗诊断效

率、缩短诊断时间。心电信号自动分析的内容主要包括:心电信号的预处理、特

征提取、分类和数据压缩等。本文主要对心电自动分析系统中的自动分类进行研

究,现有的自动分类器都只是起到辅助心电专家分析的作用,最终的分类结果尚

需要人工干预。心电自动分类的精度无法达到临床医生的最高分类精度,即最好

的心电专家仍然要比最好的分类程序要好。因此研究心电图的计算机自动分类算

法,使其能够准确、快速地对心电信号进行分类,是近年来的一个研究热点[1]。

“物以类聚,人以群分”,这正是聚类技术的出发点。简单地说,聚类就是

按照一定的要求和规律对事物进行区分和分类的过程,得到的聚类结果中,同类

中的对象彼此相似,不同类中对象彼此相异。这样,聚类技术就可以把大量数据

集中相似度高的对象聚集在一起,而把相似度低的对象区别开来。聚类分析[2]作为

一个独立的数据挖掘工具,用来获得对数据分布情况的了解,是近年来迅速发展

起来的一种新兴的数据处理技术,在很多领域得到了广泛的应用。

模糊聚类是将模糊集的概念[3][4]应用到传统的聚类分析中,模糊聚类不再是仅

仅依靠对象之间的相似度来进行划分了,这种方法主要是依靠对象在分组中的相

似函数来表示。这种方法允许数据性质的模糊性,能适应那些分离性不好的数据

河北工程大学硕士学位论文

2

和类,得到了对象属于各个分组的不确定性程度,表达了样本类属的模糊性,也

就是建立起了样本对于类别的不确定性描述,能更好的表达现实世界的情况,因

此成为聚类分析研究的主流之一。

将模糊聚类技术应用于心电图波形分类中,运用具体的分类算法对心电波形

进行分类,并由此判断该波形信号是否对应某一病症,为医生诊断心电疾病提供

帮助,从而降低医生劳动强度,提高工作效率。

1.2国内外研究现状

1.2.1聚类涉及研究的方向

聚类,是一个具有挑战性的研究领域,其研究工作主要集中在为大型数据库

和聚类分析寻求适当和有效的方法,目前的研究重点主要有以下几个方面[5]:

(1)对不同类型数据的处理能力:许多算法被设计用于对数值类型的数据聚类。

但在实际应用中可能要求对其它类型的数据聚类。如分类/标称类型

(categorical/nominal),二元(binary)数据,序数型(ordinal),或者这些数据类型的

混合。

(2)算法的可伸缩性:许多聚类算法在数据对象的数据集个数小于200时工作

的很好;而对于包含几百万个数据对象的大规模数据库进行聚类时,可能会导致

结果有偏差,这就需要聚类算法有很高的可伸缩性,对海量数据也可以有效地处

理。

(3)高维性:一个数据库可能含有多维属性。很多聚类算法对低维数据可以很

好的处理,通常只涉及两到三维,一般最多在三维的情况下能够很好的判断聚类

的质量。当数据对象是高维的,这些数据还有可能是非常稀疏的、有严重倾斜的,

研究对这些对象的聚类是非常有挑战性的。

(4)可用性和可解释性:通常用户希望聚类结果是可理解的、可解释的和可用

的。换句话说,聚类可能需要和特定的语义解释和应用相联系。

(5)不敏感于输入数据的顺序:一些聚类算法对于输入数据的顺序是敏感的。

如对于同一个数据集合,以不同的顺序输入给同一个算法时,可能会产生不同的

聚类效果。研究和开发对于输入数据顺序不敏感的算法,具有十分重要的意义。

(6)能适合于任意形状类的聚类:许多聚类算法使用曼哈坦距离或者欧几里德

距离来确定聚类。采用这种距离度量的算法往往易于发现具有相近密度和尺寸的

球状类。但是,一个类可能是任意形状的,提出适合于任意形状类的聚类算法是

很重要的。

第1章绪论

3

(7)对干扰的处理能力:在现实世界应用中的数据点,绝大多数都包含了孤立

的、空缺的、未知的或者错误的数据。一些聚类算法对于这样的数据是敏感的,

将会导致较低质量的聚类结果。

(8)基于约束的聚类:聚类在实际应用时可能要受各种条件的制约,发现既要

满足特定的限制,又要具有很好聚类特性的数据分组是一项具有挑战性的任务。

(9)确定最少的初始值参数:在聚类分析中,许多聚类算法要求用户输入某些

参数,如希望聚类的数目。聚类结果对于输入参数很敏感,参数通常是较难确定

的,特别是对于高维数据对象集更是如此。需要人工输入参数不仅会加重用户的

负担,而且也会使聚类质量难以控制。

1.2.2聚类算法的研究现状

聚类发展到现在已是一个多交叉、跨学科的领域,它不仅与计算机技术、数

据库技术、机器学习等有着密切的联系,还涉及到经济学、统计学、心理学等方

面的内容。现在,它已被广泛应用于模式识别、图像处理、数据分析等领域[6-8]。

聚类的方法可以分为基于划分的方法、基于密度的方法、基于分层的方法和基于

网格的方法。针对不同的用户和问题,许多学者也提出了很多具有代表性的聚类

算法,其中包括以FCM算法、K-means算法以及CLARANS算法等为代表的分割

聚类算法,以CURE算法和BIRCH算法等为代表的分层聚类算法,以DBSCAN

算法为代表的基于高密度的聚类算法,以及以CLIQUE算法为代表的基于子空间

的聚类算法。

随着研究者在聚类技术上的不断改进和创新,许多新颖而高效的聚类算法层

出不穷。近年来,学者们又提出了更多的优化算法,比如在K-means算法的初始

聚类中心的选择上,由于其对聚类结果有严重影响,很多学者摒弃了原来的选择

方法,提出了很多种改进方法。2008年,赖玉霞在文献[9]中介绍了一种基于密度

的K-means算法,通过计算每个数据对象的密度参数,找出处于高密度区域的点,

取处于最高密度区域的数据对象依次作为聚类中心。

现在,人们把数学中的模糊集概念应用到聚类分析中,从而用模糊的方法来

处理聚类问题。每个对象不再仅仅属于某一个类,而是以某一隶属度分别属于不

同的类,这样的划分更能准确地反映现实世界。

经过多年的研究,在聚类算法的研究上虽然取得了一定的进展,但是聚类算

法仍然存在着很多的问题需要解决。例如初始值敏感性、最优解、算法的效率等。

研究者一方面在原有算法的基础上加以改进和发展,目前的很多模糊聚类算法就

是在FCM算法基础上的改进和优化。另一方面,还有许多研究者在研究过程中提

河北工程大学硕士学位论文

4

出了很多新的聚类思想,其中无参型聚类思想就在很大程度上减少了聚类算法对

参数的敏感度,较具代表性的就是信息原理聚类[10]。与此同时,许多研究者也提

出了全新的聚类算法,apuram和提出的可能性聚类算法为聚类赋

予了全新的形式,并且教授又在可能性理论的基础上提出了指数型可能

性模型[11],实现了有监督的聚类。由此可见,众多研究者正在从多方面、多角度

研究探索各种聚类算法以实现有效的聚类。

1.2.3心电波形分类的研究现状

对于心电信号的波形分类,有关的算法研究基本上可以分为两大类,即基于

波形形态结构的分类方法和基于特征的分类方法。基于波形形态结构的分类算法

主要包括模板匹配法,结构描述法,模型参数法,线性预测法等。基于波形形态

结构的分类算法对噪声都比较敏感,准确表征心电信号的波形变化比较困难。基

于特征的波形分类方法在特征选择上可以灵活多样,判断规则也可以采用各种线

性或非线性分类器进行类别区分,因此该方法在心电信号的波形分类识别中采用

很多。文献[12]采用Hermite函数对R波前后各100ms的心电波形进行特征提取,

同时引入RR间期等信息,通过自组织神经网络聚类分析,较好实现了不同类型病

理信号的划分。Gulera[14]对心电信号进行四个尺度的离散小波变换后,将小波系数

的统计量作为心电特征参数,采用两级组合的多层感知器网络实现对四类心电信

号的分类,正确识别率达到了96.94%。在他另一篇文献[15]中,提出了将不同类

型特征相结合的特征选择思路,通过选取小波系数统计量及非线性动力学测度中

李雅普诺夫指数的统计量作为特征参数,采用改进的基于分治原理的混合专家系

统作为分类器,实现了五类心电信号的分类识别,平均正确识别率为97.78%。

近年来,模糊技术和神经网络的应用非常广泛,各种心拍分类技术也开始越

来越多的相互交叉应用[16-18]。

在解决ECG自动分类问题上,模糊技术和人工神经网络具有明显的优势。引

入模糊技术,可以将不精确的测量数据或定性描述的模糊语言转换为能够被自动

识别模块可利用的数值信息。而神经网络用于ECG自动分类的优势在于:具有其

它方法不可匹敌的知识获取能力和学习能力;具有高速并行数据处理能力及良好

的容错性。

模糊理论用于波形分类一般包括以下几个步骤:首先对ECG信号进行特征提

取,然后将这些特征量模糊化,再进行模糊推理,通过模糊决策规则,得到最终

的分类结果。

人工神经网络用于波形分类的主要原理是通过大量ECG样本数据的学习,根

第1章绪论

5

据某种学习算法,自动调整神经网络的结构参数,获取心电图分类知识。学习稳

定后,可用来对不同的心电信号进行自动分类。目前,用于ECG波形分类的神经

网络主要有以下几种类型:反向传播网络、径向基函数网络、自组织映射神经网

络、自适应共振理论神经网络等。

另外也有人将神经网络与其他理论结合使用,如小波神经网络、基于遗传算

法的神经网络、基于粗糙集的神经网络等。

模糊理论与神经网络相结合的技术在ECG自动模式识别中也得到了广泛应

用。模糊神经网络结合了模糊推理技术的模糊信息处理能力和神经网络较强的学

习能力、模式识别能力,在ECG自动分类识别领域中,具有很大的应用价值。

1.3本文主要研究内容

本论文研究的任务是寻求一种新的聚类方法,即将SOM神经网络、优化的系

统聚类和FCM算法相结合的聚类方法,并将其应用于心电波形的分类中。利用

SOM神经网络自动聚类和可以处理大数据量的特点,先将数据经过SOM网络的

训练,得到一个聚类类别数。再用优化的系统聚类法分析SOM的结果,根据求取

类数目和类间距离函数关系拐点的方法将某些类别进行合并,得到一个新的聚类

类别数和聚类中心,并将其作为FCM算法的输入,进行下一步聚类。

(1)研究和学习聚类技术和模糊聚类技术中的相关概念,数学模型及常用算法。

(2)研究常用的心电波形分类方法,并对其优缺点和使用范围进行总结和比较。

(3)重点研究模糊聚类中的FCM算法,并在此算法的基础上提出了一种新的聚

类方法。

(4)取MIT/BIH心电数据库中的某些记录的数据集作为仿真数据,验证本文方

法聚类的优越性。

1.4论文组织结构

全文共分六章:

第1章绪论。主要对论文的研究背景和意义,国内外研究现状进行简要分析,

并对论文的主要研究内容和组织结构进行了说明。

第2章聚类分析技术。学习和掌握聚类分析技术的相关知识,主要包括聚类

分析中的概念、数学模型和常用的聚类分析方法。

第3章模糊聚类分析。学习和掌握模糊聚类的相关知识,主要学习了模糊聚

类中常用的模糊c均值聚类算法,并对其进行了分析。

河北工程大学硕士学位论文

6

第4章心电波形相关知识。学习心电波形的一些相关知识,为第六章的算法

仿真奠定基础。

第5章聚类方法设计。本章是本文的重点,主要是对本文提出的聚类方法进

行设计和说明。学习本文方法中涉及到的SOM神经网络技术和系统聚类技术,并

对本文提出的改进的聚类方法的聚类流程进行说明。

第6章聚类结果及分析。对第五章的聚类方法进行仿真验证,以说明该方法

的优越性。

第2章聚类分析技术

7

第2章聚类分析技术

2.1聚类分析概念

聚类就是按照一定的要求和规律对事物进行区分和分类的过程,在这一过程

中没有任何关于类分的先验知识,没有教师指导,仅靠事物间的相似性作为类属

划分的标准,因此属于无监督分类的范畴。聚类分析则是指用数学的方法研究和

处理给定对象的分类。聚类分析是多元统计分析的一种,也是非监督模式识别的

一个重要分支。它把一个没有类别标记的样本集按某种规则划分成若干个类,使

相似的样本尽可能归为一类,不相似的样本尽量划分到不同的类中。

聚类分析已经被广泛应用于很多领域[19],例如生物学、人类学、药学、经济

学和市场营销。聚类分析的应用包括动市场分类、模式识别、图像处理、疾病分

类和文本检索。例如,在商业方面,聚类分析可以帮助市场营销人员利用聚类技

术进行市场定位和消费分析,辅助指定营销策略。在模式识别方面,聚类分析取

得了较好的效果,比如汉字字符识别中的字符预分类、语音识别中的分类和匹配;

雷达目标识别中目标库的建立和新到目标的归类等。聚类还可以帮助观测者从观

测数据库中识别土地使用情况具有相似性的区域。此外,还可以帮助分类识别互

联网上的文档以便进行信息发现。

2.2聚类分析数学模型

从数学角度来刻画聚类分析问题,可以得到如下的数学模型。设

},,,{

21n

xxxX

👁️ 阅读量:0