✅ 操作成功!

lr算法

发布时间:2023-06-06 作者:admin 来源:文学

lr算法

lr算法

古诗格式-张吉勇

2023年2月20日发(作者:6西格玛)

数据挖掘的常⽤分类算法

分类算法

分类是在⼀群已经知道类别标号的样本中,训练⼀种分类器,让其能够对某种未知的样本进⾏分类。分类算法属于⼀种有监督的学习。分类

算法的分类过程就是建⽴⼀种分类模型来描述预定的数据集或概念集,通过分析由属性描述的数据库元组来构造模型。分类的⽬的就是使⽤

分类对新的数据集进⾏划分,其主要涉及分类规则的准确性、过拟合、⽭盾划分的取舍等。分类算法分类效果如图所⽰。

常⽤的分类算法包括:NBC(NaiveBayesianClassifier,朴素贝叶斯分类)算法、LR(LogisticRegress,逻辑回归)算法、

ID3(IterativeDichotomiser3迭代⼆叉树3代)决策树算法、C4.5决策树算法、C5.0决策树算法、SVM(SupportVectorMachine,⽀持

向量机)算法、KNN(K-NearestNeighbor,K最近邻近)算法、ANN(ArtificialNeuralNetwork,⼈⼯神经⽹络)算法等。

NBC算法

NBC模型发源于古典数学理论,有着坚实的数学基础。该算法是基于条件独⽴性假设的⼀种算法,当条件独⽴性假设成⽴时,利⽤贝叶斯

公式计算出其后验概率,即该对象属于某⼀类的概率,选择具有最⼤后验概率的类作为该对象所属的类。

NBC算法的优点

NBC算法逻辑简单,易于实现;

NBC算法所需估计的参数很少;

NBC算法对缺失数据不太敏感;

NBC算法具有较⼩的误差分类率;

NBC算法性能稳定,健壮性⽐较好;

NBC算法的缺点

1.在属性个数⽐较多或者属性之间相关性较⼤时,NBC模型的分类效果相对较差;

2.算法是基于条件独⽴性假设的,在实际应⽤中很难成⽴,故会影响分类效果

⼀、LR算法

LR回归是当前业界⽐较常⽤的机器学习⽅法,⽤于估计某种事物的可能性。它与多元线性回归同属⼀个家族,即⼴义线性模型。简单来说

多元线性回归是直接将特征值和其对应的概率进⾏相乘得到⼀个结果,逻辑回归则是在这样的结果上加上⼀个逻辑函数。在此选择LR作为

回归分析模型的代表进⾏介绍。

LR算法的优点

1.对数据中⼩噪声的鲁棒性好;

算法已被⼴泛应⽤于⼯业问题中;

3.多重共线性并不是问题,它可结合正则化来解决。

LR算法的缺点

1.对于⾮线性特征,需要转换

2.当特征空间很⼤时,LR的性能并不是太好

SVM算法

SVM算法是建⽴在统计学习理论基础上的机器学习⽅法,为⼗⼤数据挖掘算法之⼀。通过学习算法,SVM可以⾃动寻找出对分类有较好区

分能⼒的⽀持向量,由此构造出的分类器可以最⼤化类与类的间隔,因⽽有较好的适应能⼒和较⾼的分准率。SVM算法的⽬的在于寻找⼀

个超平⾯H,该超平⾯可以将训练集中的数据分开,且与类域边界的沿垂直于该超平⾯⽅向的距离最⼤,故SVM法亦被称为最⼤边缘算法。

SVM算法的优点

模型有很⾼的分准率;

模型有很⾼的泛化性能;

模型能很好地解决⾼维问题;

模型对⼩样本情况下的机器学习问题效果好。

SVM算法的缺点

模型对缺失数据敏感;

2.对⾮线性问题没有通⽤解决⽅案,得谨慎选择核函数来处理。

ID3算法

ID3算法是⼀种基于决策树的分类算法,该算法是以信息论为基础,以信息熵和信息增益为衡量标准,从⽽实现对数据的归纳分类。信息增

益⽤于度量某个属性对样本集合分类的好坏程度。ID3算法的时间复杂度为O(n*|D|*log|D|)。

ID3算法的优点

ID3算法建⽴的决策树规模⽐较⼩;

查询速度快。

ID3算法的缺点

1.不适合处理连续数据;

2.难以处理海量数据集;

3.建树时偏选属性值较⼤的进⾏分离,⽽有时属性值较⼤的不⼀定能反应更多的数据信息。

⼆、C4.5算法

C4.5算法是ID3算法的修订版,采⽤信息增益率来加以改进,选取有最⼤增益率的分割变量作为准则,避免ID3算法过度的适配问题。

C4.5算法优点

1.C4.5继承了ID3优点;

2.在树构造过程中进⾏剪枝;

3.能对不完整数据进⾏处理;

4.能够完成对连续属性的离散化处理;

5.产⽣的分类规则易于理解,准确率较⾼;

6.⽤增益率来选择属性,克服了⽤增益选择属性时偏向选择取值多的属性。

C4.5算法缺点

1.构造树时,需要对数据集进⾏多次的顺序扫描和排序,因⽽导致算法的低效;

2.只适合于能驻留于内存的数据集,当训练集达到内存⽆法容纳时程序⽆法运⾏。

C4.5⽤于遥感分类过程中,⾸先依据通常的⽅式建⽴第⼀个模型。随后建⽴的第⼆个模型聚焦于被第⼀个模型错误分类的记录。以此类

推,最后应⽤整个模型集对样本进⾏分类,使⽤加权投票过程把分散的预测合并成综合预测。Boosting技术对于噪声不⼤的数据,通常通过

建⽴的多模型来减少错误分类的影响,提⾼分类精度。

三、C5.0算法

C5.0算法是Quinlan在C4.5算法的基础上改进⽽来的产⽣决策树的⼀种更新的算法,它除了包括C4.5的全部功能外,还引⼊许多新的技

术,其中最重要的技术是提升(Boosting)技术,⽬的是为了进⼀步提⾼决策树对样本的识别率。同时C5.0的算法复杂度要更低,使⽤更

简单,适应性更强,因此具有更⾼的使⽤价值。

C5.0算法的优点

1.C5.0模型能同时处理连续和离散的数据

2.C5.0模型估计

模型通常不需要很长的训练时间;

3.C5.0引⼊Boosting技术以提⾼分类的效率和精度;

4.C5.0模型易于理解,模型推出的规则有⾮常直观的解释;

5.C5.0模型在⾯对数据遗漏和特征很多的问题时⾮常稳健。

C5.0算法的缺点

⽬标字段必须为分类字段。

美国地质调查局(USGS)在进⾏⼟地覆盖分类项⽬过程中研发了⽀持决策树分类的软件。软件分类模块主要是针对庞⼤数据量的数据集进⾏

数据挖掘,找出特征,然后建⽴规则集进⾏决策分类。在分类模块中采⽤C5.0模型来完成决策树分类、形成分类⽂件,实现遥感影像的分

类。

四、KNN算法

KNN算法是Cover和Hart于1968年提出的理论上⽐较成熟的⽅法,为⼗⼤挖掘算法之⼀。该算法的思路⾮常简单直观:如果⼀个样本在特

征空间中的k个最相似(即特征空间中最邻近)的样本中的⼤多数属于某⼀个类别,则该样本也属于这个类别。该⽅法在定类决策上只依据最

邻近的⼀个或者⼏个样本的类别来决定待分样本所属的类别。

KNN算法的优点

算法简单、有效;

算法适⽤于样本容量⽐较⼤的类域的⾃动分类;

3.由于KNN⽅法主要靠周围有限的邻近的样本,⽽不是靠判别类域的⽅法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集

来说,KNN⽅法较其他⽅法更为适合。

KNN算法的缺点

算法计算量较⼤;

算法需要事先确定K值;

算法输出的可解释不强;

算法对样本容量较⼩的类域很容易产⽣误分。

五、ANN算法

⼈⼯神经⽹络(ANN)算法就是⼀组连续的输⼊/输出单元,其中每个连接都与⼀个权相关。在学习阶段,通过调整神经⽹络的权,使得能

够预测样本的正确类标号来学习。

ANN算法的优点

1.能处理数值型及分类型的属性;

2.分类的准确度⾼,分布并⾏处理能⼒强;

3.对包含⼤量噪声数据的数据集有较强的鲁棒性和容错能⼒。

👁️ 阅读量:0