✅ 操作成功!

大数据处理流程

发布时间:2023-06-16 作者:admin 来源:文学

大数据处理流程

大数据处理流程

-

2023年3月20日发(作者:小明看一看)

⼤数据采集之⼤数据挖掘流程及⽅法总结

数据挖掘(DataMining)是从⼤量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、⼈们

事先不知道的、但⼜是潜在有⽤的信息和知识的过程。

⼀、数据挖掘对象

根据信息存储格式,⽤于挖掘的对象有关系数据库、⾯向对象数据库、数据仓库、⽂本数据源、多媒体数据

库、空间数据库、时态数据库、异质数据库以及Internet等。

⼆、数据挖掘流程

定义问题:清晰地定义出业务问题,确定数据挖掘的⽬的。

数据准备:数据准备包括:选择数据–在⼤型数据库和数据仓库⽬标中提取数据挖掘的⽬标数据集;数据预处

理–进⾏数据再加⼯,包括检查数据的完整性及数据的⼀致性、去噪声,填补丢失的域,删除⽆效数据等。

数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进⾏数据挖掘

结果分析:对数据挖掘的结果进⾏解释和评价,转换成为能够最终被⽤户理解的知识。

三、数据挖掘分类

直接数据挖掘:⽬标是利⽤可⽤的数据建⽴⼀个模型,这个模型对剩余的数据,对⼀个特定的变量(可以理解

成数据库中表的属性,即列)进⾏描述。

间接数据挖掘:⽬标中没有选出某⼀具体的变量,⽤模型进⾏描述;⽽是在所有的变量中建⽴起某种关系。

四、数据挖掘的⽅法

神经⽹络⽅法

神经⽹络由于本⾝良好的鲁棒性、⾃组织⾃适应性、并⾏处理、分布存储和⾼度容错等特性⾮常适合解决数

据挖掘的问题,因此近年来越来越受到⼈们的关注。

遗传算法

遗传算法是⼀种基于⽣物⾃然选择与遗传机理的随机搜索算法,是⼀种仿⽣全局优化⽅法。遗传算法具有的

隐含并⾏性、易于和其它模型结合等性质使得它在数据挖掘中被加以应⽤。

👁️ 阅读量:0