
大数据处理流程
-
2023年3月20日发(作者:小明看一看)⼤数据采集之⼤数据挖掘流程及⽅法总结
数据挖掘(DataMining)是从⼤量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、⼈们
事先不知道的、但⼜是潜在有⽤的信息和知识的过程。
⼀、数据挖掘对象
根据信息存储格式,⽤于挖掘的对象有关系数据库、⾯向对象数据库、数据仓库、⽂本数据源、多媒体数据
库、空间数据库、时态数据库、异质数据库以及Internet等。
⼆、数据挖掘流程
定义问题:清晰地定义出业务问题,确定数据挖掘的⽬的。
数据准备:数据准备包括:选择数据–在⼤型数据库和数据仓库⽬标中提取数据挖掘的⽬标数据集;数据预处
理–进⾏数据再加⼯,包括检查数据的完整性及数据的⼀致性、去噪声,填补丢失的域,删除⽆效数据等。
数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进⾏数据挖掘
。
结果分析:对数据挖掘的结果进⾏解释和评价,转换成为能够最终被⽤户理解的知识。
三、数据挖掘分类
直接数据挖掘:⽬标是利⽤可⽤的数据建⽴⼀个模型,这个模型对剩余的数据,对⼀个特定的变量(可以理解
成数据库中表的属性,即列)进⾏描述。
间接数据挖掘:⽬标中没有选出某⼀具体的变量,⽤模型进⾏描述;⽽是在所有的变量中建⽴起某种关系。
四、数据挖掘的⽅法
神经⽹络⽅法
神经⽹络由于本⾝良好的鲁棒性、⾃组织⾃适应性、并⾏处理、分布存储和⾼度容错等特性⾮常适合解决数
据挖掘的问题,因此近年来越来越受到⼈们的关注。
遗传算法
遗传算法是⼀种基于⽣物⾃然选择与遗传机理的随机搜索算法,是⼀种仿⽣全局优化⽅法。遗传算法具有的
隐含并⾏性、易于和其它模型结合等性质使得它在数据挖掘中被加以应⽤。