
Spark SQL 基础学习 【一】命令行操作DataFrame
1.上传文件到hdfs vi student.txt 内容: 1,dayu,23 2,wangbaoqiang,28 3,xuzheng,30 将文件上传到hdfs hadoop fs -put student.txt / 2.读取数据并分割
在Spark shell执行下面命令,读取数据,将每一行的数据使用列分隔符分割
val rdd=sc.textFile("hdfs://hadoop01:9000/student.txt").map(_.split(",")) 3.定义case class case class student (id:Long ,name: String,age: Int) 4.将RDD和case class关联 val studentRDD=rdd.map(x=>student(x(0).toLong,x(1),x(2).toInt)) 5.将RDD转换成DataFrame val df=studentRDD.toDF 6.将DataFrame注册成表如果想使用SQL风格的语法,需要将DataFrame注册成表
df.registerTempTable("t_student") 7.测试使用sqlContext.sql("").show模板
sqlContext.sql("select * from t_student").show👁️ 阅读量:0
© 版权声明:本文《Spark SQL基础学习 【一】命令行操作DataFrame》内容均为本站精心整理或网友自愿分享,如需转载请注明原文出处:https://www.zastudy.cn/wen/1687062948a421412.html。