spark SQL编程

2.  spark SQL编程

2.1 创建DataFrame

  • 在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:
    • 通过Spark的数据源进行创建;
    • 从一个存在的RDD进行转换;
    • 还可以从Hive Table进行查询返回。

2.2 从Spark数据源进行创建

(1)数据准备,在/opt/module/spark-local目录下创建一个user.json文件

{“age”:20,”name”:”qiaofeng”}
{“age”:19,”name”:”xuzhu”}
{“age”:18,”name”:”duanyu”}

(2)查看Spark支持创建文件的数据源格式,使用tab键查看

scala> spark.read.
csv  format  jdbc  json  load  option  options  orc  parquet  schema  table  text  textFile

(3)读取json文件创建DataFrame

scala> val df = spark.read.json(“/opt/module/spark-local/user.json”)
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

(4)查看DataFrame算子

scala> df.

(5)展示结果

scala> df.show
+—+——–+
|age|    name|
+—+——–+
| 20|qiaofeng|
| 19|   xuzhu|
| 18|  duanyu|
+—+——–+

 

0

评论0

请先
显示验证码
没有账号?注册  忘记密码?