2. spark SQL编程

2.1 创建DataFrame

在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口，创建DataFrame有三种方式：
- 通过Spark的数据源进行创建；
- 从一个存在的RDD进行转换；
- 还可以从Hive Table进行查询返回。

（1）数据准备，在/opt/module/spark-local目录下创建一个user.json文件

{“age”:20,”name”:”qiaofeng”}
{“age”:19,”name”:”xuzhu”}
{“age”:18,”name”:”duanyu”}

（2）查看Spark支持创建文件的数据源格式，使用tab键查看

scala> spark.read.
csv format jdbc json load option options orc parquet schema table text textFile

（3）读取json文件创建DataFrame

scala> val df = spark.read.json(“/opt/module/spark-local/user.json”)
df: org.apache.spark.sql.DataFrame = [age: bigint， name: string]

（4）查看DataFrame算子

scala> df.

（5）展示结果

scala> df.show
+—+——–+
|age| name|
+—+——–+
| 20|qiaofeng|
| 19| xuzhu|
| 18| duanyu|
+—+——–+