spark SQL编程

2.  spark SQL编程

2.1 创建DataFrame

  • 在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:
    • 通过Spark的数据源进行创建;
    • 从一个存在的RDD进行转换;
    • 还可以从Hive Table进行查询返回。

2.2 从Spark数据源进行创建

(1)数据准备,在/opt/module/spark-local目录下创建一个user.json文件

{"age":20,"name":"qiaofeng"}
{"age":19,"name":"xuzhu"}
{"age":18,"name":"duanyu"}

(2)查看Spark支持创建文件的数据源格式,使用tab键查看

scala> spark.read.
csv  format  jdbc  json  load  option  options  orc  parquet  schema  table  text  textFile

(3)读取json文件创建DataFrame

scala> val df = spark.read.json("/opt/module/spark-local/user.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

(4)查看DataFrame算子

scala> df.

(5)展示结果

scala> df.show
+---+--------+
|age|    name|
+---+--------+
| 20|qiaofeng|
| 19|   xuzhu|
| 18|  duanyu|
+---+--------+

 

文章链接: https://www.mfisp.com/13162.html

文章标题:spark SQL编程

文章版权:梦飞科技所发布的内容,部分为原创文章,转载请注明来源,网络转载文章如有侵权请联系我们!

给TA打赏
共{{data.count}}人
人已打赏
建站教程投稿分享

DataFrame

2022-11-24 23:39:12

投稿分享

BGP线路

2022-11-25 16:10:01

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索

梦飞科技 - 最新云主机促销服务器租用优惠