Databricks 第11篇：Spark SQL 查询（行转列、列转行、Lateral View、排序）

本文分享在Azure Databricks中如何实现行转列和列转行，并介绍对查询的结果进行排序的各种方式。

一，行转列

在分组中，把每个分组中的某一列的数据连接在一起：

collect_list：把一个分组中的列合成为数组，数据不去重，格式是['a','a','b']
collect_set：把一个分组中的列合成为集合，数据去重，格式是['a','b']

用于连接文本数组的函数，通过sep把数组中的item分割开，连接成一个字符串：

concat_ws(sep, [str | array(str)]+)

举个例子，把每个用户的game，通过逗号连接起来：

select uid
 ,concat_ws(",",collect_list(game)) as game_list 
from user_game

Databricks 第11篇：Spark SQL 查询（行转列、列转行、Lateral View、排序）

二，列转行

Explode(expr) 用于处理array和map结构的数据，把一行的列值转换成多行，该函数产生一个虚拟表，包含一行或多行数据，也就是说，Explode(expr)函数把array类型expr中的元素分成多行，或者将map类型的expr中的元素分成多行和多列。

举个例子，把game_list中的每个item转换为一行数据：

with cte_game as
(
  select uid
    ,collect_list(game) as game_list 
  from user_game
  group by uid
)
select uid
  ,explode(game_list) as game    
from cte_game

三，Lateral View子句

Lateral View子句用于连接表值函数（UDTF），比如explode、split 。Lateral View通过UDTF函数把数据拆分成多行，再把多行结果组合成一个虚拟表。

该子句主要解决的问题是：在select使用UDTF做查询的过程中，该查询只能包含单个UDTF，不能包含其它字段以及多个UDTF的情况。

LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)

使用LATERAL VIEW + explode 函数进行查询，语句如下：

select movie,category_name 
from movie_info
LATERAL VIEW explode(category) tmpTable as category_name;
-- category_name 是给 explode(category) 列起的别名

四，排序

在SELECT子句中，ORDER BY子句用于保证最终数据的顺序，除此之外，还可以按照分区来排序。

[ WITH with_query [ , ... ] ]
select_statement[ ORDER BY { expression [ ASC | DESC ] [ NULLS { FIRST | LAST } ] [ , ... ] } ]
  [ SORT BY { expression [ ASC | DESC ] [ NULLS { FIRST | LAST } ] [ , ... ] } ]
  [ CLUSTER BY { expression [ , ... ] } ]
  [ DISTRIBUTE BY { expression [, ... ] } ]
  [ WINDOW { named_window [ , WINDOW named_window, ... ] } ]

1，DISTRIBUTE BY子句

根据输入表达式对表进行重新分区，

DISTRIBUTE BY { expression [ , ... ] }

举个例子，把age相同的person作为同一个cluster（或partition）。

SELECT age, name FROM person DISTRIBUTE BY age;

2，SORT BY子句

在每个分区中，按照指定的顺序对每个分区内的数据进行排序，如果分区不止一个，那么SORT BY可能会返回部分排序的结果。

SORT BY { expression [ sort_direction | nulls_sort_order ] [ , ... ] }

参数注释：

nulls_sort_order 的有效值是 NULLS { FIRST | LAST }，可选，用于指定在非NULL值之前/之后是否返回NULL值。

如果未指定null_sort_order，则如果排序顺序为ASC，则NULL排在最前面，如果排序顺序为DESC，则NULL排在最后面。

如果指定了NULLS FIRST，则无论排序顺序如何，都将首先返回NULL值。
如果指定了NULLS LAST，则无论排序顺序如何，最后都会返回NULL值。

举个例子，按照name对每个分区中的数据进行排序：

SELECT /*+ REPARTITION(zip_code) */ name, age, zip_code FROM person
    SORT BY name ASC, age DESC;

3，CLUSTER BY子句

根据输入表达式对数据进行重新分区，然后对每个分区内的数据进行排序。从语义上讲，这等效于先执行DISTRIBUTE BY，再执行SORT BY。该子句仅确保结果行在每个分区内排序，并且不保证输出的总顺序。

CLUSTER BY { expression [ , ... ] }

举个例子，按照age把person分区，age相同的person位于同一个分区，然后按照age对每个分区中的person进行排序。

SELECT age, name FROM person CLUSTER BY age;

参考文档：

Spark SELECT

掌握这个SQL技巧超越80%的人——行转列/列转行

SQL reference for Databricks Runtime 7.x

作者

：悦光阴

出处

：http://www.cnblogs.com/ljhdo/

本文版权归作者和博客园所有，欢迎转载，但未经作者同意，必须保留此段声明，且在文章页面醒目位置显示原文连接，否则保留追究法律责任的权利。

Databricks 第11篇：Spark SQL 查询（行转列、列转行、Lateral View、排序）

一，行转列

二，列转行

三，Lateral View子句

四，排序

继续阅读

Databricks 第6篇：Spark SQL 维护数据库和表

Databricks 第9篇：Spark SQL 基础（标识符、数据类型、NULL语义）

Databricks 第8篇：把Azure Data Lake Storage Gen2 (ADLS Gen 2)挂载到DBFS

Azure App object和Service Principal

Azure Key Vault 简介

Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问

「SaaS播客」nextS6E06. 对话Databricks联合创始人Reynold Xin

Flink被阿里收购4年，最开心的却是Spark背后的Databricks

41 First Missing Positive

超级独角兽 Databricks 的崛起之路

如何使用 Databricks 在 Azure 中构建数据湖库

大模型让数据库行业先撕起来了，Databricks和Snowflake：开发者们你们现在必须选边站了

估值380亿！“AI巨兽”Databricks：是时候进入下一个时代了！

类ChatGPT开源平台MosaicML，以13亿美元被Databricks收购！

纵观今年DatabricksData+AI峰会，尽管宣传的重心在AI上面，但实际发布的AI产品并不多，“英文SDK”算是

Databricks推Delta Lake 3.0，开放表格式Iceberg依然最大赢家？