Hive开窗函数和Rank函数

2023-04-20 13:05:48

开窗函数

over()：跟在聚合函数后面，指定分析函数工作的数据窗口大小，决定了数据的聚合范围，默认范围是整个数据窗口，即所有行。可使用partition by将数据进行分组聚合；使用order by除了排序（默认asc升序），还会改变聚合范围（从开始行到当前行的聚合），使用distribute by…sort by…和partition by…order by…效果一样。

如下的窗口子句，能对聚合数据进一步的划分：

current row：当前行

n preceding：往前n行数据

n following：往后n行数据

unbounded：起点，unbounded preceding表示从前面的起点开始，unbounded following表示到后面的终点结束

其他分析函数：

lag(col, n[, default_val])：往前第n行数据

lead(col, n[, default_val])：往后第n行数据

ntile(n)：把有序分区中的行分发到指定数据的组中，各个组的编号从1开始，一共分成n片。

例子

create table business(name string, orderdate string, cost int);

（1）查询在2019年1月份购买过的顾客及总人数

select name,count(*) over()
from business
where date_format(orderdate, 'yyyy-MM')='2019-01'
group by name;

注意“总人数”指顾客数量，如果不使用over()，结果将是每位顾客对应的购买次数，此处over()省略窗口字句ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING，即针对所有行。

（2）查询顾客的购买明细及月购买总额

select name, orderdate, cost, sum(cost) over(partition by month(orderdate))
from business;
或：
select name, orderdate, cost, sum(cost) over(distribute by month(orderdate))
from business;

由于查询字段中含有与orderdate无关的字段，故使用不了group by。

（3）查询顾客购买明细，以及每个顾客的cost按照日期进行累加

select name, orderdate, cost, sum(cost) over(partition by name order by orderdate)
from business;

order by的聚合范围即从开始行到当前行的聚合，加上窗口语句“ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW”效果一样。

（4）查询顾客上次的购买时间

select name, orderdate, lag(orderdate, 1, '0000-00-00') over(partition by name order by orderdate) last_time
from business;

lag函数如果没有上n次的值，返回null，或者指定的默认值。

（5）查询前20%时间的订单信息

select name, orderdate, cost from(
select name, orderdate, cost, ntile(5) over(order by orderdate) arr
from business
)
where arr = 1;

需要查询前20%（即1/5）的数据可以使用ntile函数，切成5片数据，再从中取第一份数据。

Rank函数

rank()：相同时排名值会重复，总数不会变，故相同时排名值会跳跃而不连续

row_number()：相同时排名值会根据顺序计算，不会重复

dense_rank()：相同时排名值会重复，总数会减少

例子

create table score(name string, subject string, score int);

计算每门学科成绩排名

select name, subject,score,rank()
over(partition by subject order by score desc)
from score;

Hive开窗函数和Rank函数

开窗函数

例子

Rank函数

例子

继续阅读

luogu1078 文化之旅

Hadoop离线_Hive的基本操作

Hive中内部表、外部表、分区、分桶以及SQL的执行顺序

Hive中的内部表外部表及分区表

Hive---外部分区表的创建

Hive学习笔记 3 Hive的数据模型：内部表、分区表、外部表、桶表、视图

HiveQL(二):分区表

Hive的分区表入门

Hive的分区表

Hive（二）--分区分桶，内部表外部表

大数据高频面试题之Hive的小文件合并

世界因大数据而改变

hive sql通过具体地址解析出行政区划(省＞市＞区＞县＞乡＞镇＞村)

Hive最全常见错误及解决方案hive --service metastore &

《Hive权威指南》第八章：HiveQL索引8 HiveQL：索引

HiveQl语句应用实例：WordCount具体步骤如下：