Hive按特定时间窗口分组求和实例

2023-06-12 21:36:58

Hive按特定时间窗口分组求和实例

样例数据：

> select * from tmp.lanfz_log;
2020-09-14 13:47:12,771 [ForkJoinPool-1-worker-3] INFO  cn.jpush.spark.parser.SqlStatisticsParser - queryId : e1a036de-3463-4ab9-a3e9-9ba6e6229227
usera    lb    2020091410    60                                              
usera    la    2020091412    60
userb    la    2020091409    60
usera    la    2020091409    60
userb    la    2020091411    60
userb    lb    2020091410    60
usera    la    2020091408    60
usera    la    2020091407    30
usera    lb    2020091413    60
userb    la    2020091408    60
usera    la    2020091411    60
Time taken: 5.622 seconds, Fetched 11 row(s)
spark-sql>

sql

with cte1 as (
    select
        user,
        location,
        time,
        m,
        lag(location) OVER (ORDER BY user, time) as lag_location   --
    from tmp.lanfz_log
),
cte2 as (
    select
        user,
        location,
        time,
        m,
        if(lag_location is not null and location != lag_location, 1, 0) as mark
    from cte1
),
cte3 as (
    select
        user,
        location,
        time,
        m,
        sum(mark) OVER (PARTITION BY user ORDER BY time) as session
    from cte2
)
SELECT
    user,
    location,
    min(time) as time,
    sum(m) as m
from cte3
group by user, location, session;

结果：

usera	la	2020091407	150
usera	lb	2020091410	60
usera	la	2020091411	120
usera	lb	2020091413	60
Time taken: 3.406 seconds, Fetched 4 row(s)
spark-sql>

pyspark版

data = [
['usera', 'lcationA', '2020091407', 60],
['usera', 'lcationA', '2020091408', 30],
['usera', 'lcationA', '2020091409', 60],
['usera', 'lcationB', '2020091410', 60],
['usera', 'lcationA', '2020091411', 60],
['usera', 'lcationA', '2020091412', 60],
['usera', 'lcationB', '2020091413', 20]
]


data = sc.parallelize(data)


def merger(x):
    if len(x) == 1:
        return x
    data = sorted(list(x), key=lambda x: x[2])
    i = 1
    x = data[0]
    res = list()
    while 0 < i < len(data):
        y = data[i]
        if x[1] == y[1]:
            x[3] += y[3]
        else:
            res.append(x)
            x = y
        if i == len(data) - 1:
            res.append(x)
        i += 1
    return res


d = data.map(lambda line: ((line[0], line))).groupByKey().flatMapValues(lambda x: merger(x)).values().toDF().show()

+-----+--------+----------+---+                                                 
|   _1|      _2|        _3| _4|
+-----+--------+----------+---+
|usera|lcationA|2020091407|150|
|usera|lcationB|2020091410| 60|
|usera|lcationA|2020091411|120|
|usera|lcationB|2020091413| 20|
+-----+--------+----------+---+

Hive按特定时间窗口分组求和实例

继续阅读

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入