天天看點

spark 統計每天新增使用者數

版權聲明:本文由董可倫首發于https://dongkelun.com,非商業轉載請注明作者及原創出處。商業轉載請聯系作者本人。 https://blog.csdn.net/dkl12/article/details/80256688

我的原創位址:

https://dongkelun.com/2018/04/11/sparkNewUV/

前言

本文源自一位群友的一道美團面試題,解題思路(基于反向索引)和代碼都是這位大佬(相對于尚處于小白階段的我)寫的,我隻是在基于反向索引的基礎上幫忙想出了最後一步思路,感覺這個解題思路不錯,值得記錄一下。

1、原始資料

2017-01-01  a
2017-01-01  b
2017-01-01  c
2017-01-02  a
2017-01-02  b
2017-01-02  d
2017-01-03  b
2017-01-03  e
2017-01-03  f           

根據資料可以看出我們要求的結果為:

2017-01-01 新增三個使用者(a,b,c)

2017-01-02 新增一個使用者(d)

2017-01-03 新增兩個使用者(e,f)

2、解題思路

2.1 對原始資料進行反向索引

結果如下:

使用者名 列一 列二 列三
a 2017-01-01 2017-01-02
b 2017-01-03
c
d
e
f

2.2 統計列一中每個日期出現的次數

這樣我們隻看列一,統計每個日期在列一出現的次數,即為對應日期新增使用者數。

3、代碼

package com.dkl.leanring.spark.test

import org.apache.spark.sql.SparkSession

object NewUVDemo {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("NewUVDemo").master("local").getOrCreate()
    val rdd1 = spark.sparkContext.parallelize(
      Array(
        ("2017-01-01", "a"), ("2017-01-01", "b"), ("2017-01-01", "c"),
        ("2017-01-02", "a"), ("2017-01-02", "b"), ("2017-01-02", "d"),
        ("2017-01-03", "b"), ("2017-01-03", "e"), ("2017-01-03", "f")))
    //倒排
    val rdd2 = rdd1.map(kv => (kv._2, kv._1))
    //倒排後的key分組
    val rdd3 = rdd2.groupByKey()
    //取最小時間
    val rdd4 = rdd3.map(kv => (kv._2.min, 1))
    rdd4.countByKey().foreach(println)
  }
}           

結果:

(2017-01-03,2)
(2017-01-02,1)
(2017-01-01,3)           

附圖:

繼續閱讀