天天看点

用 Hive 编写词频统计

在 虚拟机 或是 服务器 编写 简单版本的 Hive的词频统计:

【相信此时的你,hive 环境已搭建好,来个简单的案例吧!】

① 在服务器,编辑文本 words.txt:

vi words.txt

zhangsan is beijing 
zhangsan is running
country
nihao hi love hi
           

② 进到hive进行建表:

③ 导数据:

④ 先查询数据是否导入成功,验证一下:

⑤ 编写wordCount:

hive>select t1.word,count(t1.word) from (select explode(split(txt,' '))word from wc)t1 group by t1.word;


相关语法:
split----------------> 列变数组
explode--------------> 数组拆分成多行
group by和count------> 对行分组后,求各行出现的次数
           

⑥ 结果如下,则运行成功:

beijing	1
country	1
hi	2
is	2
love	1
nihao	1
running	1
zhangsan	2
           

希望可以帮到您!

一起加油呀,打工人 ~~~