在 虚拟机 或是 服务器 编写 简单版本的 Hive的词频统计:
【相信此时的你,hive 环境已搭建好,来个简单的案例吧!】
① 在服务器,编辑文本 words.txt:
vi words.txt
zhangsan is beijing
zhangsan is running
country
nihao hi love hi
② 进到hive进行建表:
③ 导数据:
④ 先查询数据是否导入成功,验证一下:
⑤ 编写wordCount:
hive>select t1.word,count(t1.word) from (select explode(split(txt,' '))word from wc)t1 group by t1.word;
相关语法:
split----------------> 列变数组
explode--------------> 数组拆分成多行
group by和count------> 对行分组后,求各行出现的次数
⑥ 结果如下,则运行成功:
beijing 1
country 1
hi 2
is 2
love 1
nihao 1
running 1
zhangsan 2
希望可以帮到您!
一起加油呀,打工人 ~~~