Hive实战:词频统计_hive 对频数进行分组统计-程序员宅基地

技术标签: hive  

一、实战概述

在本次实战任务中,我们的目标是在大数据环境下利用Hive工具进行词频统计。以下是详细步骤和关键操作的优化描述:

  1. 数据源准备:

    • 将测试用的文本文件test.txt上传到HDFS的/hivewc/input目录,以便Hive高效访问数据。
  2. Hive环境准备:

    • 启动Hive Metastore服务,确保Hive元数据存储正常运行。
    • 启动Hive客户端,方便后续的数据操作和查询。
  3. 数据表创建:

    • 在Hive客户端中创建一个名为t_word的外部表,仅包含一个word字段,类型为字符串,用于存储拆分后的单词。
    • 将表的位置设置为HDFS中的/hivewc/input目录,实现Hive与HDFS数据的无缝对接。
  4. 词频统计逻辑实现:

    • 使用一条优化过的Hive SQL语句实现词频统计。该语句利用explode和split函数高效拆分每个句子为单个单词。
    • 通过子查询和分组操作对单词进行计数,确保准确统计每个单词的频率。
  5. 结果分析与展望:

    • 执行优化后的SQL语句,高效完成词频统计任务,并获得准确结果。
    • 通过这个实战任务,加深对Hive的理解和应用能力,为今后的数据处理工作积累经验。
    • 在大数据分析和处理任务中,这些经验将发挥重要的指导作用。

二、提出任务

  • 对以下数据进行,进行词频统计
hello hadoop hello hive
hello hbase hello spark
we will learn hadoop
we will learn hive
we love hadoop spark

三、完成任务

(一)准备数据文件

1、在虚拟机上创建文本文件

  • 在master虚拟机上创建test.txt文件
    在这里插入图片描述

2、启动Hadoop服务

  • 执行命令:start-all.sh
    在这里插入图片描述

3、将文本文件上传到HDFS指定目录

  • 在HDFS上创建/hivewc/input目录
    在这里插入图片描述

  • test.txt文件上传到HDFS的/hivewc/input目录
    在这里插入图片描述

(二)实现步骤

1、启动Hive Metastore服务

  • 我们需要启动Hive Metastore服务,这是Hive的元数据存储服务。
    执行命令:hive --service metastore &
    在这里插入图片描述

2、启动Hive客户端

  • 执行命令:hive,看到命令提示符hive>
    在这里插入图片描述

3、基于HDFS文件创建外部表

  • 基于/hivewc/input下的文件创建外部表t_word
    执行命令:CREATE EXTERNAL TABLE t_word(line string) LOCATION '/hivewc/input';
    在这里插入图片描述
  • 在MySQL的hive数据库的TBLS表里,我们可以查看外部表t_word对应的记录。
    在这里插入图片描述

4、查询单词表,所有单词成一列

  • 查看单词表记录,执行语句:SELECT line FROM t_word;
    在这里插入图片描述

  • 按空格拆分行数据,执行语句:SELECT split(line, ' ') FROM t_word;
    在这里插入图片描述

  • 让单词成一列,执行语句:SELECT explode(split(line, ' ')) AS word FROM t_word;
    在这里插入图片描述

5、基于查询结果创建视图

  • 基于查询结果创建了一个视图v_word
    执行语句:CREATE VIEW v_word AS SELECT explode(split(line, ' ')) AS word FROM t_word;
    在这里插入图片描述
  • 查询视图的全部记录,执行语句:SELECT word FROM v_word;
    在这里插入图片描述

6、基于视图进行分组统计

  • 基于视图分组统计操作,执行语句:SELECT word, COUNT(*) FROM v_word GROUP BY word;
    在这里插入图片描述

7、基于嵌套查询一步搞定

  • 为了更简便地实现相同的效果,使用嵌套查询:SELECT word, COUNT(*) FROM (SELECT explode(split(line, ' ')) AS word FROM t_word) AS v_word GROUP BY word;
    在这里插入图片描述
    注意,这里在嵌套查询中,我们为子查询取了一个别名,这个别名是v_word。

这条SQL语句是在处理一个名为t_word的表,该表中有一个word字段,该字段存储的是由空格分隔的单词字符串。

首先,使用explode(split(line, ’ ')) AS word从t_word表中的每一行word字段创建一个新的临时表(别名v_word)。这里split(word, ’ ')函数将每个word字段的内容按照空格分割成多个单词,并生成一个多行的结果集,每行包含一个单词。

explode函数则将这个分割后的数组转换为多行记录,即每一行对应原字符串中的一个单词。

然后,通过GROUP BY word对新生成的临时表v_word中的word字段进行分组,即将所有相同的单词归为一组。

最后,使用COUNT(*)统计每个单词分组的数量,结果将展示每个单词及其在原始数据集中出现的次数。

整个查询的目的在于统计t_word表中各个单词出现的频率。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/linlong2003/article/details/135761791

智能推荐

linux系统的字体文件安装_目标'usr/share/fonts/' 不是目录-程序员宅基地

文章浏览阅读1.3k次。ubuntu里新装的terminator里,字体实在是不忍直视。尤其是字母i,跟别的字母挤在一起,根本就看不清楚。所以特意下载了一个苹果的Monaco字体来代替。linux系统的字体文件放在/usr/share/fonts/目录以及用户的~/.fonts和~/.local/share/fonts目录下,第一个位置为系统所用用户共享,将字体安装到这个目录需要管理员权限;后面两个位置则为当前登陆用户..._目标'usr/share/fonts/' 不是目录

<Android> 系统编译删除不必要的Apk_android 去掉product_packages 属性-程序员宅基地

文章浏览阅读5.3k次,点赞2次,收藏8次。本文以Android 5.1的A83T octopus-f1工程为例.预装APK分为四种priv-app, preinstall, precopy, appout/target/product/octopus-f1/system/priv-app 系统默认APPout/target/product/octopus-f1/system/app 用户APPout/targe_android 去掉product_packages 属性

台湾油研功率放大器AMN-D-20T_油研amnd20放大器中文说明书-程序员宅基地

文章浏览阅读424次。控制阀类型有先导溢流阀EDG,比例压力阀EBG,比例减压阀ERBG,10Ω系列比例流量阀EFCG,节能阀10Ω线圈EFBG,10Ω比例线圈用的小型功率放大器,供给电源DC24V.采用新回路方式,低发热功率放大器。_油研amnd20放大器中文说明书

里氏替换原则(Liskov Substitution Principle)_基类出现的地方 子类一定出现-程序员宅基地

文章浏览阅读723次。里氏替换原则(Liskov Substitution Principle LSP)面向对象设计的基本原则之一。简单明了的理解:所用引用基类的地方必须透明地使用其子类的对象。_基类出现的地方 子类一定出现

两个实用的C语言工具———编程学习必备篇_csdn-程序员宅基地

文章浏览阅读4.5k次,点赞17次,收藏8次。两个实用的C语言工具_csdn

Flask、Django、Tornado三大框架的对比_tornado flask di-程序员宅基地

文章浏览阅读3.9k次。前言之前面试的时候我提到过自己有Flask、Django、Tornado框架的使用经验,于是面试官很自然就问到了这三大框架的区别、各自的特点这样的问题。回答了几次总觉得自己回答得不是太好,有些点没有回答到,亦或是逻辑有点混乱,于是想要归纳总结一下。框架的特点FlaskFlask诞生于2010年,是Armin ronacher用Python语言基于Werkzeug工具箱编写的轻量级Web开发..._tornado flask di

随便推点

OpenGL纹理-12.5、纹理坐标-程序员宅基地

文章浏览阅读227次。12.5、纹理坐标12.5.1 坐标定义在绘制纹理映射场景时,不仅要给每个顶点定义几何坐标,而且也要定义纹理坐标。经过多种变换后,几何坐标决定顶点在屏幕上绘制的位置,而纹理坐标决定纹理图像中的哪一个纹素赋予该顶点。并且顶点之间的纹理坐标插值与基础篇中所讲的平滑着色插值方法相同。纹理图像是方形数组,纹理坐标通常可定义成一、二、三或四维形式,称为s,..._opengl 定义纹理坐标

如何设置代理ip服务器地址_代理服务器地址-程序员宅基地

文章浏览阅读711次。代理IP服务器具有很多优点和使用场景,在未来的发展中,随着网络技术的不断进步和应用场景的不断扩展,代理IP服务器将会发挥更加重要的作用。_代理服务器地址

用伪随机生成100个大写字母和100个个位数字_vb生成100个大写字母-程序员宅基地

文章浏览阅读294次。#include#include#includeusing namespace std;void RandomCharacter();void RandomFingure();int main(void){ RandomCharacter(); cout<<

Spring / Spring boot 异步任务编程 WebAsyncTask_spring boot webasynctask-程序员宅基地

文章浏览阅读372次。Spring / Spring boot 异步任务编程 WebAsyncTask今天一起学习下如何在Spring中进行异步编程。我们都知道,web服务器处理请求request的线程是从线程池中获取的,这也不难解释,因为当web请求并发数非常大时,如何一个请求进来就创建一条处理线程,由于创建线程和线程上下文切换的开销是比较大的,web服务器最终将面临崩溃。另外,web服务器创建的处理线程从头到尾默认是同步执行的,也就是说,假如处理线程A负责处理请求B,那么当B没有return之前,处理线程A是不可以脱身去_spring boot webasynctask

uni-app打包成Android Apk 过程详细_uniapp打包apk-程序员宅基地

文章浏览阅读6.5k次。重新运行npm run build:app-plus,生成新的app-plus内容,替换之前的www文件夹里的内容,并且打开里面的manifest.json 应该能看到id已经变成重新获取的appid了。在项目根目录新建一个文件夹,以 src/manifest.json 中的 appid 字段为文件名,然后在文件夹中创建一个 www 目录,将 app-plus 文件夹下的资源拷贝到 www 目录中。在assets右键新建一个文件夹apps,将 3.2 步骤的appid文件夹整个复制到 apps目录下。_uniapp打包apk

【中级软考】软件设计-考试介绍_软件设计师 以考代评 考完就是中级职称-程序员宅基地

文章浏览阅读457次。软件设计中级软考基本内容,通过一下几点进行介绍:1、软考好处2、软件设计证书模版3、流程4、考点分布5、考试形式_软件设计师 以考代评 考完就是中级职称