hive笔记2_insert * from message-程序员宅基地

技术标签: hive  database  数据库  

目录

1. 分区表的概念:

2.建表语句:

3.查看分区信息 

4.向分区表中插入信息

 5.查询信息

6.动态分区

7.现在根据两个字段分区


分区表:

1. 分区表的概念:

分区表指的是在创建表时指定分区空间,实际上就是在hdfs上表的目录下再创建子目录。 在使用数据时如果指定了需要访问的分区名称,则只会读取相应的分区,避免全表扫描,提高查询效率。

2.建表语句:

(1)添加分区

首先我们创建一个 根据某个字段进行分区的分区表,我们再给他添加分区信息

注:其他字段是不可以和分区字段字段重名的,不然建表会报错

//分区建表语句
create table students_dt
(id bigint
,name string
,age int  
,gender string
,clazz string
) partitioned by (dt string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';
//添加分区:alter table 表名 add partition(分区字段='值');
alter table students_dt add partition(dt='20210101');
alter table students_dt add partition(dt='20210102');
alter table students_dt add partition(dt='20210103');
//删除分区:alter table 表名 drop partition(分区字段='值');
alter table students_dt del partition(dt='20210101');

前往hdfs查询students_dt表下的内容,发现确实出现了3个新的文件夹,分区就是通过文件夹的形式对文件做分割 

3.查看分区信息 

查看分区字段信息方式1:

// select DISTINCT 分区字段 from 表; 
hive> select distinct dt  from students_dt;

依然是通过mapreduce的方式计算出结果 ,只截了最终结果

 

 查看分区字段信息方式2:

hive> show partitions students_dt;

 

4.向分区表中插入信息

在普通插入数据的基础上加上指定的分区:parttion(分区字段='值')

//load data local inpath '路径' into table 表名 partiton(分组字段='值');
//分区不存在自动创建
load data local inpath '/usr/local/module/students_dt.txt' into students_dt partition(dt='20211111');

在hdfs中确实出现了新的文件夹 

这时就可以查询到信息了 

select * from student_dt;

截取部分结果

 发现后面的分区信息都变成了20211111

我传入的数据中,最后一栏是20210101-20210110 ,统一分区的数据,他们的分区信息肯定是统一的

 5.查询信息

加入分区的好处就是我可以不用去扫描全表,可以根据分区先进行筛选,加快了查询效率

//查询语句 where 分区字段='分区值'
hive> select count(*) from students_dt where dt='20211111';

6.动态分区

上面我们创建了分区表后,还需要一个一个添加分区,向这个字目录传入数据,这样是不是又点麻烦呢?

所以hive中动态分区功能解决了这个问题

//动态分区默认是关闭的需要我们打开
 hive> set hive.exec.dynamic.partition=true;
//动态分区模式  动静结合,既有动态分区,我们也可以通过手动添加新的分区
hive> set hive.exec.dynamic.partition.mode=nostrict; 
//hive最大分区数
hive> set hive.exec.max.dynamic.partitions.pernode=1000; 

先把上面3个都设置一下,至少前两个,不然报错不会运行插入语句的 

注意开启语句每次都需要执行的,不是永远打开的状态

//这是我们存储要插入数据的表,可以理解为将分区表中的所有字段,包括分区字段都列出的普通表
create table message(
id bigint
,name string
,age int  
,gender string
,clazz string
,dt string)
partitioned by (pt string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';
 
// 和开始一样按dt分区的分区表
create table students_dt
(id bigint
,name string
,age int  
,gender string
,clazz string
) partitioned by (dt string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';
//注意后面的表包括前面的所有字段,而且是一个普通的表,没有分区!!!
//insert into 分区表 分区字段(字段名称) select * from 表
insert into students_dt partition(dt) select * from message;

 前往hdfs查看,里面确实是按照dt分好了

7.现在根据两个字段分区

首先创建一个分区表,这个表有两个分区字段

注意: 分区字段不会按照名字匹配,按照位置(匹配查询到的最后n个字段)

create table students_pt
(id bigint
,name string
,age int  
,gender string
,clazz string
) PARTITIONED BY (year string, month string) 
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

现在再创建一个数据来源表,这个表包括了分区表中的所有字段

//普通表存储数据
create table message2
(id bigint
,name string
,age int  
,gender string
,clazz string
, year string
, month string 
) 
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';
//先向数据表中传输数据
hive> load data local inpath '/usr/local/module/studnets_pt.txt' into table message2;
//开启一下动态分区
hive>  set hive.exec.dynamic.partition=true;
hive> set hive.exec.dynamic.partition.mode=nostrict;

//向分区表中插入数据
hive> insert into students_pt partition(year,month) select * from message2;

前往hdfs中查看一下分区表下内容

 再点进去,可以看到确实按照2个字段一次划分了,第一层根据年,进入年文件夹过后,里面是根据具体月份划分

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zzds111/article/details/121537601

智能推荐

海康威视网络摄像头开发流程(五)------- 直播页面测试_ezuikit 测试的url-程序员宅基地

文章浏览阅读3.8k次。1、将下载好的萤石js插件,添加到SoringBoot项目中。位置可参考下图所示。(容易出错的地方,在将js插件在html页面引入时,发生路径错误的问题)所以如果对页面中引入js的路径不清楚,可参考下图所示存放路径。2、将ezuikit.js引入到demo-live.html中。(可直接将如下代码复制到你创建的html页面中)<!DOCTYPE html><html lan..._ezuikit 测试的url

如何确定组态王与多动能RTU的通信方式_组态王ua-程序员宅基地

文章浏览阅读322次。第二步,在弹出的对话框选择,设备驱动—>PLC—>莫迪康—>ModbusRTU—>COM,根据配置软件选择的协议选期期,这里以此为例,然后点击“下一步”。第四步,把使用虚拟串口打勾(GPRS设备),根据需要选择要生成虚拟口,这里以选择KVCOM1为例,然后点击“下一步”设备ID即Modbus地址(1-255) 使用DTU时,为下485接口上的设备地址。第六步,Modbus的从机地址,与配置软件相同,这里以1为例,点击“下一步“第五步,Modbus的从机地址,与配置软件相同,这里以1为例,点击“下一步“_组态王ua

npm超详细安装(包括配置环境变量)!!!npm安装教程(node.js安装教程)_npm安装配置-程序员宅基地

文章浏览阅读9.4k次,点赞22次,收藏19次。安装npm相当于安装node.js,Node.js已自带npm,安装Node.js时会一起安装,npm的作用就是对Node.js依赖的包进行管理,也可以理解为用来安装/卸载Node.js需要装的东西_npm安装配置

火车头采集器AI伪原创【php源码】-程序员宅基地

文章浏览阅读748次,点赞21次,收藏26次。大家好,小编来为大家解答以下问题,python基础训练100题,python入门100例题,现在让我们一起来看看吧!宝子们还在新手村练级的时候,不单要吸入基础知识,夯实自己的理论基础,还要去实际操作练练手啊!由于文章篇幅限制,不可能将100道题全部呈现在此除了这些,下面还有我整理好的基础入门学习资料,视频和讲解文案都很齐全,用来入门绝对靠谱,需要的自提。保证100%免费这不,贴心的我爆肝给大家整理了这份今天给大家分享100道Python练习题。大家一定要给我三连啊~

Linux Ubuntu 安装 Sublime Text (无法使用 wget 命令,使用安装包下载)_ubuntu 安装sumlime text打不开-程序员宅基地

文章浏览阅读1k次。 为了在 Linux ( Ubuntu) 上安装sublime,一般大家都会选择常见的教程或是 sublime 官网教程,然而在国内这种方法可能失效。为此,需要用安装包安装。以下就是使用官网安装包安装的教程。打开 sublime 官网后,点击右上角 download, 或是直接访问点击打开链接,即可看到各个平台上的安装包。选择 Linux 64 位版并下载。下载后,打开终端,进入安装..._ubuntu 安装sumlime text打不开

CrossOver for Mac 2024无需安装 Windows 即可以在 Mac 上运行游戏 Mac运行exe程序和游戏 CrossOver虚拟机 crossover运行免安装游戏包-程序员宅基地

文章浏览阅读563次,点赞13次,收藏6次。CrossOver24是一款类虚拟机软件,专为macOS和Linux用户设计。它的核心技术是Wine,这是一种在Linux和macOS等非Windows操作系统上运行Windows应用程序的开源软件。通过CrossOver24,用户可以在不购买Windows授权或使用传统虚拟机的情况下,直接在Mac或Linux系统上运行Windows软件和游戏。该软件还提供了丰富的功能,如自动配置、无缝集成和实时传输等,以实现高效的跨平台操作体验。

随便推点

一个用聊天的方式让ChatGPT写的线程安全的环形List_为什么gpt一写list就卡-程序员宅基地

文章浏览阅读1.7k次。一个用聊天的方式让ChatGPT帮我写的线程安全的环形List_为什么gpt一写list就卡

Tomcat自带的设置编码Filter-程序员宅基地

文章浏览阅读336次。我们在前面的文章里曾写过Web应用中乱码产生的原因和处理方式,旧文回顾:深度揭秘乱码问题背后的原因及解决方式其中我们提到可以通过Filter的方式来设置请求和响应的encoding,来解..._filterconfig selectencoding

javascript中encodeURI和decodeURI方法使用介绍_js encodeur decodeurl-程序员宅基地

文章浏览阅读651次。转自:http://www.jb51.net/article/36480.htmencodeURI和decodeURI是成对来使用的,因为浏览器的地址栏有中文字符的话,可以会出现不可预期的错误,所以可以encodeURI把非英文字符转化为英文编码,decodeURI可以用来把字符还原回来_js encodeur decodeurl

Android开发——打包apk遇到The destination folder does not exist or is not writeable-程序员宅基地

文章浏览阅读1.9w次,点赞6次,收藏3次。前言在日常的Android开发当中,我们肯定要打包apk。但是今天我打包的时候遇到一个很奇怪的问题Android The destination folder does not exist or is not writeable,大意是目标文件夹不存在或不可写。出现问题的原因以及解决办法上面有说报错的中文大意是:目标文件夹不存在或不可写。其实问题就在我们的打包界面当中图中标红的Desti..._the destination folder does not exist or is not writeable

Eclipse配置高大上环境-程序员宅基地

文章浏览阅读94次。一、配置代码编辑区的样式 <1>打开Eclipse,Help —> Install NewSoftware,界面如下: <2>点击add...,按下图所示操作: name:随意填写,Location:http://eclipse-color-th..._ecplise高大上设置

Linux安装MySQL-5.6.24-1.linux_glibc2.5.x86_64.rpm-bundle.tar_linux mysql 安装 mysql-5.6.24-1.linux_glibc2.5.x86_6-程序员宅基地

文章浏览阅读2.8k次。一,下载mysql:http://dev.mysql.com/downloads/mysql/; 打开页面之后,在Select Platform:下选择linux Generic,如果没有出现Linux的选项,请换一个浏览器试试。我用的谷歌版本不可以,换一个别的浏览器就行了,如果还是不行,需要换一个翻墙的浏览器。 二,下载完后解压缩并放到安装文件夹下: 1、MySQL-client-5.6.2_linux mysql 安装 mysql-5.6.24-1.linux_glibc2.5.x86_64.rpm-bundle