hive 表存储大小_Hive中文件存储格式及大小比较测试_逍遥Eric的博客-程序员秘密

技术标签: hive 表存储大小  

在hive中创建表是有如下一个语句

[ROW FORMAT row_format]

row_format 的类型有如下:

file_format:

: SEQUENCEFILE

| TEXTFILE -- (Default, depending on hive.default.fileformat configuration)

| RCFILE -- (Note: Available in Hive 0.6.0 and later)

| ORC -- (Note: Available in Hive 0.11.0 and later)

| PARQUET -- (Note: Available in Hive 0.13.0 and later)

| AVRO -- (Note: Available in Hive 0.14.0 and later)

| INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

默认是文本格式例如:

e8e965654c71

按照数据存储方式分类

按照行存储

SEQUENCEFILE

TEXTFILE

按照列存储

RCFILE

ORC

PARQUET

说明:parquet目前已经是apache的顶级项目了,在hive,hbase,spark中都是经常使用的。

e8e965654c71

e8e965654c71

e8e965654c71

e8e965654c71

e8e965654c71

e8e965654c71

文件格式的压缩比较

e8e965654c71

实际业务我们是按照列来分析数据及使用数据的。

1、创建文本表

e8e965654c71

2、加载数据

e8e965654c71

image.png

e8e965654c71

3、查看创建OCR文件的格式

e8e965654c71

4、创建ocr文件

e8e965654c71

5、把文件表中的数据插入到OCR类型的表中

e8e965654c71

6、创建parquet类型的表并插入数据

e8e965654c71

7、查看文件大小

原始文本文件的大小

e8e965654c71

orc文件大小

e8e965654c71

partquet文件大小

e8e965654c71

执行sql语句测试执行速度

e8e965654c71

e8e965654c71

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_30699915/article/details/114174538

智能推荐

spark报错Error while instantiating 'org.apache.spark.sql.internal.SessionState'_In-spite-of的博客-程序员秘密

Exception in thread "main" java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.internal.SessionState'……………………Caused by: java.lang.reflect.InvocationTargetException...

CAS5.3服务器搭建及SpringBoot整合CAS实现单点登录_天剑含光的博客-程序员秘密_springboot整合cas

CAS5.3服务器搭建及SpringBoot整合CAS实现单点登录1.1 什么是单点登录1.2 什么是CAS1.3 CAS服务端部署1.template下载1.4 客户端搭建1.1 什么是单点登录单点登录(Single Sign On),简称为 SSO,是目前比较流行的企业业务整合的解决方案之一。SSO的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。我们目前的系...

《Flutter 控件大全》第六十个:ListWheelScrollView_老孟Flutter的博客-程序员秘密

如果你对Flutter还有疑问或者技术方面的疑惑,欢迎加入Flutter交流群(微信:laomengit)。同时也欢迎关注我的Flutter公众号【老孟程序员】,公众号首发Flutter的相关内容。Flutter地址:http://laomengit.com 里面包含160多个组件的详细用法。在展示大量数据的时候我们第一会想到使用ListView,如果你觉得ListView比较单一、...

母亲节祝福短信母亲节信息母亲节祝福语大全 - 健康程序员,至尚生活!_weixin_33924220的博客-程序员秘密

 妈:感谢您让咱们一家人吃的丰盛、穿的体面、乐的开怀,让我代表一家人向您说:母亲节快乐! 妈妈,感谢您!在我跌跌撞撞的时候,是您一直在支持着我。今天是您的节日,衷心祝您节日快乐! 妈妈,今天是一个您也许不会记得而我永远不会忘记的日子!妈妈:祝您母亲节快乐! 妈妈我感谢你赐给了我生命,是您教会了我做人的道理,无论将来怎么样,我永远爱您!在这属于您的节日里,祝您节日快乐,永远快乐! 你的爱,我...

web开发必须知道--servlet、连接池、线程池的概念原理和使用_chujingli4480的博客-程序员秘密

servlet定义 全称JavaServlet,是用Java编写的服务器端程序。其主要功能在于交互式地浏览和修改数据,生成动态Web内容。狭义的Servlet是指Java语言实现的一个接口,广义的Servlet是指任何实现了这个Servlet接口的类,一般情况下,人们将Servlet理解为...

梦幻诛仙11职业linux架设手游,一款【梦幻诛仙11职业】手游端私服架设+JAVA后台+架设视频教程..._weixin_39860349的博客-程序员秘密

一款【梦幻诛仙11职业】手游端私服架设+JAVA后台+架设视频教程安装说明:最低配置2H4G安装CentOS 6.8体系封闭防火墙chkconfig iptables offservice iptables stop114 56 54安装浮图yum install -y wget && wget -O install.sh http://download.bt.cn/install...

随便推点

CHAPTER 7 Designing and Tuning the Indexes中的Clustered Index Design Considerations一节_liyating__的博客-程序员秘密

来源:《Pro SQL Server Internals, 2nd edition》作者:Dmitri Korotkevitch美国佛罗里达州坦帕聚集索引设计注意事项每次更改聚集索引键的值时,都会发生两件事。首先,SQL Server移动行移动到聚集索引页链和数据文件中的不同位置。其次,它更新行id,这是聚集索引键。行id存储在所有非集群索引中,需要更新。就I/O而言,这可能非常昂...

Docker+Caddy+mkcert+Tomcat 在本地配置域名和 HTTPS_Just Ice的博客-程序员秘密

下载并使用 mkcert 生成本地SSL证书将生成的两个证书存放到当前工作目录的 ssl 文件夹中$ choco install -y mkcert$ mkcert -install$ mkcert "*.hlr.com" // 会在当前文件夹生成两个证书 _wildcard.hlr.com.pem 和 _wildcard.hlr.com-key.pem修改本机 hosts1...

一周极客热文:一幅图让你一网打尽所有的编程语言!_csdn极客头条的博客-程序员秘密

双11马上就要到了,小极没啥高大上的礼物送你们,只有真心实意的技术干货和关注程序员成长的文章给各位了,废话不多说,下面就让我们看看这一周的精华荟萃吧!技术干货类1.编程语言网络:一幅图让你一网打尽所有的编程语言! 「语言之博大精深啊。都成小星球了。」Tips:可以点击圆点 鼠标滚轮缩放2.大型网站系统架构的演化 「一个成熟的大型网站(如淘宝、京东等)的系统架构并不是...

Android学习之Volley网络请求框架_weixin_37879993的博客-程序员秘密_volley请求

请求对象:StringRequest,JsonObjectRequest,JsonAarryRequest,ImageRequest步骤:1.创建一个请求队列RequestQueue2.创建Request对象3.将请求对象添加到请求队列中具体实现:1.在AndroidManifest.xml中添加网络访问权限: <uses-permission android:name="android.permission.INTERNET" />2.在.

平面坐标点排序(一)_top啦它的博客-程序员秘密_坐标点排序

题目描述:输入n(0<n<100)和平面上n个点的坐标(均为整数),按点到原点的距离从小到大排序输出各点坐标,要求分别编写函数实现平面点坐标的录入InputData()、排序Sort()和输出OutputData()。Example Input31 23 41 1Example Output(1,1) (1,2) (3,4)在这里插入代码片#include&lt...

关于<mvc:default-servlet-handler/>报错问题的解决_iteye_10680的博客-程序员秘密

在spring mvc中引用&amp;lt;mvc:default-servlet-handler/&amp;gt;后启动程序异常如下: ERROR: org.springframework.web.servlet.DispatcherServlet - Context initialization failedorg.springframework.beans.factory.BeanCreati...