HBase使用压缩存储(snappy)_kfcman的博客-程序员资料

技术标签: hadoop  数据库  大数据  

在将mysql数据导入到hbase数据的过程中,发现hbase的数据容量增加很快,

 

原本在mysql存储30G容量的数据导入到hbase一直增加到快150G(还未完全导入,手动结束),

 

而采用默认3个备份储存的话,基本上真个集群有450G的容量。

 

查看了一些资料,发现hbase的储存确实耗空间,一般hbase采用压缩算法来解决,其中snappy

 

的算法收到Google的推崇,而且CDH中,直接安装了snappy的库,所以直接用了。

 

hbase> disable 'test'

hbase> alter 'test', {NAME => 'cf', COMPRESSION => 'SNAPPY'}

hbase> enable 'test'

 

使用后,没有立即生效,按照一些资料执行major_compact命令后,也没有发现生效,

但是过了一段时间以后发现表的容量变化了,压缩前原本150G,压缩后15G左右(查资料压缩率最好效果22%左右,这个还没有大量测试)

效果还比较明显。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/kfcman/article/details/84926241

智能推荐

properties文件_龙俊亨的博客-程序员资料

properties文件*.properties文件properties文件的创建properties文件与properties类,的作用properties文件内各属性的含义`hibernate.dialect`*.properties文件是java支持的一种配置文件类型(所谓支持是因为Java提供了properties类,来读取properties文件中的信息)。文件中以键值对 "键=值"的形式,存储工程中会多次重复使用的配置信息。随后,在需要用到这些配置信息,通过“Properties”类来读取这

【云计算】5_云存储产品介绍_cbs cfs cos_JeffchenITM的博客-程序员资料

目录1 云存储基础知识1.1存储发展历程1.2存储类型与特点​1.3存储介质1.4存储分级2 云存储产品介绍2.1云硬盘CBS​2.2文件存储CFS​2.3对象存储COS2.4归档存储CAS3 腾讯云存储服务3.1存储网关CSG3.2存储迁移CDM3.3日志服务CLS4 云存储计费方案4.1 CBS计费方案4.2 CFS计费方案4.3 COS计费方案4.4 CAS计费方案4.5 CDM计费方案1 云存储基础知识1.1存.

php 自建框架,搭建自己的PHP MVC框架_李银城的博客-程序员资料

这篇文章主要介绍了搭建自己的PHP MVC框架的方法,详细分析了php构建MVC框架的具体步骤、相关操作技巧与注意事项,需要的朋友可以参考下本文详细讲述了搭建自己的PHP MVC框架的方法。分享给大家供大家参考,具体如下:前言说到写PHP的MVC框架,大家想到的第一个词--“造轮子”,是的,一个还没有深厚功力的程序员,写出的PHP框架肯定不如那些出自大神们之手、经过时间和各种项目考验的框架。但我还...

总结:HBase原理篇_小魏的博客的博客-程序员资料

HBase是列式数据库,底层基于LSM数据结构进行存储,因此写入性能很强,读取性能较差。关于LSM的详细信息可以阅读文章:https://cloud.tencent.com/developer/news/340271一、什么是列式数据库?详情看下:https://blog.csdn.net/coderising/article/details/100021718列式数据库是针对行数据库而言的,行式数据库是以一行数据作为一个存储单元,而列式数据库是以一列数据为一个存储单元,针对hbase来说,

Java 读取 .properties 配置文件的几种方式_java读取properties配置文件_罗小稳的博客-程序员资料

**Java 开发中,需要将一些易变的配置参数放置再 XML 配置文件或者 properties 配置文件中。 XML 配置文件需要通过 DOM 或 SAX 方式解析,而读取 properties 配置文件就比较容易。**1.ClassLoder读取配置文件 Properties properties = new Properties(); // 使用ClassLoader加载properties配置文件生成对应的输入流 InputStream in = Propertie

黑客零基础第二章--信息收集第四章-自动化综合信息收集工具_nmapautomator_第七感小宇宙的博客-程序员资料

本章讲述自动化信息收集工具nmapAutomator。该工具将很多信息收集工具进行集成,自动全面的帮助attacker收集目标信息。1.场景虚拟机:vmware攻击主机:kaliIP:192.168.239.142靶机:Windows10IP:192.168.239.1服务:xampp启动的apache2.自动化信息收集工具nmapAutomator的主要目标是将每次运行的枚举和重建过程自动化,而将我们的注意力放在真正的测试上。这将确保两件事。自动进行nmap扫描。总是有一些

随便推点

TCP中RTT的测量和RTO的计算_rtt测量_林散的博客-程序员资料

转自:http://blog.csdn.net/zhangskd/article/details/7196707内核版本:3.2.12本文主要剖析:RTT的测量、RTO的计算作者:zhangskd @ csdn 概述 RTO(Retransmission TimeOut)即重传超时时间。TCP超时与重传中一个很最重要的部分是对一个给定连接的往返时间(RTT)的测量。由于网络流量的变

pnp标定验证_Unite One的博客-程序员资料

pnp标定lidar-相机后,验证得到的旋转平移矩阵是否满足要求: //**************************************************************************// 标定误差验证//***************************************************************************#include <iostream> #include <vect

计算机教育中缺失的一课 - MIT - L2 - Shell 工具和脚本_KindergartenKing的博客-程序员资料

https://missing.csail.mit.edu/https://missing-semester-cn.github.io/https://www.bilibili.com/video/BV14E411J7n2思否主页:https://segmentfault.com/u/wine99笔记Shell 脚本特殊变量$0 - 脚本名$1 到 $9 - 脚本的参数。 $1 是第一个参数,依此类推。[email protected] - 所有参数$# - 参数个数$? - 前一个命令的返回值$$ -.

Thinking in Java 读书笔记 —— 1.Introducation to Object_jackei的博客-程序员资料

Thinking in Javaspan.foldopened { color: white; font-size: xx-small;border-width: 1; font-family: monospace; padding: 0em 0.25em 0em 0.25em; background: #e0e0e0;VISIBILITY: visible;cursor:po

Windows 平台运行spark-shell 报"java.lang.NullPointerException, not found: value sqlContext" error 解决办法_淘气小子的博客-程序员资料

错误背景描述在spark 官网下载 spark的安装版:spark-1.6.3-bin-hadoop2.6.tgz,然后解压,配好环境变量,在window下CMD下运行spark-shell,启动spark失败(本地模式)。然后搜索了一下,发现中文基本找不到什么参考资料,不过在stackoverflow上找到了解决办法,遂记录下,供国内的同学参考下 错误信息ava.lang.NullPointer

推荐文章

热门文章

相关标签