Hadoop大数据平台数据迁移方案(跨集群)_hadoop跨集群数据迁移-程序员宅基地

技术标签: cloudera  mapreduce  hdfs  hadoop  sqoop  大数据  

1、准备大数据平台迁移工作

        由于公司项目业务需求,需要将两个项目的大数据平台进行迁移,业务数据进行跨平台平移。

前提(大数据平台之间网络互通)

第一种方案(Linux原生远程Shell命令拷贝)

①将Hive数据通过MR写到其他Linux文件夹中:

hive> insert overwrite local directory '/usr/test' select * from test;
上述是通过MR任务计算!

②    通过Linux原生SCP拷贝
将本机文件复制到远程服务器上

scp /home/test/* [email protected]:/usr/local

/user/test/              本地文件的绝对路径
new.txt                  要复制到服务器上的本地文件
root                     通过root用户登录到远程服务器(也可以使用其他拥有同等权限的用户)
192.168.1.1              远程服务器的ip地址(也可以使用域名或机器名)
/usr/local               将本地文件复制到位于远程服务器上的路径(提供指定文件地址)

第二种方案 Hive外表远程引用(远程指向)

[服务器2]创建Hive外表,其中外表的(location)地址远程指向迁移地址[服务器1]数据的(location)地址,
在我们的Hive中创建Hive外部引用表,将引用路径指向需要迁移的服务器地址 

注意:

[保证数据必须TextFile文件格式(Orc等压缩文件格无用),可以将压缩表数据插入非压缩表中insert ****** select ******]

第一步:拷贝服务器2host地址,粘贴在本地Host 做好映射
第一步:创建External外表
CREATE External TABLE TEST(
id String,
id1 String,
id2 String
)location 'hdfs://bigdata/test/data';

bigdata 为IP地址别名  必须为主节点
/test/data   数据存储地址

注意:

访问IP:50070端口 查看是否是主节点! 如果是备用节点就不支持,切记要切换

在本地建表,直接查询,即可查询远端数据
通过insert into My_test  Select * from test;
将远端数据插入到本地! 在我们测试环境,亲测方案可行
方案要求:远程指向的IP必须为active模式,IP地址,端口都可以进行连接, 拥有权限,对两服务器之间网络要求高!

第三种方案:使用Hadoop集群叫远程拷贝Distcp命令

Distcp最常用于在集群之间的拷贝:

实例:

hadoop distcp hdfs://nn1:8020/source hdfs://nn2:8020/destination

注意:

nn1:(服务器1活跃NM节点的IP)

nn2:(服务器2活跃NM节点的IP)

上述命令会把nn1集群的/source目录下的所有文件或目录展开并存储到一个临时文件中,这些文件内容的拷贝工作被分配给多个map任务,
然后每个NodeManager分别执行从nn1到nn2的拷贝操作。【拷贝到的服务器不需要创建文件夹】
注意:DistCp使用绝对路径进行操作。
命令行中还可以指定多个源目录:

hadoop distcp hdfs://nn1:8020/source/a hdfs://nn1:8020/source/b hdfs://nn2:8020/destination

方案要求:上述实现基于Hdoop 的MR任务实现,对端口,网络有要求,在本地测试环境亲测方案可行

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_38822045/article/details/106053217

智能推荐

MATLAB 高级数据类型 table_matlab table类型-程序员宅基地

文章浏览阅读1w次,点赞9次,收藏50次。table数据类型使用来取代statistics toolbox中的dataset的,可以生成带有表头的表格数据。_matlab table类型

易我电脑迁移 v12.2_易我电脑迁移许可码-程序员宅基地

文章浏览阅读3.5k次。简介:当我们更换了电脑设备,或者需要对数据进行备份时,就可以使用这款易我电脑迁移软件来进行数据迁移的操作,软件功能强大实用,能够帮助用户快速将旧设备中的数据转移到新设备中,非常的快捷并且方便,转换过程中不会对数据造成损坏或丢失,用户可以放心使用。软件功能:转移您的数据并使用新的电脑如果您换了新电脑,有一些东西,尤其是应用程序和大文件需要从旧电脑移动到新电脑,易我数据传输可以协助将数据、应用程序、用户设置传输到新电脑,省去重装的麻烦。安全转移所有内容免费的数据传输软件帮助您将应用程序、文件、设置_易我电脑迁移许可码

Python Collections 模块 - 2 Tuple功能详解_to_2tuple-程序员宅基地

文章浏览阅读1.2k次。1. 迭代# -*- coding: utf-8 -*-__autor__ = "TOM"name_list = ["Tom1","Tom2"] # 常用for循环遍历listfor name in name_list: print(name)name_tuple = ("Tom3","Tom4") # tuple也可以遍历;for name in name..._to_2tuple

springboot导入项目依赖报错_新建maven springboot项目遇到依赖jar包无法导入问题经验总结-Go语言中文社区...-程序员宅基地

文章浏览阅读729次。本人小白,跟着b站尚硅谷学springbootSpringBoot视频教程(idea版)_2018_Java视频_spring boot_springboot核心篇+…https://www.bilibili.com/video/av38657363/?p=5视频p05新建maven项目后,在导入maven的spring jar包依赖时报错1.一开始无法导入报错:Unable to import ..._org.springframework.boot:spring-boot-starter-parent:pom:1.5.9.release failed

Tomcat服务器安装和使用_tomcat 挖包-程序员宅基地

文章浏览阅读496次。Web服务器作用是接收客户端(浏览器)的请求,给客户端作出响应。JavaWeb服务器常用有:Tomcat(Apache):应用很广的JavaWeb服务器JBoss(红帽):支持JavaEEWebsphere(IBM):支持JavaEE,适合大型项目。(收费)Weblogic(Orcale):支持JavaEE,适合大型项目。(收费)Tomcat服务器是Apache提供,开源免费。..._tomcat 挖包

国外程序员推荐:每个程序员都应该读的非编程书-程序员宅基地

文章浏览阅读552次。http://blog.jobbole.com/72365/

随便推点

PostGIS数据库中的几种复杂查询举例_postgis求公路长度最大值-程序员宅基地

文章浏览阅读2.5k次,点赞4次,收藏17次。本文包含以下内容:利用索引空间查询SQL示例有效地使用PostGIS需要知道哪些空间功能可用,并确保适当的索引可用以提供良好的性能。这些示例中使用的SRID 312仅用于演示。您应该使用spatial_ref_sys表中列出的REAL SRID,并使用与数据投影相匹配的REAL SRID。如果数据未指定空间参考系统,则应仔细考虑为什么没有这样做,也许应该这样做。如果是因为要建模的对象没有定义地理空间参考系统,例如分子的内部结构或尚未建造的游乐园的平面图,那很好。但是,如果已经计划了游乐园的位置_postgis求公路长度最大值

pyqt小记 | 侧边栏(QListWidget+QStackedWidget)实现_pyqt中如何实现想ubuntu那样的侧边栏-程序员宅基地

文章浏览阅读4.2k次,点赞8次,收藏34次。pyqt小记 | 侧边栏(QListWidget+QStackedWidget)实现效果思路左边是listwidget,右边是stackedwidget。点击listwidget的不同item,跳转到stackedwidget不同的页面。最后通过qss美化。实现初始化界面def init_leftWidget(self): # self.leftFrame是父组件 self.leftFrame_HLayout = QtWidgets.QHBoxLayout(self._pyqt中如何实现想ubuntu那样的侧边栏

VScode中Javascript使用TypeScript文件实现智能提示_让js获得类似ts的代码提示-程序员宅基地

文章浏览阅读1.2w次。VScode中Javascript使用TypeScript文件实现智能提示其实智能提示就是引用库,从而智能提示库中的各类成员 VsCode在JavaScript项目中链接或配置TypeScript文件类型(即*.d.ts文件),来实现智能提示,因此我们可以自己编写(根据TypeScript语言规范重新编写已有的JavaScript文件库)或者利用别人编写好的TypeScript文件。 下面..._让js获得类似ts的代码提示

radasm+nasm+emu8086环境搭建_emu8086 兼容masm nasm-程序员宅基地

文章浏览阅读2.6k次。RADASM默认使用的调试器OllyDBG无法正常调试这类应用程序。 NASM编译DOS应用程序成obj文件,这时需要下载一个链接程序。我使用masm6.15内的link.exe 来链接。 贴出RADASM的NASM配置文件nasm.ini的部分内容,如果你的NASM和emu8086的位置和我的不一样,可以自行修改。 好了,开始你的操作系统学习之路吧。 [Paths]_emu8086 兼容masm nasm

JS实现用下拉框控制文本框的显示与隐藏?_jsp页面下拉框选择后隐藏其他输入框-程序员宅基地

文章浏览阅读1.9w次。下拉框中有内容,如A,B,C,当选A时文本框出现,当选B时,文本框消失,高手帮帮忙! 控制文本框的显示隐藏function Other_sel(CName,TextID){ if (document.FormName.CName.checked == true) { document.getElementById(TextID).st_jsp页面下拉框选择后隐藏其他输入框

从0搭建属于自己的Jenkins持续集成平台_jenkins 跳板机多个端口-程序员宅基地

文章浏览阅读777次,点赞4次,收藏8次。Jenkins在日常工作中是一个非常重要的角色,帮助我们节省了大量构建的时间,俗话说的好自己动手丰衣足食,所以本文就从0开始搭建属于自己的Jenkins持续平台。主要包含,普通项目构建、流水线构建、多分支流水线构建并将构建结果辅以钉钉通知。_jenkins 跳板机多个端口

推荐文章

热门文章

相关标签