技术标签: cloudera mapreduce hdfs hadoop sqoop 大数据
由于公司项目业务需求,需要将两个项目的大数据平台进行迁移,业务数据进行跨平台平移。
前提(大数据平台之间网络互通)
①将Hive数据通过MR写到其他Linux文件夹中:
hive> insert overwrite local directory '/usr/test' select * from test;
上述是通过MR任务计算!
② 通过Linux原生SCP拷贝
将本机文件复制到远程服务器上
scp /home/test/* [email protected]:/usr/local
/user/test/ 本地文件的绝对路径
new.txt 要复制到服务器上的本地文件
root 通过root用户登录到远程服务器(也可以使用其他拥有同等权限的用户)
192.168.1.1 远程服务器的ip地址(也可以使用域名或机器名)
/usr/local 将本地文件复制到位于远程服务器上的路径(提供指定文件地址)
[服务器2]创建Hive外表,其中外表的(location)地址远程指向迁移地址[服务器1]数据的(location)地址,
在我们的Hive中创建Hive外部引用表,将引用路径指向需要迁移的服务器地址
注意:
[保证数据必须TextFile文件格式(Orc等压缩文件格无用),可以将压缩表数据插入非压缩表中insert ****** select ******]
第一步:拷贝服务器2host地址,粘贴在本地Host 做好映射
第一步:创建External外表
CREATE External TABLE TEST(
id String,
id1 String,
id2 String
)location 'hdfs://bigdata/test/data';
bigdata 为IP地址别名 必须为主节点
/test/data 数据存储地址
注意:
访问IP:50070端口 查看是否是主节点! 如果是备用节点就不支持,切记要切换
在本地建表,直接查询,即可查询远端数据
通过insert into My_test Select * from test;
将远端数据插入到本地! 在我们测试环境,亲测方案可行
方案要求:远程指向的IP必须为active模式,IP地址,端口都可以进行连接, 拥有权限,对两服务器之间网络要求高!
Distcp最常用于在集群之间的拷贝:
实例:
hadoop distcp hdfs://nn1:8020/source hdfs://nn2:8020/destination
注意:
nn1:(服务器1活跃NM节点的IP)
nn2:(服务器2活跃NM节点的IP)
上述命令会把nn1集群的/source目录下的所有文件或目录展开并存储到一个临时文件中,这些文件内容的拷贝工作被分配给多个map任务,
然后每个NodeManager分别执行从nn1到nn2的拷贝操作。【拷贝到的服务器不需要创建文件夹】
注意:DistCp使用绝对路径进行操作。
命令行中还可以指定多个源目录:
hadoop distcp hdfs://nn1:8020/source/a hdfs://nn1:8020/source/b hdfs://nn2:8020/destination
方案要求:上述实现基于Hdoop 的MR任务实现,对端口,网络有要求,在本地测试环境亲测方案可行
文章浏览阅读1w次,点赞9次,收藏50次。table数据类型使用来取代statistics toolbox中的dataset的,可以生成带有表头的表格数据。_matlab table类型
文章浏览阅读3.5k次。简介:当我们更换了电脑设备,或者需要对数据进行备份时,就可以使用这款易我电脑迁移软件来进行数据迁移的操作,软件功能强大实用,能够帮助用户快速将旧设备中的数据转移到新设备中,非常的快捷并且方便,转换过程中不会对数据造成损坏或丢失,用户可以放心使用。软件功能:转移您的数据并使用新的电脑如果您换了新电脑,有一些东西,尤其是应用程序和大文件需要从旧电脑移动到新电脑,易我数据传输可以协助将数据、应用程序、用户设置传输到新电脑,省去重装的麻烦。安全转移所有内容免费的数据传输软件帮助您将应用程序、文件、设置_易我电脑迁移许可码
文章浏览阅读1.2k次。1. 迭代# -*- coding: utf-8 -*-__autor__ = "TOM"name_list = ["Tom1","Tom2"] # 常用for循环遍历listfor name in name_list: print(name)name_tuple = ("Tom3","Tom4") # tuple也可以遍历;for name in name..._to_2tuple
文章浏览阅读729次。本人小白,跟着b站尚硅谷学springbootSpringBoot视频教程(idea版)_2018_Java视频_spring boot_springboot核心篇+…https://www.bilibili.com/video/av38657363/?p=5视频p05新建maven项目后,在导入maven的spring jar包依赖时报错1.一开始无法导入报错:Unable to import ..._org.springframework.boot:spring-boot-starter-parent:pom:1.5.9.release failed
文章浏览阅读496次。Web服务器作用是接收客户端(浏览器)的请求,给客户端作出响应。JavaWeb服务器常用有:Tomcat(Apache):应用很广的JavaWeb服务器JBoss(红帽):支持JavaEEWebsphere(IBM):支持JavaEE,适合大型项目。(收费)Weblogic(Orcale):支持JavaEE,适合大型项目。(收费)Tomcat服务器是Apache提供,开源免费。..._tomcat 挖包
文章浏览阅读552次。http://blog.jobbole.com/72365/
文章浏览阅读2.5k次,点赞4次,收藏17次。本文包含以下内容:利用索引空间查询SQL示例有效地使用PostGIS需要知道哪些空间功能可用,并确保适当的索引可用以提供良好的性能。这些示例中使用的SRID 312仅用于演示。您应该使用spatial_ref_sys表中列出的REAL SRID,并使用与数据投影相匹配的REAL SRID。如果数据未指定空间参考系统,则应仔细考虑为什么没有这样做,也许应该这样做。如果是因为要建模的对象没有定义地理空间参考系统,例如分子的内部结构或尚未建造的游乐园的平面图,那很好。但是,如果已经计划了游乐园的位置_postgis求公路长度最大值
文章浏览阅读4.2k次,点赞8次,收藏34次。pyqt小记 | 侧边栏(QListWidget+QStackedWidget)实现效果思路左边是listwidget,右边是stackedwidget。点击listwidget的不同item,跳转到stackedwidget不同的页面。最后通过qss美化。实现初始化界面def init_leftWidget(self): # self.leftFrame是父组件 self.leftFrame_HLayout = QtWidgets.QHBoxLayout(self._pyqt中如何实现想ubuntu那样的侧边栏
文章浏览阅读1.2w次。VScode中Javascript使用TypeScript文件实现智能提示其实智能提示就是引用库,从而智能提示库中的各类成员 VsCode在JavaScript项目中链接或配置TypeScript文件类型(即*.d.ts文件),来实现智能提示,因此我们可以自己编写(根据TypeScript语言规范重新编写已有的JavaScript文件库)或者利用别人编写好的TypeScript文件。 下面..._让js获得类似ts的代码提示
文章浏览阅读2.6k次。RADASM默认使用的调试器OllyDBG无法正常调试这类应用程序。 NASM编译DOS应用程序成obj文件,这时需要下载一个链接程序。我使用masm6.15内的link.exe 来链接。 贴出RADASM的NASM配置文件nasm.ini的部分内容,如果你的NASM和emu8086的位置和我的不一样,可以自行修改。 好了,开始你的操作系统学习之路吧。 [Paths]_emu8086 兼容masm nasm
文章浏览阅读1.9w次。下拉框中有内容,如A,B,C,当选A时文本框出现,当选B时,文本框消失,高手帮帮忙! 控制文本框的显示隐藏function Other_sel(CName,TextID){ if (document.FormName.CName.checked == true) { document.getElementById(TextID).st_jsp页面下拉框选择后隐藏其他输入框
文章浏览阅读777次,点赞4次,收藏8次。Jenkins在日常工作中是一个非常重要的角色,帮助我们节省了大量构建的时间,俗话说的好自己动手丰衣足食,所以本文就从0开始搭建属于自己的Jenkins持续平台。主要包含,普通项目构建、流水线构建、多分支流水线构建并将构建结果辅以钉钉通知。_jenkins 跳板机多个端口