0737-1.6.1-CDSW分布式计算_workbench分布式计算-程序员宅基地

技术标签: Hadoop实操  

简介

Cloudera Data Science Workbench为从单个交互式会话中启动多个称为workers的引擎实例提供了基本支持。任何R或Python会话均可用于生成workers。这些工作程序可以配置为在启动时运行脚本(例如Python文件)或命令中。

可以使用 launch_workers函数。以及另外两个函数是list_workers 和 list_workers。来自所有工作程序的输出将显示在启动它们的会话的控制台中。会话退出时,这些workers将终止。

Python示例

Python分布式运算基本语法

import cdsw
workers=cdsw.launch_workers(n=2,cpu=0.2,memory=0.5,code="print('Hello from a CDSW Woker')")

  • n(int) -要启动的引擎数。
  • cpu(float) -要分配给引擎的CPU内核数。
  • 内存(float) -分配给引擎的内存的千兆字节数。
  • nvidia_gpu(int,optional) -要分配给引擎的GPU数量。
  • kernel(str,optional) -内核。可以是r、 python2、 python3或scala。
  • script(str,optional) -工作者启动后应立即执行的Python源文件的名称。
  • code(str,optional) -引擎在启动后应立即执行的Python代码。如果指定了脚本,则代码将被忽略。
  • env(dict,optional) -在引擎中设置的环境变量。

list_workers

cdsw.list_workers()

stop_worker

cdsw.stop_workers()

编辑Python文件master.py;在Master引擎中,该脚本将启动三个工作程序并接受来自Workers的传入连接。

# master.py
import cdsw, socket
# Launch two CDSW workers. These are engines that will run in 
# the same project, execute a given code or script, and exit.
workers = cdsw.launch_workers(n=3, cpu=0.2, memory=0.5, script="worker.py")
# Listen on TCP port 6000
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.bind(("0.0.0.0", 6000))
s.listen(1)
# Accept two connections, one from each worker. Workers will
# execute worker.py.
conn, addr = s.accept()
for i in range(3):
    # Receive a message from each worker and return a response.
    data = conn.recv(20)
    if not data: break
    print("Master received:", data)
    conn.send("Hello From Server!".encode())
conn.close()

编辑worker.py文件;Workers将执行脚本中的命令,并返回给Master。

# worker.py
import os, socket
# Open a TCP connection to the master.
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.connect((os.environ["CDSW_MASTER_IP"], 6000))
# Send some data and receive a response.
s.send("Hello From Worker!".encode())
data = s.recv(1024)
s.close()
print("Worker received:", data)

执行master.py,可以看到执行了三次worker.py。

R语言示例

基本语法

library("cdsw")
workers <- launch.workers(n=2,cpu=0.2,memory=0.5, env="",code="print('Hello From a CDSW Workers')")

由于解析 launch.workers函数的bug,因此定义env 参数。如果未定义env 参数,env参数在内部序列化为与Cloudera Data Science Workbench不兼容的格式。此bug不会影响Python引擎。

编写master.r文件,在Master引擎中,该脚本将启动两个工作程序并接受来自Workers的传入连接。

# master.r
library("cdsw")
# Launch two CDSW workers. These are engines that will run in 
# the same project, execute a given code or script, and exit.
workers <- launch.workers(n=2, cpu=0.2, memory=0.5, env="", script="worker.r")
# Accept two connections, one from each worker. Workers will
# execute worker.r.
for(i in c(1,2)) {
    
  # Receive a message from each worker and return a response.
  con <- socketConnection(host="0.0.0.0", port = 6000, blocking=TRUE, server=TRUE, open="r+")
  data <- readLines(con, 1)
  print(paste("Server received:", data))
  writeLines("Hello from master!", con)
  close(con)
}

编写worker.r文件;Workers将执行以下命令,并返回到Master。

# worker.r
print(Sys.getenv("CDSW_MASTER_IP"))
con <- socketConnection(host=Sys.getenv("CDSW_MASTER_IP"), port = 6000, blocking=TRUE, server=FALSE, open="r+")
write_resp <- writeLines("Hello from Worker", con)
server_resp <- readLines(con, 1)
print(paste("Worker received:  ", server_resp))
close(con)

执行master.r,可以看到执行了两次worker.r

参考文档

https://docs.cloudera.com/documentation/data-science-workbench/1-6-x/topics/cdsw_parallel_computing.html
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Hadoop_SC/article/details/104066970

智能推荐

如何使用SonarQube Scanner扫描器对代码进行扫描-程序员宅基地

文章浏览阅读3.2k次。2019独角兽企业重金招聘Python工程师标准>>> ..._代码扫描工具对转测前代码进行扫描

SQL常用语法( WITH 语句)-程序员宅基地

文章浏览阅读1.3w次,点赞6次,收藏46次。WITH语句

解决MySQL登录出现错误码10061_2008服务器登陆错误10061-程序员宅基地

文章浏览阅读2.5k次,点赞3次,收藏5次。原因: 没有启动MySQL服务解决方案:以管理员身份打开cmd命令行窗口,使用cd命令将目录切换为你MySQL的bin目录下,输入 net start mysql 启动MySQL服务即可解决此问题!!!电脑中搜索服务找到MySQL服务,启动它!管理员身份命令行窗口打开Windows快捷键: Win + X + A如果找不到MySQL服务,需要安装MySQL服务。解决的方法是用管理员的方式打开mysql安装目录bin。执行mysqld.exe -install,安装后就可以启动服务了!..._2008服务器登陆错误10061

STM32移植工程教程 包括解决Keil 一些常见的错误等等_s32ds 移植 keil startup error-程序员宅基地

文章浏览阅读2.9k次,点赞6次,收藏55次。然后打开Keil 在左边的能看到即说明添加成功 出现如图则说明添加成功编译一下,把多余的头文件删去 有6个错误 我们一般从第一个错误开始看 这里的错误 是TIM定时器的结构体没定义,但其实这些在工程里面的库函数这些都已经包含了这时候,找到stm32f10x_conf.h打开,可以看到stm32f10x_tim.h被注释掉了,这就是导致编译错误的原因,只需要删掉注释 重新编译一下即可 重新编译一下 错误就没有了有时候 会遇到引脚冲突,解决方法一修改文件里面的宏定义 更换为别的引脚解决方法二使用重定义功能_s32ds 移植 keil startup error

networkx学习与使用——(6)图划分与介数计算_边介数计算方法-程序员宅基地

文章浏览阅读6.8k次,点赞7次,收藏33次。networkx学习与使用——(5)图划分与介数计算摘要图划分例子生成介数定义及计算定义networkx计算边介数通过networkx的最短路算法实现使用networkx的内置函数计算结果分析参考摘要图划分按照一定规则将一个连通图划分成几个连通分量,看上去有点像聚类的感觉。从网络的角度,会根据一些重要的节点或边来进行划分,这里介绍划分图的指标——边介数。图划分图划分一般有两种方法,“删边法"和"聚集法”。删边法通过删除某条"重要"的边进行划分。聚集法通过将最"接近"的节点聚集起来构成不同的区域。这里_边介数计算方法

Python3读取Excel表格数据时报错:ImportError: Missing optional dependency ‘xlrd‘. Install xlrd >= 1.0.0 for Exc_install xlrd >= 1.0.0 for excel support-程序员宅基地

文章浏览阅读388次。ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use_install xlrd >= 1.0.0 for excel support

随便推点

Win10的WLAN网络共享给以太网(Ubuntu)_wifi共享给以太网-程序员宅基地

文章浏览阅读3.5k次。Win10的WLAN网络共享给Ubuntu实验室有一台比较老的机子,没有无线网卡,而且正好最长的一根网线水晶头坏掉了,装上Ubuntu上发现上不了网,正好看到旁边的笔记本(装的Win10),于是就萌生了使用WLAN将网络共享过来的想法。在网上查了些资料也遇到了一些坑,这里给大家分享一下。1、右键 打开“网络和Internet”设置2、打开 网络和共享中心3、点击 更改适配器设置4、在WLAN连接的情况下,右键选择属性 点开共享勾选允许其他网络用户通过此计算机的Internet连接来连接,_wifi共享给以太网

国网站直接SHOPPING经验之总结, 和美国代购说拜拜~~新加 如何注册PAYPAL~~~~-程序员宅基地

文章浏览阅读5.6w次。 不披马甲没几年 发表于 2009-06-15 23:03[引用]非常感谢众多JMS对本贴的支持和关心~~~ 也感谢 棍子鱼 管理员, 将原先的COPY发给偶, 使本贴重生~~~~申明!!! 本贴无任何商业目的, 不组织团购, 不参与代购!!! 血拼的同时大家也要按时偿还信用卡, 坚决不做卡奴!!!互联网的初衷是什么?? 就是资源共享~~~在经济危机的年代,

int数组、char数组理解,int8_t、int16_t、int32_t、int64_t、uint8_t、size_t、ssize_t区别_int16_t数组-程序员宅基地

文章浏览阅读2.9k次。这是根据需要决定的。用 char 时,数组每个元素的 字长与存储单元 是1个byte,(16进制2位,2进制8位), 用int时,数组每个元素的 字长与存储单元 是4个byte,(16进制8位,2进制32位)。现存放 16进制2位数,例如 0x3f, 0x06 之类,用 char 型足够了。若改用 int 型 当然也可以,只是浪费了 存储空间,因数位多,运算,读写 也要多费时间。..._int16_t数组

1024 程序员节|用代码,改变世界_编程改变世界-程序员宅基地

文章浏览阅读583次。1024程序员节_编程改变世界

JavaWeb快速入门--Tomcat-程序员宅基地

文章浏览阅读593次,点赞29次,收藏9次。Tomcat 服务器是一个开源的轻量级Web应用服务器,在中小型系统和并发量小的场合下被普遍使用,是开发和调试Servlet、JSP 程序的首选。web服务器软件:首先,我们知道JavaWeb是一个典型的浏览器/服务器(B/S)架构,一般情况下,我们在进行Web开发时,不止要搭建Web的开发环境,还需要对服务器端进行响应的配置。服务器:安装了服务器软件的计算机服务器软件:用来接收和处理用户的请求,并做出响应的软件。

R 与 RStudio:安装和入门使用-程序员宅基地

文章浏览阅读181次。R 与 RStudio:安装和入门使用R 是一种强大的编程语言和环境,广泛用于数据分析和统计建模。RStudio 是一个用于 R 的集成开发环境(IDE),提供了方便的代码编写、调试和可视化工具。本文将向您介绍如何安装 R 和 RStudio,并提供一些入门使用 R 语言的示例代码。

推荐文章

热门文章

相关标签