Spark之Spark Streaming_spark streaming filestream-程序员宅基地

技术标签： Spark

Spark Streaming简介

Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地方，如HDFS，数据库等。另外Spark Streaming也能和MLlib（机器学习）以及Graphx完美融合。

和Spark基于RDD的概念很相似，Spark Streaming使用离散化流(discretized stream)作为抽象表示，叫作DStream。DStream 是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为 RDD 存在，而 DStream 是由这些 RDD 所组成的序列(因此得名“离散化”)。

DStream 可以从各种输入源创建，比如 Flume、Kafka 或者 HDFS。创建出来的DStream 支持两种操作，一种是转化操作(transformation)，会生成一个新的DStream，另一种是输出操作(output operation)，可以把数据写入外部系统中。DStream 提供了许多与 RDD 所支持的操作相类似的操作支持，还增加了与时间相关的新操作，比如滑动窗口。

Spark Streaming简介
1、SPark Streaming是Spark中一个组件，基于Spark Core进行构建，用于对流式进行处理，类似于Storm。
2、Spark Streaming能够和Spark Core、Spark SQL来进行混合编程。
3、Spark Streaming主要关注：
1、Spark Streaming 能接受什么数据？ kafka、flume、HDFS、Twitter等。
2、Spark Streaming 能怎么处理数据？无状态的转换（前面处理的数据和后面处理的数据没啥关系）、有转换转换（前面处理的数据和后面处理的数据是有关系的，比如叠加关系）

Spark Streaming实现
1、Spark Streaming 采用“微批次”架构。
2、对于整个流式计算来说，数据流你可以想象成水流，微批次架构的意思就是将水流按照用户设定的时间间隔分割为多个水流段。一个段的水会在Spark中转换成为一个RDD，所以对水流的操作也就是对这些分割后的RDD进行单独的操作。每一个RDD的操作都可以认为是一个小的批处理（也就是离线处理）。

Spark Streaming DStream简介
1、DStream是类似于RDD和DataFrame的针对流式计算的抽象类。在源码中DStream是通过HashMap来保存他所管理的数据流的。K是RDD中数据流的时间，V是包含数据流的RDD。
2、对于DStream的操作也就是对于DStream他所包含的所有以时间序列排序的RDD的操作。

Spark Streaming 用法
1、通过StreamingContext来进入Spark Streaming。可以通过已经创建好的SparkContext来创建SparkStreaming。

scala> val ssc = new StreamingContext(sc, Seconds(1))

Spark Streaming 的输入

1、文件数据源
1、Spark Streaming通过streamingContext.fileStream[KeyClass, ValueClass, InputFormatClass](dataDirectory) 这个方法提供了对目录下文件数据源的支持。
2、如果文件是比较简单的文本文件，可以使用 streamingContext.textFileStream(dataDirectory) 来代替。

scala> val lines = ssc.textFileStream("hdfs://master01:9000/data/")

3、文件数据源目前不支持嵌套目录：
1、文件需要有相同的数据格式
2、文件进入 dataDirectory的方式需要通过移动或者重命名来实现
3、一旦文件移动进目录，则不能再修改，即便修改了也不会读取新数据。

2、自定义Receiver
1、需要新建一个Class去继承Receiver，并给Receiver传入一个类型参数，该类型参数是你需要接收的数据的类型。
2、需要去复写Receiver的方法： onStart方法（在Receiver启动的时候调用的方法）、onStop方法（在Receiver正常停止的情况下调用的方法）
3、可以在程序中通过streamingContext.receiverStream( new CustomeReceiver)来调用你定制化的Receiver。

3、RDD数据源
1、可以通过StreamingContext.queueStream(rddQueue)这个方法来监控一个RDD的队列，所有加入到这个RDD队列中的新的RDD，都会被Streaming去处理。

4、Spark Streaming和Kafka的集成

本文链接：https://blog.csdn.net/weixin_43241054/article/details/97568825

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

2022哈工大计算机系统大作业_郭仁恺-程序员宅基地

文章浏览阅读265次。摘要本文分析了hello程序的整个运行生命周期。首先编写hello.c源程序，之后运行C预处理器对其进行预处理，得到hello.i文件，运行C编译器将翻译生成汇编语言文件hello.s，然后运行汇编器将其翻译成一个可重定位目标文件hello.o，最后运行链接器程序将hello.o和系统目标文件组合起来，就可以创建一个可执行目标文件hello。在shell接收到输入的./hello的指令后开始调用fork函数创建进程，execve加载hello进入内存，由CPU控制程序逻辑流的运行，中断，上下文切换和._郭仁恺

【C/C++】JAVA与C/C++ AES加密算法同步_botan c++ aes java 互通-程序员宅基地

文章浏览阅读4.6k次。此处我们使用的是AES的基础加密模式，即：电码本模式 ECBJAVA代码如下： //创建AES加密实例 SecretKeySpec skeySpec = new SecretKeySpec(keyBytes, "AES"); Cipher cip = Cipher.getInstance("AES/ECB/NoPadding");//算法/模式/补码方式 cip.init(C_botan c++ aes java 互通

民工哥折腾了2年多的《Linux系统运维指南》终于和大家见面了_linux系统运维指南:从入门到企业实战 pdf-程序员宅基地

文章浏览阅读2.5k次，点赞5次，收藏17次。2018年3月，我与张老师就这么在微信上聊了起来，起初我并没有写书的打算，我们之间只是通过讨论、交流的形式聊聊关于出书的方方面面。最终，敌不过张老师超强的专业能力、细致的解说与盛情相邀，我答应张老师写一本Linux系统运维的图书并由人邮出版。由此，我踏上了漫漫2年多的写书之路。为什么写这本书写书一方面是我对自己所学知识的查漏补缺过程，另一方面也可以向即将进入或已经入行的Linux系统运维同..._linux系统运维指南:从入门到企业实战 pdf

tf.reduce_sum()方法深度解析-程序员宅基地

文章浏览阅读2k次，点赞6次，收藏5次。tf.reduce_sum()函数深度解析从矩阵，数组，数据存储的角度解析axis参数的意义_tf.reduce_sum

adb获取app包名的方法_adb获取包名-程序员宅基地

文章浏览阅读9.8k次，点赞4次，收藏29次。adb获取app包名的方法_adb获取包名

虾皮、lazada店铺运营攻略，如何搭建高效、稳定的自养号测评系统-程序员宅基地

文章浏览阅读913次，点赞16次，收藏10次。总之，要做好虾皮店铺，不仅需要明确的定位和优质的产品，还需要精心的运营和持续的改进。通过不断优化店铺形象、制定有效的营销策略、提供优质的客户服务以及加强供应链管理等手段，您将能够在激烈的竞争中脱颖而出，实现店铺的长足发展。1.稳定的网络环境是基石，它需要经过技术手段的洗礼，将电脑或手机的底层硬件参数伪装成国外数据，以躲避平台通过IP进行的深度检测。这种真实性高的评价能够帮助商家获得更多的信任和认可，从而提升产品的排名和流量的分配。您可以关注行业动态，学习先进的经营理念和技术，以提高店铺的运营水平。

随便推点

hadoop大数据-HDFS分布式文件系统及高可用_hdfs实现高可用文件存储-程序员宅基地

文章浏览阅读2k次，点赞2次，收藏9次。系列文章目录hadoop大数据-HDFS分布式文件系统hadoop大数据-HDFS分布式文件系统系列文章目录一、hadoop简介二、Hadoop的搭建2.1本地独立模式2.1伪分布式模式的搭建完成分布式的搭建完全分布式的环境搭建完全分布式的配置hadoop结点扩容四、HDFS工作原理一、hadoop简介大数据主要两个点：分布式存储以及分布式计算，基本上计算的调度跟着存储走，因为迁移存储的成本高于计算大数据是个生态，本次学习Hadoop的HDFS分布式文件系统MapReduce离线计算GF_hdfs实现高可用文件存储

【合集】常见中间件漏洞_hrs中间件-程序员宅基地

文章浏览阅读2.9k次，点赞3次，收藏37次。1. IIS1. PUT漏洞用户配置不当，exp:https://github.com/hackping/HTTPMLScan.git2. 短文件名猜解IIS的短文件名机制，可以暴力猜解短文件名，访问构造的某个存在的短文件名，会返回404，访问构造的某个不存在的短文件名，返回400。exp:https://github.com/WebBreacher/tilde_enum3.远程代码执行(CVE-2017-7269))**exp**:https://github.com/zcgonv_hrs中间件

db2基本概念-程序员宅基地

文章浏览阅读368次。DB2支持以下两种类型的表空间： 1、系统管理存储器表空间（SMS-SYSTEM MANAGED STORAGE） 2、数据库管理存储器表空间（DMS-DATABASE MANAGED STORAGE） SMS、DMS用户表空间的特性对照特性 ..._db2

模拟window桌面实现-程序员宅基地

文章浏览阅读84次。正在开发中的游戏有个全屏功能--可以在window桌面背景上运行，就像一些视频播放器在桌面背景上播放一样的，花了个上午整了个Demo放出来留个纪念。实现功能：显示图标，双击图标执行相应的程序，右击图标弹出该图标对应得菜单，点击非图标区则弹出桌面菜单。需要完整工程可以点此下载：DesktopWindow.rar。程序效果图如下：在这个程序里，定义了一个XShellItem..._模拟实现windows桌面效果

https://www.byhy.net/tut/webdev/django/01/-程序员宅基地

文章浏览阅读944次。https://www.byhy.net/tut/webdev/django/01/_byhy.net

vue玩转移动端H5微信支付和支付宝支付_移动端支付宝微信支付vue项目怎么写-程序员宅基地

文章浏览阅读5.8k次，点赞13次，收藏57次。业务场景介绍：H5移动端支持微信支付 [ 微信支付分为微信内支付（JSAPI支付官方API）和微信外支付（H5支付官方API）] && 支付宝支付 [手机网站支付转 APP 支付官方API ]订单生成逻辑：前端请求后端提交订单，后端去和微信或者支付宝对接生成订单（后续支付都是这个逻辑进行的对接）一、移动端微信支付，vue中如何玩？在移动端微信支付分为微信内支付和微信外支付。1.在订单组件中选择支付方式之后在支付页面先去判断是否是在微信内：//判断是否微信 is__移动端支付宝微信支付vue项目怎么写