Spark踩坑记——SparkStreaming Kafka

Spark踩坑记——SparkStreaming+Kafka

在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了sparkstreaming从kafka中不断拉取数据进行词频统计。...

spark踩坑记——windows环境下spark安装和运行

本文主要记录windows系统上安装spark，scala，和intelj IDEA，并实现本地spark运行。同时介绍了利用maven构建工具对spark工程构建的方法。本地运行需要本地安装scala，spark，hadoop。而如果利用maven构建工具则只...

Spark踩坑记——Spark Streaming+Kafka

前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者...本文首先对spark streaming嵌入kafka的方式进行归纳总结，之后简单阐述Spark streaming+kafka在舆情项目中的应用，最后将自己

Spark踩坑记——共享变量

目录前言累加器广播变量更新广播变量(rebroadcast) 总结参考文献前言 Spark踩坑记——初试 Spark踩坑记——数据库（Hbase+Mysql） Spark踩坑记——Spark S...

Spark一路火花带闪电——Spark踩坑记

标签： spark

文章目录踩坑记：版本号一定要正确！！！JDK一定要匹配。使用idea打包maven项目踩坑记：版本号一定要正确！！！JDK一定要匹配。我这里使用的是scala 2.11.12 和spark 2.4.1（不知道自己版本号的同学可以使用spark-...

Spark踩坑日记

一 spark-sql元数据踩坑踩坑背景：工作需要我一直常开一个spark-sql进程，然后做了一个需求是重刷某个表的分区数据，重刷任务是在airflow调度的，此时已经有两个spark-sql进程了，刷新完毕后在我常开的spark-sql中...

Spark环境搭建——standalone集群模式

标签： al AND ar ark spark Spark环境搭建 st 环境环境搭建集群集群技术

这篇博客，Alice为大家带来的是Spark集群环境搭建之——standalone集群模式。文章目录集群角色介绍集群规划修改配置并分发启动和停止查看web界面测试集群角色介绍 Spark是基于内存计算的大数据并行计算框架，...

【Spark研究】极简 Spark 入门笔记——安装和第一个回归程序

标签： spark

【Spark研究】极简 Spark 入门笔记——安装和第一个回归程序

Spark踩坑——java.lang.AbstractMethodError

Spark踩坑——java.lang.AbstractMethodError 今天新开发的Structured streaming部署到集群时，总是报这个错： SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar...

Spark环境搭建——HA高可用模式

标签： ar ark spark Spark环境搭建环境环境搭建集群技术高可用高可用模式

本篇博客，Alice为大家带来的是Spark的HA高可用环境搭建的教程。原理 Spark Standalone集群是Master-Slaves架构的集群模式，和大部分的Master-Slaves结构集群一样，存在着Master单点故障的问题。如何解决这个单点...

Spark 踩坑记录

标签： spark 大数据

Encoders.bean(Person.class...异常信息Exception in thread "main" java.lang.UnsupportedOperationException: Cannot infer type for class personal.leo.spark.Person because it is not bean-compliant 原因： Bean

Spark初级入门——Spark编程基础（一）

标签： spark scala

本节内容主要包括：RDD简介、RDD生命周期、RDD的创建、RDD的依赖关系、RDD transformation操作

Spark性能优化指南——基础篇

标签： Spark性能优化指南——基础篇

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常...

Spark性能优化指南——高级篇

标签： Spark性能优化指南——高级篇

有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。绝大多数task...

Spark初级入门——Spark编程基础（二）

标签： spark spark streaming spark安装

Spark初级入门视频教程，该课程主要包括RDD的依赖关系、RDD的生命周期、RDD transformation操作。详细讲解transformation函数的使用，方法。

Dolphinscheduler调度spark任务踩坑记录

标签： spark hdfs big data

1、关于spark调度的worker部署我在测试Dolphinscheduler时采用的是集群模式，两台机器部署master，两台机器部署worker，而hadoop和spark则是在其他的机器上部署的。在配置dolphinscheduler_env.sh文件时对如何设置...

Spark运行环境——Yarn模式

标签： spark 大数据 scala

Spark运行环境——Yarn模式

Spark课程设计——电影推荐系统

标签： spark 大数据 big data

题目所需数据集及相应信息描述：数据集： 1、用户评分数据集ratings.dat:包含了大量用户的历史评分数据。 2、样本评分数据集personalRatings.dat:包含了少数几个用户的个性化评分数据，这些数据反映了某个用户的...

MichaelG.Noll：整合Kafka到SparkStreaming——代码示例和挑战

标签： MichaelG.Noll：整合Kafka到SparkStreaming——代码示例和挑战

本文，Verisign实验室大规模数据分析基础设施的技术主管Michael通过示例对Kafka整合到SparkStreaming进行了详细讲解，更分享了该领域的现状和一些注意点。作者MichaelG.Noll是瑞士的一位工程师和研究员，效力于...

spark执行优化——依赖上传到HDFS(spark.yarn.jar和spark.yarn.archive的使用)

使用yarn的方式提交spark应用时，在没有配置spark.yarn.archive或者spark.yarn.jars时，看到输出的日志在输出Neither spark.yarn.jars nor spark.yarn.archive is set；一段指令后，会看到不停地上传本地jar到HDFS...

Spark运行环境——Windows模式

标签： hadoop 大数据分布式

Spark运行环境——Windows模式

企业spark案例 —— 出租车轨迹分析(1)

标签： spark 大数据 big data

企业spark案例 —— 出租车轨迹分析仅供学习交流使用任务描述本关任务：将出租车轨迹数据规整化，清洗掉多余的字符串。相关知识为了完成本关任务，你需要掌握：1.如何使用 SparkSQL 读取 CSV 文件，2.如何使用...

【spark】spark编程坑——foreach的坑

标签： spark foreach

文章目录前言1、代码示例二、使用步骤1.引入库2.读入数据总结前言在开发时发现一个事，rdd有foreach方法，rdd.collect... val spark = SparkSession .builder .master("local[*]") .appName("test") .getOrC

Spark——SparkContext简单分析1

标签： spark

2、SparkEnv　SparkEnv可以说是Context中非常重要的类，它维护着Spark的执行环境，包含有：serializer、RpcEnv、bloc

”Spark踩坑记——SparkStreaming Kafka“ 的搜索结果

Spark踩坑记——SparkStreaming+Kafka

spark踩坑记——windows环境下spark安装和运行

Spark踩坑记——Spark Streaming+Kafka

Spark踩坑记——共享变量

Spark一路火花带闪电——Spark踩坑记

Spark踩坑日记

Spark环境搭建——standalone集群模式

【Spark研究】极简 Spark 入门笔记——安装和第一个回归程序

Spark踩坑——java.lang.AbstractMethodError

Spark环境搭建——HA高可用模式

Spark 踩坑记录

Spark初级入门——Spark编程基础（一）

Spark性能优化指南——基础篇

Spark性能优化指南——高级篇

Spark初级入门——Spark编程基础（二）

Dolphinscheduler调度spark任务踩坑记录

Spark运行环境——Yarn模式

Spark课程设计——电影推荐系统

MichaelG.Noll：整合Kafka到SparkStreaming——代码示例和挑战

spark执行优化——依赖上传到HDFS(spark.yarn.jar和spark.yarn.archive的使用)

Spark运行环境——Windows模式

企业spark案例 —— 出租车轨迹分析(1)

【spark】spark编程坑——foreach的坑

Spark——SparkContext简单分析1

推荐文章