请选择 进入手机版 | 继续访问电脑版
注册忘记密码

星光编程

查看: 161|回复: 0

2019年最新好程序员Spark教程20天完整不加密版

[复制链接]

405

主题

405

帖子

2233

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
2233
发表于 2019-11-9 06:02:48 | 显示全部楼层 |阅读模式
游客,如果您要查看本帖隐藏内容请   回复

【课程大体目录】
((1, (spark, 100)), (2, (flink, 90)), (3, ....))
列出至少5个用于聚合的算子
reduceByKey、aggregate、aggregateByKey、reduce、foldByKey、countByKey、combineByKey
列出至少5个会发生shuffle的算子
byKey类的算子
重分区算子
join、cogroup
distinc
自定义排序的应用场景
day12:
Accumulator累加器的应用场景和特性以及使用过程
广播变量的应用场景
map和mapPartition区别和应用场景
foreach和foreachPartition区别和应用场景
flatMap和map区别和应用场景
day13:
DataFrame的概念
DataSet的概念
RDD、DataFrame、DataSet互相转换用到的方法
描述一下使用udf的流程
day14:
有数据文件test.txt
数据内容:
hello java hello
hello scala scala
hello python
....还有很多数据....
用SparkSQL求单词计数
将结果保存到MySQL
day15:
分区(partition)的作用?
segment的大小可以设置吗?
kafka的文件存储机制?
当consumer的数量发生变化时,会触发kafka的负载均衡,触发负载均衡的目的是什么?
如何消费已经被消费过的数据?
partition和consumer的数量关系?
生产者的分区策略?
day16:
手写Streaming应用程序,实现批次累加功能
transform的应用场景
窗口操作的应用场景
day17:
streaming消费kafka的两种方式的概念、优缺点、区别
streaming消费kafka时怎么实现一次仅一次语义(消费数据的一致性)
Spark集群启动流程
day18:
你对jvm的理解(今晚一定要总结答案,明天必须默写出来)
描述stage划分过程,将重要的对象和方法也带出来
day19:
描述Spark Shuffle过程
手写代码用SparkSQL实现WordCount
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表