北风网项目实战培训第36讲-Spark核心编程:RDD持久化详解讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD
北风网项目实战培训Spark性能优化:对多次使用的RDD进行持久化或Checkpoint讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)如果程序中,对某一个RDD,基于它进行了多次transformation或者action操作。那么就非常有必要对其进行持久化操作,以避免对一个RDD反复进行计算。此外,如果要保证在RDD的持久化数据可能丢失的情况下,还要保证高性能,那
北风网项目实战培训第31讲-Spark核心编程:Spark架构原理讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)1、Driver2、Master3、Worker4、Executor5、Task Spark架构原理欢迎访问我们的官方
北风网大数据实战培训第166讲-Spark核心编程进阶-spark算子的闭包原理详解讲师:中华石杉Spark从入门到精通:Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端欢迎访问我们的官方
北风网项目实战培训第40讲-Spark核心编程:高级编程之topn讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)1、对文本文件内的数字,取最大的前3个。2、对每个班级内的学生成绩,取出前3名。(分组取topn)3、课后作用:用Scala来实现分组取topn。 案例需求欢迎访问我们的官方
北风网项目实战培训第39讲-Spark核心编程:高级编程之二次排序讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)1、按照文件中的第一列排序。2、如果第一列相同,则按照第二列排序。 案例需求欢迎访问我们的官方
北风网项目实战培训第34讲-Spark核心编程:transformation操作开发实战讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)1、map:将集合中每个元素乘以22、filter:过滤出集合中的偶数3、flatMap:将行拆分为单词4、groupByKey:将每个班级的成绩进行分组5、reduceByKey:统计每个班级的总分6、sortByKey:将学生分数
北风网项目实战培训第35讲-Spark核心编程:action操作开发实战讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)1、reduce:2、collect:3、count:4、take:5、saveAsTextFile:6、countByKey:7、foreach: action操作开发实战欢迎访问我们的官方
北风网项目实战培训第37讲-Spark核心编程:共享变量(Broadcast Variable和Accumulator)讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)Spark一个非常重要的特性就是共享变量。默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task
北风网项目实战培训第30讲-Spark核心编程:wordcount程序原理深度剖析讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)val conf = new SparkConf()setAppName(WordCount)val sc = new JavaSparkContext(conf)val lines = (hdfs://spark1:9000/)val w
违法有害信息,请在下方选择原因提交举报