大桔灯文库logo

下载提示:1. 本站不保证资源下载的准确性、安全性和完整性,同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
2. 本文档由用户上传,版权归属用户,大桔灯负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。

相关文档

  • 061_Spark_.ppt

    北风网项目实战培训Spark性能优化:高性能序列化类库讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)在任何分布式系统中,序列化都是扮演着一个重要的角色的。如果使用的序列化技术,在执行序列化操作的时候很慢,或者是序列化后的数据还是很大,那么会让分布式应用程序的性能下降很多。所以,进行Spark性能优化的第一步,就是进行序列化的性能优化。Spark自身默认就会在一些地方

  • 070_Spark_shuffle.ppt

    北风网项目实战培训Spark性能优化:shuffle性能优化讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)new SparkConf()set(, true):是否开启shuffle block file的合并,默认为false:reduce task的拉取缓存,默认48m:map task的写磁盘缓存,默认32k:拉取失败的最大重试次数,默认3次:拉取失败的重试间

  • 059_Spark_概览.ppt

    北风网项目实战培训Spark性能优化:性能优化概览讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)由于Spark的计算本质是基于内存的,所以Spark性能程序的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者是内存。如果内存能够容纳得下所有的数据,那么网络传输和通信就会导致性能出现瓶颈。但是如果内存比较紧张,不足以放下所有的数据(比如在针对10亿以上的数据

  • 064_Spark_使用的持久级别.ppt

    北风网项目实战培训Spark性能优化:使用序列化的持久化级别讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)除了对多次使用的RDD进行持久化操作之外,还可以进一步优化其性能。因为很有可能,RDD的数据是持久化到内存,或者磁盘中的。那么,此时,如果内存大小不是特别充足,完全可以使用序列化的持久化级别,比如MEMORY_ONLY_SER、MEMORY_AND_DISK_S

  • 066_Spark_提并行度.ppt

    北风网项目实战培训Spark性能优化:提高并行度讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)实际上Spark集群的资源并不一定会被充分利用到,所以要尽量设置合理的并行度,来充分地利用集群的资源。才能充分提高Spark应用程序的性能。Spark会自动设置以文件作为输入源的RDD的并行度,依据其大小,比如HDFS,就会给每一个block创建一个partition,也依

  • 069_Spark_reduceByKey和groupByKey.ppt

    北风网项目实战培训Spark性能优化:reduceByKey和groupByKey讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)val counts = (_ + _)val counts = ()map(wordCounts = (wordCounts_1, wordCounts_))如果能用reduceByKey,那就用reduceByKey,因为它会在map端

  • 062_Spark_数据结构.ppt

    北风网项目实战培训Spark性能优化:优化数据结构讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)要减少内存的消耗,除了使用高效的序列化类库以外,还有一个很重要的事情,就是优化数据结构。从而避免Java语法特性中所导致的额外内存的开销,比如基于指针的Java数据结构,以及包装类型。有一个关键的问题,就是优化什么数据结构?其实主要就是优化你的算子函数,内部使用到的局部数

  • 068_Spark_数据本地.ppt

    北风网项目实战培训Spark性能优化:数据本地化讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)数据本地化对于Spark Job性能有着巨大的影响。如果数据以及要计算它的代码是在一起的,那么性能当然会非常高。但是,如果数据和计算它的代码是分开的,那么其中之一必须到另外一方的机器上。通常来说,移动代码到其他节点,会比移动数据到代码所在的节点上去,速度要快得多,因为代码比

  • 067_Spark_广播共享数据.ppt

    北风网项目实战培训Spark性能优化:广播共享数据讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)如果你的算子函数中,使用到了特别大的数据,那么,这个时候,推荐将该数据进行广播。这样的话,就不至于将一个大数据拷贝到每一个task上去。而是给每个节点拷贝一份,然后节点上的task共享该数据。这样的话,就可以减少大数据在节点上的内存消耗。并且可以减少数据到节点的网络传输消耗。 广播共享数据欢迎访问我们的官方

  • 060_Spark_诊断内存的消耗.ppt

    北风网项目实战培训Spark性能优化:诊断内存的消耗讲师:中华石杉Spark从入门到精通(案例实战、高级特性、内核源码、性能调优)1、每个Java对象,都有一个对象头,会占用16个字节,主要是包括了一些对象的元信息,比如指向它的类的指针。如果一个对象本身很小,比如就包括了一个int类型的field,那么它的对象头实际上比对象自己还要大。2、Java的String对象,会比它内部的原始数据,要多出4

违规举报

违法有害信息,请在下方选择原因提交举报


客服

顶部