|
|
51CTO旗下网站
|
|
移动端

Spark调优的关键—RDD Cache缓存使用详解

Spark的开发调优有一个原则,即对多次使用的RDD进行持久化。如果要对一个RDD进行持久化,只要对这个RDD调用cache()和persist()即可。

作者:若泽大数据大黄鸭来源:若泽大数据|2018-05-28 08:54

1.概述

Spark的开发调优有一个原则,即对多次使用的RDD进行持久化。如果要对一个RDD进行持久化,只要对这个RDD调用cache()和persist()即可。

cache()方法表示:使用非序列化的方式将RDD的数据全部尝试持久化到内存中,cache()只是一个transformtion,是lazy的,必须通过一个action触发,才能真正的将该RDD cache到内存中。

persist()方法表示:手动选择持久化级别,并使用指定的方式进行持久化。

2.缓存类型

  • NONE :什么类型都不是
  • DISK_ONLY:磁盘
  • DISK_ONLY_2:磁盘;双副本
  • MEMORY_ONLY: 内存;反序列化;把RDD作为反序列化的方式存储,假如RDD的内容存不下,剩余的分区在以后需要时会重新计算,不会刷到磁盘上。
  • MEMORY_ONLY_2:内存;反序列化;双副本
  • MEMORY_ONLY_SER:内存;序列化;这种序列化方式,每一个partition以字节数据存储,好处是能带来更好的空间存储,但CPU耗费高
  • MEMORY_ONLY_SER_2 : 内存;序列化;双副本
  • MEMORY_AND_DISK:内存 + 磁盘;反序列化;双副本;RDD以反序列化的方式存内存,假如RDD的内容存不下,剩余的会存到磁盘
  • MEMORY_AND_DISK_2 : 内存 + 磁盘;反序列化;双副本
  • MEMORY_AND_DISK_SER:内存 + 磁盘;序列化  
  • MEMORY_AND_DISK_SER_2:内存 + 磁盘;序列化;双副本

*********** 序列化能有效减少存储空间,默认MEMORY_ONLY

3.如何选择存储级别

如果RDD对于默认的存储级别是满足的,就不要选择其他了。这是性能最优的,最高效的(前提内存要足够,这是第一选择)

如果MEMORY_ONLY不一定满足(即:内存不够),可以尝试使用MEMORY_ONLY_SER再加上一个序列化框架(kyro),这样内存的空间更好。序列化就是为了减少空间

不要把数据写到磁盘,成本是非常高的。当数据太大的时候,可以过滤一部分数据再存,这样的话可能会更快

可以使用副本的存储级别能更快的容错,所以的storage level都提供了副本机制,这个机制能让你继续再RDD上运行task,并不需要等待重新计算。(从另外的节点拿)

************************首选第1种方式,满足不了再使用第2种。后两种不推荐

4.移除缓存数据

Spark会自动地监控每个节点的使用情况,以一种LRU的机制(least-recently-used:最近很少使用)去自动移除。如果想手工代替这种自动去移除,可以使用RDD.unpersist()去处理

【编辑推荐】

  1. Spark streaming中持久保存的RDD/有状态的内存
  2. 大数据有道之spark选择去重
  3. 小白科普:全闪存阵列,存储分层和存储缓存如何叠加?
  4. spark 自己的分布式存储系统 - BlockManager
  5. Spark的误解-不仅Spark是内存计算,Hadoop也是内存计算
【责任编辑:武晓燕 TEL:(010)68476606】


点赞 0
分享:
大家都在看
猜你喜欢

热门职位+更多

读 书 +更多

鸟哥的Linux私房菜 基础学习篇(第二版)

本书全面而详细地介绍了Linux操作系统。全书分为5个部分:第一部分着重说明Linux的起源及功能,如何规划和安装Linux主机;第二部分介绍Linu...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊