首页计算机书籍数据库Spark内核机制解析及性能调优》王家林等编著
繁星

文档

239

关注

0

好评

0
PDF

Spark内核机制解析及性能调优》王家林等编著

阅读 993 下载 0 大小 23.76M 总页数 354 页 2022-11-15 分享
价格:¥ 10.00
下载文档
/ 354
全屏查看
Spark内核机制解析及性能调优》王家林等编著
还有 354 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 354 页,下载后文档不带www.pdfdz.com水印,支持完整阅读内容。
2、古籍基本都为PDF扫描版,所以文档不支持编辑功能,即不支持文档内文字的复制粘贴。
3、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
4、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
5、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
前言前言起源于美国加州大学伯克利分校AMP实验室的Spak是当今大数据领域最活跃、最热门的大数据计算处理框架,2009年Spark诞生于AMP实验室,2010年Spark正式成为开源,2013年Spark成为Apache基金,2014年Spark成为Apache基金的顶级。Spark成功构建了一体化、多元化的大数据处理体系,成功使用Spark L、Spark Streaming、MI山ib、GraphX解决了大数据领域的Batch Processing、Stream Processing、Adhoc Query等核心问题,Spark L、Spark Streaming、Mllib、GraphX四个子框架和Spark核心库之间互相共享数据及相互操作,Spk生态系统强大的集成能力是其他大数据平台无可匹敌的。本书主要面向的对象是广大的Spark爱好者和大数据开发者,以Spark内核解析及性能调优为主导,由浅入深,对Spak内核运行机制从源代码角度加以详细解析,全书共分9章,分别是:RDD的功能解析、RDD的运行机制、部署模式(Deploy)解析、Spark调度器(Scheduler)运行机制、执行器(Executor)、Spark的存储模块(Storage)、Shuffle机制、钨丝计划(Project Tungsten)以及性能优化。读者通过对这些内容的深人学习,将能够较为透彻地掌握Spark这一大数据计算框架的应用方法。参与本书编写的有王家林、段智华、张敏等。在本书阅读过程中,如发现任何纰漏或有任何疑问,可以加入本书的阅读群(QQ:284078981)提出问题,会有专人答疑。同时,该群也会提供本书所用案例源代码。如果读者想要了解或者学习更多大数据相关技术,可以关注DT大数据梦工厂微信公众号DT_Spark及QQ群284078981,或者扫描下方二维码咨询,也可以通过YY客户端登录68917580永久频道直接体验。王家林老师的新浪微博是://weibo/ilovepains/,欢迎大家在微博上与作者进行互动。由于时间仓促,书中难免存在不妥之处,请读者谅解,并提出宝贵意见。可王家林2016.10.8日于深圳●●●●●Spark内核机制解析及性能调优目录前言第1章RDD功能解析1.1DD产生的技术背景及功能…11.2BDD的基本概念…1.2.】DD的定义……21.2.3RDD弹性特性的7个方面…71.3创建RDD的方式…....131.3.1通过已经存在的Scala创建RDD…13131.3.4其他的RDD的创建…20211.5RDD的Transfortion算子…24241.5.4通过实践说明Transfortion的Lazy特性…251.6RDD的Aci0n算子…25251.6.2 Action在RDD中的角色定位及功能…2527第2章DD的运行机制…282.1RDD依赖关系…28282.l.2宽依懒(Shuffle Dependency)…302.2有向无环图(Directed Acyclic Graph,DAG)…312.2.1什么是DAG…312.2.2DAG的生成机制……322.2.3DAG的逻辑视图……332.3BDD内部的计算机制…............342.3.1RDD的计算任务(Task)…342.3.2RDD的计算过程………35
返回顶部