ThousandHu`s blog

千里之行 始于足下


  • 首页

  • 归档

  • 标签

深入解析yarn架构设计与技术实现-NodeManager2

发表于 2016-08-28
深入解析yarn架构设计与技术实现-Node Manager2 状态机管理Nodemanager中的状态机一共有三类,分别是Application,Container和 LocalizedResource。NodeManager收到一个应用的在本机的第一个container启动命令时,会创建一个Application状态机来跟踪该应用程序在该节点的状态。每个container对已一个状态机;而每个资源(jar,文件等)的下载过程均由一个状态机LocalizedResource维护和跟踪。 Application状态机Application的状态机在package org.apache.hado ...
阅读全文 »

深入解析yarn架构设计与技术实现-NodeManager1

发表于 2016-08-22
深入解析yarn架构设计与技术实现-Node Manager NodeManager主要有两个职责: 从ApplicationMaster上接收有关Container的命令并执行 ContainerManagermentProtocol协议,AppliationMaster是rpc client,会主动将信息发送给NM,这个好处是降低时间延迟 主要是startContainer,stopContainer和getContainerStatus三个函数 向ResourceManager汇报各个container的状态并领取相关container命令 ResourceTrackerProto ...
阅读全文 »

深入解析yarn架构设计与技术实现-资源调度器

发表于 2016-08-10
深入解析yarn架构设计与技术实现-资源调度器 Yarn资源调度器的基本框架yarn的资源调度器是可以配置的,默认的是FIFO、CapacityScheduler和Fair Scheduler三种。 这三个scheduler都继承一个AbstractYarnScheduler。这个抽象类extends AbstractService implements ResourceScheduler 。extends Abstractservice说明是一个服务,而实现了ResourceScheduler的函数是scheduler的主要功能。 ResourceScheduler本质是个eventHand ...
阅读全文 »

spark history server

发表于 2016-08-08
spark on yarn运行后会自动删除log,就看不到历史运行的log信息,好在有history server来解决这个问题。spark history server是将log存在了hdfs上 首先建立一个储存log的hadoop路径,注意要给777权限: 123hdfs dfs -mkdir /spark-historyhdfs dfs -chown -R spark:hadoop /spark-historyhdfs dfs -chmod -R 777 /spark-history 给 spark-defaults.conf 添加如下配置. 123456spark.yarn.histo ...
阅读全文 »

strata+hadoop参会感想

发表于 2016-08-06
写在前面的话:一直想搞一个公众号,但是总觉得自己学的还很浅,没什么可以分享的。今天参加了strata+hadoop的会议,做了一些笔记,决定将他作为第一篇文章。自己对于spark的知识了解有限,难免会有一些错误的地方,还请大家海涵。感谢百度孙垚光师兄和腾讯沈洪师兄对笔记中错误的订正和耐心的答疑。感谢宜人贷王婷师姐的赠票。顺便欢迎大家明天去听听王婷师姐明天13点50在报告厅的分享《金融反欺诈中,社交网络算法有用吗?》。 文中按顺序是这些talk的笔记: 基于Spark平台的智能大数据网络反欺诈 Yinglian Xie (DataVisor) 用人工智能驱动金融生活 Cheng Li (蚂蚁金 ...
阅读全文 »

深入解析yarn架构设计与技术实现-Resource Manager剖析4

发表于 2016-07-30
容错机制Yarn的荣作主要是ApplicationMaster,Nodemanager,Container和ResourceManager四个组件的容错。 ApplicationMaster容错。ResourceManager会和ApplicationMaster保持通信,一旦发现ApplicationMaster失败或者超时,会为其重新分配资源并重启。重启后ApplicationMaster的运行状态需要自己恢复,比如MRAppMaster会把云翔状态记录到HDFS上,重启后从HDFS读取运行状态恢复 NodeManager容错:NodeManager如果超时,则ResourceManag ...
阅读全文 »

深入解析yarn架构设计与技术实现-Resource Manager剖析3

发表于 2016-07-29
深入解析yarn架构设计与技术实现-Resource Manager剖析3 认证与授权yarn 的安全管理同时采用了kerberos和token两种。在client与resourceManager以及弄得manager之前的初次通信均使用kerboeros,而一旦建立链接以后则使用tiken认证机制。 kerberos:一种基于第三方服务的认证协议,其特点是用户只需要输入一次身份验证信息就可以凭获得票据访问多个服务 token:基于共享密匙的双方身份认证机制 yarn认证的token有8类,分别对应不同的交互,因为认证主要是验证你是不是你,所以一般也不需要改,这里就不记录了。 yarn的授 ...
阅读全文 »

spark streaming 数据结构分析

发表于 2016-07-28
这篇文章是在阅读了spark streaming Programming Guide以后的一些总结。主要是spark streaming和spark的数据结构DStream和RDD的对比,以及DStream数据接收到发送到spark engine的一些细节。 Streaming 和DStreamspark streaming是一个流式的处理框架,通过从实时数据流接入数据,然后划分为小的批量传递给spark engine处理。 Spark streaming对这种持续数据做了一个高级抽象DStream(discretized stream,离散数据流)。在DStream里面就包含了一系列的RD ...
阅读全文 »

深入解析yarn架构设计与技术实现-Resource Manager剖析2

发表于 2016-07-27
Application管理在yarn中,application指的是应用程序,他可能由多个实例组成。他有权限管理、运行状态几部分组成。权限管理主要由ApplicationACLsManager负责,应用程序的启动和关闭由RMAppManager负责,而运行状态主要由状态机负责。权限那里就略掉不写了,主要说一下状态机。 状态机管理在ResourceManager内部主要有四类状态机: RMApp:和RMAppAttempt共同维护一个Application的生命周期。Application的声明周期由RMApp维护 RMAppAttempt:一个Application可能尝试多次运行,每次尝试 ...
阅读全文 »

深入解析yarn架构设计与技术实现-Resource Manager剖析1

发表于 2016-07-24
ResourceManager总体架构RM主要职责有4部分: ResourceTracker: 与NodeManager通信并控制NM上的Container ApplicationMasterProtocol: 管理ApplicationMaster ApplicationClientProtocol: 与客户端交互,处理客户端的请求 另外RM还负责资源管理和调度 resourceManager内部架构主要分为一下几块: 用户交互模块 NM管理模块 AM管理模块 Application管理模块 状态机管理模块 安全管理模块 资源分配模块 用户交互模块用户交互模块分为ClientRMSe ...
阅读全文 »
1234…10
ThousandHu

ThousandHu

千里之行 始于足下

91 日志
49 标签
github zhihu 微信公众号:thousandhu学架构
© 2015 - 2017 ThousandHu
由 Hexo 强力驱动
主题 - NexT.Mist