Yarn 资源调度器:资源调度平台,负责为运算程序提供服务器运算资源
YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。
HDFS、YARN、MapReduce三者关系
作业提交过程之YARN
作业提交过程之HDFS & MapReduce
作业提交
第 1 步:Client 调用 job.waitForCompletion 方法,向整个集群提交 MapReduce 作业。
第 2 步:Client 向 RM 申请一个作业 id。
第 3 步:RM 给 Client 返回该 job 资源的提交路径和作业 id。
第 4 步:Client 提交 jar 包、切片信息和配置文件到指定的资源提交路径。
第 5 步:Client 提交完资源后,向 RM 申请运行 MrAppMaster。
作业初始化
第 6 步:当 RM 收到 Client 的请求后,将该 job 添加到容量调度器中。
第 7 步:某一个空闲的 NM 领取到该 Job。
第 8 步:该 NM 创建 Container,并产生 MRAppmaster。
第 9 步:下载 Client 提交的资源到本地。
任务分配
第 10 步:MrAppMaster 向 RM 申请运行多个 MapTask 任务资源。
第 11 步:RM 将运行 MapTask 任务分配给另外两个 NodeManager,另两个NodeManager分别领取任务并创建容器。
任务运行
第 12 步:MR 向两个接收到任务的 NodeManager 发送程序启动脚本,这两个NodeManager 分别启动 MapTask,MapTask 对数据分区排序。
第 13 步:MrAppMaster 等待所有 MapTask 运行完毕后,向 RM 申请容器,运行ReduceTask。
第 14 步:ReduceTask 向 MapTask 获取相应分区的数据。
第 15 步:程序运行完毕后,MR 会向 RM 申请注销自己。
进度和状态更新
YARN 中的任务将其进度和状态返回给应用管理器,
客户端每秒(通过mapreduce.client.progressmonitor.pollinterval 设置)向应用管理器请求进度更新, 展示给用户。
作业完成
除了向应用管理器请求作业进度外,
客户端每 5 秒都会通过调用 waitForCompletion()来检查作业是否完成。
作业完成之后, 应用管理器和 Container 会清理工作状态。
容量调度器资源分配算法
队列资源分配
从root开始,使用深度优先算法,优先选择资源占用率最低的队列分配资源。
作业资源分配
默认按照提交作业的优先级和提交时间顺序分配资源。
容器资源分配
按照容器的优先级分配资源;
如果优先级相同,按照数据本地性原则:
(1)任务和数据在同一节点
(2)任务和数据在同一机架
(3)任务和数据不在同一节点也不在同一机架
不同点 | 公平调度器 | 容量调度器 |
---|---|---|
核心调度策略 | 优先选择对资源的缺额比例大的 | 优先选择资源利用率低的队列 |
资源分配方式 | 每个队列可以单独设置资源分配方式 FIFO、FAIR、DRF | FIFO、DRF |
公平调度器队列资源分配方式
FIFO策略
此时公平调度器相当于容量调度器。
Fair策略
Fair 策略(默认)是一种基于最大最小公平算法实现的资源多路复用方式。
具体资源分配流程和容量调度器一致;
(1)选择队列
(2)选择作业
(3)选择容器
以上三步,每一步都是按照公平策略分配资源
如果一个队列中有两个应用程序同时运行,则每个应用程序可得到1/2的资源;
如果三个应用程序同时运行,则每个应用程序可得到1/3的资源。
公平调度器队列资源分配方式:DRF策略
在YARN中,我们用DRF(Dominant Resource Fairness)来决定如何调度资源:
假设集群一共有100 CPU和10T 内存
而应用A需要(2 CPU, 300GB),应用B需要(6 CPU,100GB)。
则两个应用分别需要A(2%CPU, 3%内存)和B(6%CPU, 1%内存)的资源
这就意味着A是内存主导的, B是CPU主导的
针对这种情况,我们可以选择DRF策略对不同应用进行不同资源(CPU和内存)的一个不同比例的限制。
ResourceManager相关
yarn.resourcemanager.scheduler.class 配置调度器,默认容量
yarn.resourcemanager.scheduler.client.thread-count ResourceManager处理调度器请求的线程数量
NodeManager相关
yarn.nodemanager.resource.detect-hardware-capabilities 是否让yarn自己检测硬件进行配置,默认false
yarn.nodemanager.resource.count-logical-processors-as-cores 是否将虚拟核数当作CPU核数,默认false
yarn.nodemanager.resource.pcores-vcores-multiplier 虚拟核数和物理核数乘数,例如:4核8线程参数就应设为2,默认0
yarn.nodemanager.resource.memory-mb NodeManager使用内存,默认8G
yarn.nodemanager.resource.system-reserved-memory-mb NodeManager为系统保留多少内存
以上二个参数配置一个即可
yarn.nodemanager.resource.cpu-vcores NodeManager使用CPU核数,默认8个
yarn.nodemanager.pmem-check-enabled 是否开启物理内存检查限制container,默认打开
yarn.nodemanager.vmem-check-enabled 是否开启虚拟内存检查限制container,默认打开
yarn.nodemanager.vmem-pmem-ratio 虚拟内存物理内存比例,默认2.1
Container相关
yarn.scheduler.minimum-allocation-mb 容器最最小内存,默认1G
yarn.scheduler.maximum-allocation-mb 容器最最大内存,默认8G
yarn.scheduler.minimum-allocation-vcores 容器最小CPU核数,默认1个
pmem-ratio 虚拟内存物理内存比例,默认2.1
Container相关
yarn.scheduler.minimum-allocation-mb 容器最最小内存,默认1G
yarn.scheduler.maximum-allocation-mb 容器最最大内存,默认8G
yarn.scheduler.minimum-allocation-vcores 容器最小CPU核数,默认1个
yarn.scheduler.maximum-allocation-vcores 容器最大CPU核数,默认4个