大咖专栏|拨云见月,专注于深度学习本身

  • 时间:
  • 浏览:0
  • 来源:彩神1分快3_彩神app官网

  作为人工智能大爆炸的核心驱动,高度学习给机器学习领域带来了前所未有的巨大影响。面对火山喷发般的数据洪流,让我们都期望从高度学习中获得处置现实问题报告 的助力。

  然而前期准备却要居于极少量时间精力,往往与简便处置冗杂问题报告 的目的背道而驰,本文从高度学习的统一支持框架入手,一步步帮助让我们都从冗杂的前期工作中夺回对高度学习三种的专注。

  摘要

  分布式高度学习应用往往时时需户在运行环境的多节点部署和可扩展性上投入极少量时间与精力,而基于数据中心集群资源的高度学习工作负载的统一支持框架,主要目的是实现高度学习工作负载在数据中心资源池上的自动化部署与执行,从而帮助用户将更多注意力集中在商业逻辑和高度学习问题报告 三种。

工作流程概述

  基于数据中心集群资源的高度学习工作负载统一支持框架的构成组件与工作流程下图所示。

高度学习工作负载的统一支持框架

  Deep Learning Harness

  ❶ 用户提交学习任务规范(或高度学习模型)与数据集;

  ❷ 高度学习后端服务系统按照问题报告 类型与数据底部形态生成推荐模型;

  ❸ 为高度学习模型自动生成TensorFlow代码;

  ❹ 基于CPU、GPU集群计算资源池对学习任务进行优化调度;

  ❺ 启用高度学习工作负载监控分析工具;

  ❻ 载入代码与数据集,在指定资源上执行高度学习工作负载;

  ❼ 训练过程的实时可视化监测与检查点自动保存;

  ❽ 保存任务执行结果;

  ❾ 高度学习任务结果的分析与可视化。

  接下来,让我们都就支持框架中的若干关键功能与实现土方式 依次展开讨论(如下图所示)。

支持框架的关键功能与实现土方式

  CPU-GPU计算资源池

  将数据中心服务器集群中的CPU资源和各种不你这个型、不同数目的GPU资源整合为逻辑上单一的计算资源池,用户时需暂且花费极少量精力去学习、理解不你这个型计算资源的性能特点,尤其是在部署分布式高度学习工作负载时,用户只需指定期望的计算资源类型和数量即可;甚至用户时需不指定计算资源,支持框架中的资源控制器都都上能根据用户工作负载的底部形态,诸如模型冗杂度、训练数据量等,动态选则最佳计算资源(让我们都会在后文中展开讨论)。

  对计算资源的池化管理时需有效地实现智能调度,提高资源利用率,保证用户对高度学习工作负载的SLA要求。

  高度学习任务的资源预估模型

  前文中提到根据用户工作负载底部形态在计算资源池中动态选则最佳资源,这就导致 在用户学习任务实际运行以前,支持框架时需对任务的资源占用做出估计。咋样让,让我们都要利用机器学习土方式 构建针对高度学习任务的资源预估模型。

  模型构建土方式 首先是高度神经网络高度底部形态化的底部形态,咋样让时需对模型冗杂度进行量化描述;其次是高度学习任务的资源消耗、运行时间与模型冗杂度、数据规模、迭代次数等因素居于近似线性的对应关系。

  以卷积神经网络为例,让我们都时需通过对诸如卷积层数目、卷积滤镜数目、全连接层数目、全连接层节点数目、输入图像大小、批数据大小等变量进行连续改变,从而得到一系列具有定制化底部形态的卷积神经网络。咋样让在特定类型与数量的计算资源上运行哪些地方地方定制化的卷积网络学习任务,并对资源消耗、运行时间等数据进行监控记录。

  这时让我们都就咋样让获得了卷积神经网络学习任务关于模型底部形态、资源消耗与时间性能的基准数据集,咋样让利用线性回归咋样让曲线拟合技术来构建机器学习模型。

  在对高度学习任务进行资源预估时,输入信息包括用户提交咋样让自动生成的高度学习任务代码、训练数据规模、与学习任务相关的参数你这个批数据大小、迭代次数等,以及用户的期望运行时间。

  首先,从代码中提取高度学习模型底部形态,形成量化底部形态描述;其次,预估模型会按照资源池中可用的计算资源类型与数量进行运行时间估计;很久,在满足用户关于运行时间的约束下,模型会选则能耗最小的资源配置方案作为输出。

  高度学习任务的资源配置推荐

  基于资源预估模型,让我们都构建后端web服务以实现详细的面向高度学习任务的数据中心资源配置推荐机制。按照资源池中当前可用的资源类型和数量,利用机器学习模型对特定计算资源下的任务执行时间进行估计,一块儿将数据中心的服务器配置、网络连接与波特率、延迟等作为经验知识,在满足用户关于运行时间的要求下,遵循能耗最小化原则,为用户提供资源配置的推荐方案。

在异构GPU资源上部署高度学习任务

  数据中心的CPU-GPU计算资源池中,往往包含具有不同型号GPU的服务器集群,将用户的高度学习任务部署在由异构GPU组成的服务器集群上,无疑时需更加充分地利用数据中心的当前可用资源。咋样让,咋样让也不简单地遵循通常的分布式高度学习土方式 ,先要 在模型参数的同步过程中,相同规模的输入数据会导致 性能较差的GPU引起性能更好的GPU的更新波特率降低。

  咋样让,在异构GPU资源上部署分布式高度学习任务,让我们都首先要考虑咋样达到不你这个型GPU之间的性能同步。简单来说,通过调整分配至不同GPU的批数据大小时需达到各个GPU之间参数更新的近似同步。基于资源预估模型的输出,结合自适应的批数据大小调整土方式 ,让我们都时需如此来越快找到异构GPU资源的批数据大小分配方案。

  先要 ,让我们都将输入数据的平均分配土方式 改为不均匀分配以屏蔽异构GPU之间的计算性能差异时,随之而来的原本问题报告 也不:理论上让我们都也改变了各个GPU节点上高度学习过程的收敛性能。很多,让我们都也时需相应调整高度学习模型的超参数,以保证训练任务的收敛性能不被影响。

  学习率通常是高度模型超参数微调的首要选项,咋样让让我们都针对特定的批数据大小,利用启发式土方式 去寻找对当前高度学习模型来说最大约的学习率设置。首先使学习率以指数函数形式进行递增,观察训练阶段的精度曲线,并利用高阶曲线拟合与对数曲线拟合,以启发式土方式 找出学习率的优化区间或优化中值,以此作为梯度优化算法的学习率设置。

  分布式高度学习工作负载的自动部署

  在选则了计算资源配置和相应的参数调整方案以前,支持框架还时需实现高度学习负载的自动化分布式部署,以形成详细的高度学习工作流程。你这个,让我们都时需使用容器化技术,将数据中心的CPU、GPU资源以容器形式进行管理和提供,使用Horovod开源框架实现高度学习负载的多节点部署,编写可重用自动化脚本以实现训练数据的多节点预先载入,工作负载的跨节点部署和启动,一块儿还包括监控分析工具的启动,以及对监控数据、检查点文件和训练结果的自动保存。

  结语

  至此,支持框架帮助用户完成了高度学习工作负载在数据中心计算资源上的自动化部署和运行,用户就时需将更多的注意力集中在商业逻辑、数据分析与预处置、模型调试等问题报告 上。也也不说,用户只需关注高度学习任务三种,支持框架则负责帮助用户实现工作负载在计算资源上的调度与执行。