计世网

亚马逊云科技Amazon EC2 DL1实例正式可用,机器学习模型训练性价比提高
2021-11-17
Amazon EC2实例全新采用Habana Labs Gaudi加速器,相较于当前基于GPU,机器学习模型训练性价比高出40%。

 

2021年11月17日,日前,亚马逊云科技宣布Amazon Elastic Compute Cloud (Amazon EC2) DL1实例正式可用,这是一种专为训练机器学习模型而设计的新实例类型。Amazon EC2 DL1实例由来自Habana Labs 的Gaudi加速器提供支持,与当前基于GPU的Amazon EC2实例相比,其机器学习模型训练性价比提高40%。借助Amazon EC2 DL1实例,客户可以针对自然语言处理、对象检测和分类、欺诈检测、推荐和个性化引擎、智能文档处理、业务预测等工作负载进行优化,更快、更经济高效地训练他们的机器学习模型。Amazon EC2 DL1实例可通过低成本的即用即付模式按需提供,无需预付费用。欲开始使用Amazon EC2 DL1实例,请访问 aws.amazon.com/ec2/instance-types/dl1。

机器学习正成为主流,在云中大规模部署机器学习模型,已经对企业的业务产生了实际的影响。要在其业务应用中使用机器学习,客户需要从构建和训练模型开始,通过从样本数据中学习来识别模式,然后再将模型应用于新数据,进行预测。例如,基于大量呼叫中心通话记录而训练的机器学习模型,可以做出预测来通过聊天对话机器人为客户提供实时个性化帮助。为了提高模型的预测准确性,数据科学家和机器学习工程师正在构建越来越大且复杂的模型。为了保持模型的预测准确性和高质量,工程师们需要经常调整和重新训练模型。这需要大量的高性能计算资源,导致基础设施成本增加。这些成本可能让客户无法以维持高精度预测所需的频率重新训练模型,同时也给想要开始试验机器学习的客户带来阻碍。

全新Amazon EC2 DL1实例使用专为加速机器学习模型训练而构建的Gaudi加速器,与通用GPU相比,它以更低的成本提供更高的计算效率。DL1实例配备多达8个Gaudi加速器、256GB 高带宽内存、768GB系统内存、定制的第二代英特尔至强可扩展(Cascade Lake)处理器、400Gbps的网络吞吐量和4TB的本地NVMe存储。这些创新叠加,比当前用于机器学习常见模型训练的基于GPU的Amazon EC2实例的性价比提高40%。客户可以使用与主流机器学习框架(如TensorFlow和PyTorch)集成的Habana SynapseAI SDK快速轻松地开始使用DL1实例,只需更改少量代码,即可将其当前在基于GPU或基于 CPU的实例上运行的机器学习模型无缝迁移到DL1实例进行训练。开发人员和数据科学家还可以从Habana GitHub存储库中提供的针对Gaudi加速器优化的参考模型开始,其中包括适用于各种应用程序的流行模型,包括图像分类、对象检测、自然语言处理和推荐系统。

亚马逊云科技Amazon EC2副总裁David Brown表示:“机器学习的使用正在激增。然而,机器学习模型训练的一大挑战是计算密集型负载,同时随着客户不断改进和重新训练模型,成本也会变高。亚马逊云科技为任何机器学习项目或应用程序提供了广泛而强大的计算选项。采用Gaudi加速器的DL1实例为云中基于GPU的实例提供了迄今为止最具性价比的替代方案。这一价格和性能的最佳组合让客户可以降低训练成本,训练更多模型并加快创新速度。”

客户可以使用Amazon Deep Learning AMI、Amazon Elastic Kubernetes Service (Amazon EKS) 或Amazon Elastic Container Service (Amazon ECS) 为容器化应用程序启动DL1实例。通过Amazon SageMaker访问DL1实例,客户基于托管服务的体验,让开发人员和数据科学家在云端构建、训练机器学习模型,以及在云端和边缘端部署,变得更加轻松和快捷。DL1实例受益于Amazon Nitro系统,可将许多传统虚拟化功能卸载到专用硬件和软件,以提供高性能、高可用性和高安全性,同时降低虚拟化开销。DL1实例可作为按需实例、通过Saving Plans、预留实例或Spot实例购买。DL1实例目前已在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)区域正式可用。

希捷科技40多年来一直是提供数据存储和管理解决方案的全球领导者。希捷的数据科学和机器学习工程师已经构建了一个先进的深度学习(DL)缺陷检测系统,并将其部署在公司的全球制造设施中。在最近的概念验证项目中,Habana Gaudi超越了Seagate当前训练一个用于生产的DL语义分割模型的性能目标。“我们期待由Habana Gaudi加速器提供支持的Amazon EC2 DL1实例带来的显著性价比优势,希望该实例成为亚马逊云科技计算集群的有力补充。”希捷运营、技术和高级分析高级工程总监Darrell Louder表示:“ 随着Habana Labs不断发展并覆盖更多的运营者,将Amazon EC2 DL1扩展到更多企业用例的潜力巨大,从而能够进一步节省成本。”

英特尔开发了3D运动员跟踪技术,可实时分析运动员的动作视频,为训练过程表现提供信息,并增强比赛期间的观众体验。“在由Habana Gaudi加速器提供支持的Amazon EC2 DL1实例上训练模型,让我们可以准确可靠地处理数千个视频并生成相关性能数据,同时降低训练成本。”英特尔销售与市场营销集团副总裁Rick Echevarria表示,“通过使用DL1实例,可以满足我们高速度和低成本的模型训练需求,为各类运动以及各个级别的运动员、团队和广播公司提供高效的服务。”

Riskfuel为管理金融投资组合的公司提供实时估值和风险敏感评估,帮助他们提高交易准确性和绩效表现。Riskfuel首席执行官Ryan Ferguson表示:“有两个因素吸引我们使用基于Habana Gaudi AI加速器的Amazon EC2 DL1实例。首先,我们希望确保银行和保险客户能够运行Riskfuel模型以充分利用最新硬件。我们发现,只需更改几行代码,即可将模型简单直接的迁移到DL1实例。其次,模型训练成本是支出的重要组成部分,DL1实例性价比提升40%,为我们带来了潜在的实质性收益。”

责任编辑:刘沙