是部署在AWS云环境的服务,能让从事数据分析和智能应用(包括深度学习)开发者完成模型的训练和部署等等一系列操作,并且可以依托AWS进行大规模部署。
AI应用开发&迭代的主要流程
一般的流程就像下面的图所显示的那样,包括如下6个主要部分:1). 问题定义;2). 数据获取和准备;3). 模型开发和训练;4). 模型评估和优化;5). 部署;6). 智能应用运维
根据 的划分又可以比较精简地分成3个部分:1). 数据准备;2). 模型训练和优化;3). 部署和监控
2. 概述
是一个功能非常完整的开发框架,从本质上讲是一套开源的 SDK供开发者使用,所以涉及到的东西也非常多。概括起来基本包括几个部分:
硬件层以及底层基础设施的支持:主要表现在容器镜像的定制上,针对-learn, , 三种不同的场景都预先做好了不同的容器镜像。在硬件方面基本上是都是支持使用NV GPU的;
深度学习框架的支持:支持包括,等众多的深度学习框架;
AWS基础服务的支持:在训练和部署AI应用的时候,往往依赖对AWS基础服务,包括数据存储s3,容器镜像上传和下载,基础计算资源的申请和动态扩展等等。这也是和AWS的商业模式紧密联系在一起的;
3.工作模式
针对不同的开发者, 也提供了多种的工作模式,具体包括:
云端GUI模式
直接基于浏览器 开发,完全的GUI模式,类似于的操作界面。也是推荐初学者使用的最容易上手的模式。
本地模式(local mode)
不需要依赖云端浏览器,只在本地配置AWS账号以及AMI role就可以在本地工作。开发可以在任意IDE中进行,通过调用 SDK接口,使用预先定义好的容器镜像,并且调用AWS基础服务。适用于中级用户。
脚本模式( mode)
可以继续使用之前开发的训练和推理的脚本,不使用的 SDK,仅使用预先做好的容器,比如分别针对-learn, , 三种不同的场景都预先做好了不同的容器镜像。适用于高级用户。
使用自己的容器(BYOD)
不使用的 SDK,也不使用预先做好的容器。而是通过自定义容器镜像,仅仅使用AWS的容器上传/下载服务。适用于更高级用户。
在自己的VPC中部署
适用于规模比较大的高级用户。