1+1>2!AI容器云+AI算力池化联合方案,助力业务发展及创新
- +1 你赞过了
在“新基建”时代,为帮助更多人工智能客户优化底层算力,提升整体资源利用率,超益集伦与趋动科技共同认可、达成全方位深入合作,将通过技术、业务、市场资源对接,进一步针对客户诉求与行业痛点,以技术创新降低TCO(Total Cost of Ownership),助力客户的业务发展与科研创新突破。
人工智能基础设施作为“新基建”的重要组成部分,是赋能产业和经济社会发展的关键载体,近两年来得到了国家的重点关注与大力支持。但随着相关建设的推进与深入,如何提高计算资源的利用率;如何提升计算设备的平均使用时长、效率最大化地完成训练任务量;如何解决项目组间资源抢占、保障资源使用公平合理等一系列问题正逐渐浮现。
GPU资源池化、资源管理与智能调度技术的探索
为解决这些问题,GPU虚拟化、GPU资源池化、资源管理、智能调度等技术应需而生。目前市面上常见的GPU虚拟化方案,多是将单GPU资源固态切分,分给不同的用户使用。这种解决方案在一定程度上提升了资源的利用效率,但仍存在不能灵活调度、多机资源整合难的问题。
而GPU资源池化技术不但可以解决以上难点,还能成熟地实现远程调度、GPU性能损耗控制等功能,进一步解决低算力、多并发需求场景下面临的资源分配难题。
对算力资源的高效管理与智能调度,也是提升整体资源利用率的关键所在。借助可视化技术,资源管理与智能调度软件可以对用户情况、GPU分布及使用情况进行精准监测,实时动态调整CPU、Memory、GPU资源,保障资源的按需分配,最大化提高资源使用效率;同时通过任务最优分布,用户可以实现任务、节点资源优先级设定,避免用户资源抢占等现象。
*加速比 = n个OrionX vGPU运行速度 / 单个OrionX vGPU运行速度,随着batch size增大,计算占比增加,则加速比不断增加,计算效率越高
*超益集伦+趋动科技联合测试结果
由测试可见,GPU资源池化技术通过软件重新定义算力、划分算力资源的方式,可以实现对AI计算资源的灵活调度、跨域共享、远程调度等目标,是提升整体资源利用率的最佳解决方案之一。
技术整合,生态共赢
由超益集伦与趋动科技共同发起的AI Max人工智能容器云平台及OrionX 猎户座AI算力资源池化解决方案的深入融合项目已启动,目前正着手于平台融合下的GPU资源池化与切分、跨节点资源聚合与调用等难点攻克。
我们旨在联合打造一个集成“服务器硬件 + 软件定义算力资源 + 上层机器学习平台” 的全新软硬件一体化解决方案,以帮助客户实现更高效的资源利用与管控。该融合解决方案预计将于2022年Q1完成整体开发及硬件兼容性测试,并在2022年Q2正式联合发布。
超益集伦与趋动科技联合解决方案的推出,必将为产业带来更好的加速创新与驱动变革,为双方客户及教育、科研、金融、医疗、能源等行业带来更完善的人工智能解决方案应用服务。
趋动科技OrionX解决方案
由趋动科技自主研发的OrionX 猎户座AI算力资源池化解决方案,先后荣获“2020新基建与行业创新应用优秀解决方案”、“2020智慧高校解决方案卓越奖”,可为客户打造GPU资源池,方式灵活高效,既能支持推理场景,又能支持训练场景。AI开发人员不必再关心底层资源使用状况,AI应用也无需修改,OrionX让应用开发变得更加便捷和高效。
1、高利用率
• 支持将 GPU 切片为任意大小的 OrionX vGPU,从而允许多 AI 负载并行运行,提高物理 GPU 利用率。
• 提高 GPU 综合利用率多达 3-10 倍,1 张卡相当于起到 n 张的效果,真正做到昂贵算力平民化。
2、高性能
• 相比于物理 GPU,本地 OrionX vGPU 性能损耗几乎为零;远程 OrionX vGPU 性能损耗<2%。
• OrionX vGPU 资源隔离,并行用户无资源互扰。
3、弹性扩展
• 支持从单台到整个数据中心 GPU 服务器纳管,轻松实现 GPU 资源池的横向扩展。
• 全分布式部署,通过 RDMA(IB/RoCE) 或 TCP/IP 网络连接各个节点,实现资源池弹性扩展。
4、灵活调度
• 支持 AI 负载与 GPU 资源分离部署,更加高效合理的使用 GPU 资源。
• CPU 与 GPU 资源解耦合,两种服务器分开购买,按需升级,灵活调度,有助于最大化数据中心基础设施价值。
5、全局管理
• 提供 GPU 资源管理调度策略。
• GPU 全局资源池性能监控,为运维人员提供直观的资源利用率等信息。
超益集伦AI Max解决方案
由超益集伦自主研发的AI Max机器学习平台是一款基于Docker+Kubernetes的人工智能容器云平台,曾荣获”2020全球人工智能应用博览会创新产品金奖” 、”第八届中国电子信息博览会创新奖”。
通过可视化图形操作界面及人工智能环境封装,其可实现异构资源公平、高效、透明的管理、调度、监控及使用。它提供了从模型开发、训练到部署的完整流程和工具,能帮助客户极大地降低人工智能进入门槛,提高人工智能创新和研发效率。
1、基础资源调度
按照资源使用情况动态调整资源,保证任务高效分配;支持任务排队机制,任务运行完毕自动释放资源,队列中任务自动运行。
2、镜像订制
提供丰富的Caffe,TensorFlow,PyTorch、MxNet等主流框架;允许用户本地环境推送镜像到AI Max内建立镜像仓库;允许用户通过Docker Exec连接并配置镜像环境。
3、分布式训练
可充分利用物理资源,提高模型训练效率;RDMA协议进行网络通信和数据读写,极大提高网络带宽,保证分布式训练要求的高带宽。
4、数据存储管理
基于Gluster的分布式存储架构,存储容量大、容易横向扩展。
5、交互式开发
系统内置Jupyter,JupyterLab,PyCharm,Terminal等多种交互式开发方式
最新资讯
热门视频
新品评测