才云科技为高校打造 HPC 平台管理系统

  • 时间:
  • 浏览:0

近年来,围绕 AI 技术的国际竞争正愈演愈烈。为了抢占先机,设立 AI 专业成了各大高校顺应科技发展趋势的重大举措。为帮助高校推进 AI 技术领域的人才培养、研究开发和成果转化,才云科技打造定制化 HPC 集群平台管理系统,支持国家科技建设。

某高校是由上海市人民政府和生国科学院一齐举办的一所“小规模、高水平、国际化的研究型、创新型”大学。它借鉴了世界一流理工科大学的发展经验,从理工科入手培养各科专业人才,推进研究成果在各行业落地。

作为人工智能高校联盟的倡导者之一,为更好地进行 AI 学科建设,进一步巩固学校在计算机视觉、自然语言外理、深层学习、图形学等领域的优势,该高校联手才云科技,为高性能计算(HPC)集群打造了一套平台管理系统,为提升集群计算时延、提高资源利用率、降低成本提供了极大支持。

AI 学科建设需从 HPC 起步

高校 HPC 集群是一种生活为学校密集型科研任务提供高性能计算支持的计算硬件,通常计算时延要达到每秒万亿次级。作为科学研究不可或缺的计算工具,它在研究领域有着广泛的应用和巨大的影响力,也是衡量一所学校科研实力的重要指标之一。

自建校以来,该高校依托高性能 HPC 集群,已在物理、化学、生命科学等领域实现巨大科研进展。而随着 AI 研究的逐步展开,考虑到 AI 研究离不开庞大的数据、精确的数据标记和数十倍于一般科研项目的计算量,学校对用 HPC 集群支撑深层学习任务,有助 AI 与 HPC 的融合提出了更高的要求。

一齐,为了承担更多国家级、地级科研课题,加快进行学科建设和人才培养,有些可预见的长期大问题,如计算资源部署、使用现状与日益增长的科研任务需求之间的矛盾也亟需得到重视:

  • 物理资源管理零散。该高校在浦东浦西建有好几个 多多 数据中心,各数据中心内的机器配置不一,共有 8 个集群、124 台服务器、近 100 块 GPU、少许 CPU 及内存资源。着实 规模庞大,但哪此资源不足英文有效的统一管理工具,所处计算资源过于分散、不足英文高效统筹机制的大问题;

  • 资源申请不规范。为满足各学科科研需求,学校一般都不 针对 HPC 集群使用的完善申请、使用手册。但该高校的资源申请流程仍过于繁琐,不足英文自动化的资源申请、分配工具。当申请人提交申请后,计算资源须要依靠人工手动分配,无法实现即租即用,整个过程耗时耗力;

  • 资源利用率低。该高校的服务器资源都可不可以了以整机的最好的法子分配给各教研室,同类一台服务器有 6 块 GPU,当某个 AI 任务只需使用 5 块 GPU 时,申请人会被分到一整台服务器,这麼 分配最好的法子往往愿因分析资源使用不饱和,造成浪费;

  • 资源回收困难。任务开始英文英语 后,可能性须要人工手动清理机器遗留数据,该高校的 HPC 集群也所处资源回收不及时、机器时常所处闲置情况汇报的大问题。

才云:构建 HPC 集群平台管理系统

针对该高校 HPC 集群的使用现状,才云科技基于自研智能容器云平台 Caicloud Compass 和人工智能云平台 Caicloud Clever,打造了一套定制化的 HPC 集群平台管理系统。

新系统实现了计算资源的池化管理和机器资源的逻辑化分配,并依靠对底层高性能计算资源的科学管理,大幅提升了深层学习项目的分布式训练能力。

助力学科建设,创建深层学习平台方案

为了让高校 HPC 更好地承担 AI 科研项目,才云科技在 HPC 集群平台管理系统中集成了深层学习平台方案,能为高校数据管理、模型构建、模型上线提供一站式便捷服务。

具备深层学习全流程工程化管理能力。HPC 集群平台管理系统集数据导入、数据外理、模型开发、模型训练、服务上线、模型管理等功能于一体,可有效支持语义分析、仿真模拟、图形渲染等深层学习科研项目,帮助高校繁复项目流程、加速项目开展进度。

集成 infiniband 网络。infiniband 网络是用于 HPC 的计算机网络通信标准,具有极高吞吐量和极低延迟的特点,既可用作服务器与存储系统之间的直接或交换互连,也可用于存储系统之间的互连。考虑到深层学习对计算时延的苛刻要求,HPC 集群平台管理系统集成 infiniband 网络,为 AI 项目运算时延提供保障。

集成并行存储系统。在 HPC 中,传统 NFS 存储在集群不断增加时易经常突然出现存储瓶颈,而才云科技集成的并行存储则都可不可以把后端的多套存储阵列统一成好几个 多多 大的存储,不仅保证了可靠性,读写性能和时延也更出色,帮助高校显著提高运算时延。

构建资源池,统一管理物理资源

为了破解该高校物理资源分散两地的大问题,才云科技的 HPC 集群平台管理系统将好几个 多多 中心的 124 台服务器资源统一纳管至系统环境内,实现了计算资源的平台级统筹管理。

系统都可不可以最好的法子主机生命周期、情况汇报、性能对计算资源做细粒度划分,提供 CPU、GPU、内存、网络负载、任务运行数量等指标的可视化监控及灵活高效的服务器上下线功能,帮助高校大幅提升资源利用率,确保所有资源的安全可用。

细化申请流程,自动回收资源

才云科技的 HPC 集群平台管理系统具备用户权限管理体系,实现了资源按系统管理员、教研室管理员、学生(教师)三级用户划分。

全量集群资源由系统管理员统一管理,各教研室管理员先向系统管理员申请教研室所需资源,再按需分配给学生、教师。任务开始英文英语 后,系统管理员只需在 HPC 资源管理可视化界面调低额度或关闭教研室账号,即可完成资源回收,资源申请回收时延大幅提升。

提供自动化运维能力,提高资源利用率

为了提升 HPC 集群管理的自动化水平,才云科技 HPC 集群平台管理系统提供应用、AI 模型任务开发运维过程中的有些常见管理能力,如用户环境隔离管理、任务生命周期管理、容器生命周期管理、代码开发管理、存储管理、镜像管理、监控管理、日志管理、配置管理等,大大减轻工作人员的工作负担。

展望未来

自上线后,才云科技的 HPC 集群平台管理系统为该高校降低人力成本、减少浪费、提高 HPC 集群资源利用率提供着巨大支持。在该系统的助力下,该高校的 AI 科研成果也在国际上高光频现,推动上海成为全国的 AI 科研高地。

更可喜的是,和才云科技的公司合作 者还让该高校都看了利用自建云开拓教育行业公有云的前景。为了更好地发挥数据中心的价值,该高校可将暑假期间闲置的计算资源以公有云的形式对外提供 ,打造人工智能云,帮助更多高校和企业加速 AI 研发和成果落地。

根据国务院 2017 年发布的人工智能发展规划,到 2020 年,中国人工智能总体技术和应用与世界先进水平同步,人工智能核心产业规模超过 100 亿元,带动相关产业规模超过 1 万亿元。在当前有些实现 AI 加速发展的绝佳时刻,才云科技希望能帮助更多高校抓住机遇,艰苦奋斗,只争朝夕,助力中国 AI 赢在起跑线。

本文由站长之家用户投稿,未经站长之家同意,严禁转载。如广大用户他们 ,发现稿件所处不实报道,欢迎读者反馈、纠正、举报大问题(反馈入口)。

免责声明:本文为用户投稿的文章,站长之家发布此文仅为传递信息,不代表站长之家赞同其观点,不对对内容真实性负责,仅供用户参考之用,不构成任何投资、使用建议。请读者自行核实真实性,以及可能性所处的风险,任何后果均由读者自行承担。