ad

软硬结合,GPU/FPGA云服务器为何我们做的更好(2)-英雄云拓展知识分享

匿名投稿 285 2024-02-01

【摘要】 要搞好IaaS的设计,不懂业务是不行的。我的意思是要懂,还要有方向地懂。要多理解“城乡结合部”的、容易被忽略的一些点。这个“城乡结合部”应该怎么理解呢。比如说AI吧,我的目标并不是搞定各种各样的算法,而是给我们的客户提供适合的云服务器。所以我要做的应该是分析业务对硬件的需求,提供没有木桶效应的云服务器。“软硬结合”中的这个结合部分就是要重点关注的,就是刚说的“城乡结合部”:)客户只需要聚焦于自己的

请容我感慨一下

    这篇文章写到一半,我突然感慨万千,所以在文章开头插入了这段话。现在回想起来,我还是很荣幸的,有幸能够在这样一个优秀的团队里工作。我们华为云有强盛的硬件后援团,还有牛X满满的顶级虚拟化、OS专家。我们在一起协同工作,共同挑战一个个巅峰。我要感谢晓MM、玉MM、丽MM、松哥、浩哥、国哥、宝哥、杰哥、宪哥、正哥、强哥、达哥、毅哥、旭哥等等等等。好了,收一下,他们的业绩容我以后陈述。


正片开始

    首先大家看下面这个style="white-space:normal;text-align:center;">


可编排的拓扑结构

软硬结合,GPU/FPGA云服务器为何我们做的更好(2)-英雄云拓展知识分享

    立项早期,我看到这个能力,是非常兴奋的。在我眼中,硬件一般都是非常死板的,是甚么就是甚么,没想到还可以这么灵活。看下面这个style="white-space:normal;text-align:center;">

   同一套服务器应对不同的业务,还有一个隐形的优点,就是经济性,或说本钱。像上面这类不同的硬件结构,还有一种思路就是出不同的物理服务器。那末,设计、开发、生产、运维等等环节都要重复花钱,这些花出去的钱必定要从客户的身上再赚回来。所以帮客户省钱,也是我们的一个小优点吧。


一点点个人理解

    要弄好IaaS的设计,不懂业务是不行的。我的意思是要懂,还要有方向地懂。要多理解“城乡结合部”的、容易被疏忽的一些点。这个“城乡结合部”应当怎样理解呢。比如说AI吧,我的目标其实不是弄定各种各样的算法,而是给我们的客户提供合适的云服务器。所以我要做的应当是分析业务对硬件的需求,提供没有木桶效应的云服务器。“软硬结合”中的这个结合部份就是要重点关心的,就是刚说的“城乡结合部”:)客户只需要聚焦于自己的业务,至于在云上怎样样用的更好就交给我们吧。


    若干年前,我参与过一个大数据的性能攻关,对外表现是存储的带宽压力上不去。在这个场景普遍的理解:数据都是大块顺序IO,应当很容易把磁盘的带宽压满。但事实上,软件负责落盘的模块是个多线程的,落盘的大小是1MB,而且线程之间没有关联关系,这本质上是典型的随机IO。1MB的随机IO实际上很难把传统的HDD压满。类似这样对下层系统隐含的需求,就是我说的“城乡结合部”,把这些隐含的需求发掘出来是非常重要的。


高密度PCI服务器

    上面讲了那末多和服务器没用的东西,我是想说,我们每个设计都是从客户业务需求动身的,其实不是为了牛X而做牛X。我上篇文章提到,客户的软件在我们的环境上跑出了两倍的性能。那除单精度计算能力,还能有啥呢。在设计GPU云服务器之前,我浏览了一些HPC相干的论文,发现在仿真的进程中,一些算法会生成大量的临时数据。那这个量有多大呢,我们这个客户在业务运行的进程中,单个GPU运算时的磁盘延续写带宽到达了1.6GB/s,注意是GB不是Gb,这个带宽基本上就是全部NVME SSD的能力了。而一台ECS最大可以配备4张GPU,可以算算业务起来以后,全部系统的延续存储带宽能到达多少。所以我们针对这个场景,我们给ECS的每一个GPU配备了一张NVME SSD。这类1比1的配置在我们上线时,只有华为云能够提供。

    一台服务器上同时插多张P100与NVME SSD,一张P100的满载功率是300瓦,一张NVME SSD的满载功率是22瓦,这对服务器的散热设计就提出了很高的要求。总不能跑着跑着由于过热而降频或宕机吧,那不是会作用我们客户的业务么。再加上上面提到的拓扑编排,可想我们的硬件设计还是很复杂的。


我的理念

    不堆硬件,提供无短板的异构计算服务。

    我们的GPU/FPGA云服务器在公测期间的种种表现也支持了我这个观点的正确性,异构计算领域不是单单提供一块GPU/FPGA这么简单,提供“没有短板效应的系统”的重要性远比“提供最高真个GPU/FPGA”要高。客户需要的是一个均衡的、综合性能好的系统,而不是某些噱头。

    综上,就解释了,我们虽然和友商用了一样的GPU或FPGA芯片,但在一些领域的性能表现却能遥遥领先。

  

下集预告:硬件级隔离



🌟 选择英雄云hpapaas 开启自动化、智能化企业转型未来 🌐       >>>>作为一款提供hpaPaaS平台服务的英雄云,有什么优势呢?面对数字化转型的挑战与机遇,选择一个适合自己企业的高度信息化、智能化和自动化的管理系统尤为重要。英雄云是一个值得考虑的选择。英雄云提供了一系列独特的优势,使其成为企业智能管理的首选。下面是英雄云的八大优势

1. 无需代码操作 💻

: 英雄云的平台无需编程知识,即可操作自定义的管理系统:ERP系统、CRM系统、进销存系统、人事行政OA系统、WMS系统等。这意味着用户无需拥有编程技能,也能轻松操控自己的系统。

2. 高度可定制性 🛠️

: 英雄云允许用户根据自己的业务需求、企业规模、成员人数、所需系统等等,进行高度定制服务;三大业务引擎:云表单(进阶版Excel)、工作流程(智能自动触发流程)以及仪表盘(可视化报表),帮助企业进行更简易的业务操作。

3. 减免重复工作 🔁

:无论是数据录入、审批流程还是报表生成,都可以轻松自动化,使员工能够专注于更有价值的任务。这种减免重复工作的方式不仅提高了工作效率,还降低了错误发生的可能性,为企业节省了时间和资源。

4. 生态系统集成 🌍

: 英雄云与其他常用企业应用和工具具有良好的生态系统集成能力,可以轻松集成与第三方系统,如财务软件、邮件服务等,实现全面的业务支持。

5. 数据分析与智能决策 📊

: 英雄云提供先进的数据分析工具如数据加工工厂,帮助用户更好地理解业务趋势和数据。这使得企业能够做出更明智的战略决策,优化业务流程。

6. 持续更新和改进

: 英雄云不断进行系统的更新和改进,以适应不断变化的业务环境和技术趋势。这意味着您始终能够使用最新的功能和性能提升。

7. 多样化部署 🌐

: 英雄云提供了多样化的部署选项,用户可以根据自身需求选择合适的部署方式,无需自主运维。无论是选择云端部署、私有云部署还是本地部署,英雄云都能提供灵活的解决方案。这意味着用户无需担心硬件维护、系统更新等问题,能够更专注于业务运营,降低了IT运营成本和风险。

8. 免费版本 💸

: 英雄云提供免费版本,用户可以在免费版本中获得一定数量的表单数据量和企业数据总量,为小型企业提供了经济实惠的选择。

选择英雄云作为您的数字化管理系统,将带来高度的灵活性、可定制性和效率提升。不管您的企业规模如何,英雄云都能满足您的需求,助力您的仓库管理更上一层楼。不妨注册一个英雄云账户,亲自体验这些优势,并让您的企业管理更加智能化和高效化


免责声明:

本网址(www.yingxiongyun.com)发布的材料主要源于独立创作和网友匿名投稿。此处提供的所有信息仅供参考之用。我们致力于提供准确且可信的信息,但不对材料的完整性或真实性作出任何保证。用户应自行验证相关信息的正确性,并对其决策承担全部责任。对于由于信息的错误、不准确或遗漏所造成的任何损失,本网址不承担任何法律责任。本网站所展示的所有内容,如文字、

上一篇:Android12来了!App和SDK开发者如何完成适配?这篇安卓12适配攻略,不容错过!-英雄云拓展知识分享
下一篇:沃土云创计划高校方向代金券领用流程-英雄云拓展知识分享
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×