为什么对于云计算来说,最难的是运维?
因为和传统的管理机器数量相比,从100台、到1万台甚至几十万台、百十万台,管理就难度和复杂度都是成几何程度的增长。机器少的时候可以用人管理,机器多是不可能靠人的。运维系统不属于功能性的东西,用户看不见,所以这是被大家严重低估的东西。所以,要想把事情做好,就必然要在运维系统上下功夫,数据中心/云计算拼的就是运维能力。那么,对于云服务商,运维的难度有哪些方面?
1、云计算要用廉价设备取代那些昂贵的解决方案。
互联网就是要用便宜的东西搭建出高质量的东西,硬件和资源一定不会走高端路线——比如EMC、IBM小型机、SGI超级计算机等等,你如果用它去搭建云计算,成本太贵。用廉价的解决方案代替昂贵的解决方案是整个计算机发展史中到今天唯一不变的事情。所以如果你要让夏利车跑出奔驰车的感觉,你需要自己动手做很多事,搭建一个智能的系统。用廉价的东西做出高质量的东西,运维好廉价的设备其实是云计算工程里最大的挑战。
2、机器多了,加上用的又不是昂贵的硬件,所以故障就变成了常态,硬盘、主板、网络天天坏。
所以,没什么好想的,运维就必须要跟上。云计算的目标是在故障成为常态的情况下保证高可用——也就是我们所说服务的可用性,是3个9、4个9还是5个9。
3、这一大堆机器和设备都放在一起,安全问题就是一个挑战,一方面是Security,另一方面是Safety,保证数十台数百台的设备的安全还好说,但是对于数万数十万台的设计,就没有那么简单了。
面对这样的难题,人是无法搞得定的,只能依靠技术来管理和运维整个平台。比如必须有监控系统。这跟操作系统一样,对资源的管理,对网络流量、CPU利用率、进程、内存等等的状态肯定要全部收集的。收集整个集群各种节点的状态,是必然每个云计算都有的,都是大同小异的。
然后,还要找到可用性更好的节点,这需要有一些故障自检的功能。比如阿里云就遇到过磁盘用到一定时候就会莫名其妙的不稳定,有些磁盘的I/O会变慢。变慢的原因有可是硬盘不行了,于是硬盘控制器可能因为CRC校验出错需要要多读几次,这就好比TCP的包传过来,数据出错了,需要重新传。在这种硬盘处理半死不活的状态时,你肯定是需要一个自动检测或自动发现的程序去监控这种事情,当这个磁盘可能不行了,标记成坏磁盘,别用它,到别的磁盘上读复本去。我们要有故障自动检测、预测的措施,才能驱动故障,而不是被动响应故障,用户体验才会好。换句话说,我们需要自动化的、主动的运维。
Vecloud在全球100多个国家和地区有自建和合作的IDC机房,可以为各行业企业提供高品质的服务器托管、服务器租赁服务。如果您的企业正在犹豫该如何选择哪家IDC服务商时,欢迎联系我们,给您更专业的建议。