在冬奥会保障项目监控系统分为几个层次?

在冬奥会保障项目监控系统分为几个层次?

最佳答案 匿名用户编辑于2022/12/12 15:19

在冬奥保障项目中,我们把监控系统自上到下分为以下四个层次。

1.IDC层监控

主要是各针对客户资源所在的IDC层面的监控告警,包含电力、温度、功耗、硬 件故障等方面进行监控告警。这是最底层的监控,由阿里云IDC部门(基础设施事业部 )负责。

2.云平台层监控

主要是各产品自己维护的底层监控,客户是不可见的。例如XGW流量监控、 CDN节点监控等。这是阿里云各产品方自己稳定性建设的一部分。在本次冬奥保障 过程中,很多产品方专门为冬奥相关资源定制开发了相关的监控。

3.云产品层监控

利用产品云监控,Prometheus,DataV等产品能力,我们针对不同的业务系统 涉及到的云资源进行细化和拆分。在云产品层,我们使用的最多的是阿里云云监控这 个产品,因为所有其他云产品的底层数据源都会上报至云监控LogStore,这样底层 的无缝衔接赋予了云监控强大的产品监控能力,可以方便的在云监控上设置监控阈值 告警和事件告警,设置自定义事件等进行消费。

基础资源监控:ECS1CPU利用率、内存利用率、磁盘空间;POD1CPU利用 率、内存利用率、磁盘空间;RDS1CPU使用率、内存使用率、IOPS使用率、磁盘空 间;Redis CPU使用率、内存使用率;CSG前端读写速率、共享缓存使用率、用户态 空间使用率、Trottling状态等。

网络层监控,主要是各网络组件参数:带宽情况、活跃连接数、限速丢包率、专 线健康检查丢包率等。

4业务层监控

应用核心指标的监控,参考谷歌提出的四个黄金监控指标,一般可以分为四大类 可用率,服务的请求成功率。 时延,请求的耗时。 错误数,主要包括管控侧以及资源侧。错误数,主要包括管控侧以及资源侧。 流量,主要包括流量指标、流量移动、流量跌零监控。

除了通过现有的的工具比如ARMS、Zabbix、Open-Falcon等等客户可以使用 的公有云工具,针对这次重保我们也开发了一些与业务对应的一些业务异常监控,直 接推送到我们的告警群。

参考报告

云计算行业-云上大型赛事保障白皮书.pdf

云上大型赛事保障白皮书。大型赛事作为表征文明发展程度的重要标志,其与人类社会的的政治、经济、文化、人文、科技等都有着密切关联,一并构成当今世界的丰富多样性。其中,每四年举办一次的奥林匹克运动会,其历史最为悠久、参与人数最多、比赛规模最大、涉及项目最广、竞技水平最高、影响范围最广、关注程度最高、科技含量最强,是当之无愧的世界最高等级的国际综合体育赛事,其内涵也已经远远超出体育竞技的范畴,从而形成了独一无二的奥运文化现象,成为了全人类的文化盛会和文明遗产。2022年2月4日,随着耀眼的烟花闪烁在北京国家体育场鸟巢的上空,已筹备和等待了7年的北京冬奥会正式开始了,此时,距2015年北京成功申办本届冬...

查看详情
相关报告
我来回答