FusionConputer热迁移过程记录
一、迁移原因
云平台集群内存资源不足,已超过设定阈值,内存资源已紧急告警。
SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。
二、解决思路
启用新集群,并将老集群中部分虚拟机热迁移至新集群
三、迁移的前提条件
1.被迁移虚拟机必须为共享存储
2.源主机与目标主机必须为同一存储池
3.新集群主机CPU指令集务必大于等于老集群
4.热迁移目标虚拟机内存占用率不能大于85%否则可能迁移失败
四、迁移过程
1.主机绑定存储
2.新建虚拟机进行测试
3.删除测试虚拟机
4.对老集群虚拟机进行迁移
五、问题
1.热迁移目标虚拟机过程中,不会对业务产生影响,但实际测试中会丢2-5个网络数据包
2.存储使用的为FCSAN时,并且传输速率没有达到10Gb/s,会因为物理原因限制,存储节点最多绑定16台主机。
四、其他
1.提前与甲方沟通,提前输出并告知《热迁移方案》、《热迁移风险点》、《回退方案》等。
2.尽可能选择轻量级业务、业务量较少、访问量较少时进行迁移。
3.对热迁移虚拟机做必要备份。
更多精彩