一、迁移原因

  云平台集群内存资源不足,已超过设定阈值,内存资源已紧急告警。

 

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

二、解决思路

  启用新集群,并将老集群中部分虚拟机热迁移至新集群

 

三、迁移的前提条件

  1.被迁移虚拟机必须为共享存储

  2.源主机与目标主机必须为同一存储池

  3.新集群主机CPU指令集务必大于等于老集群

  4.热迁移目标虚拟机内存占用率不能大于85%否则可能迁移失败

 

四、迁移过程

  1.主机绑定存储

FusionConputer热迁移过程记录 Cloud 第1张

   2.新建虚拟机进行测试

 FusionConputer热迁移过程记录 Cloud 第2张

   3.删除测试虚拟机

FusionConputer热迁移过程记录 Cloud 第3张

   4.对老集群虚拟机进行迁移

FusionConputer热迁移过程记录 Cloud 第4张

 

五、问题

  1.热迁移目标虚拟机过程中,不会对业务产生影响,但实际测试中会丢2-5个网络数据包

  2.存储使用的为FCSAN时,并且传输速率没有达到10Gb/s,会因为物理原因限制,存储节点最多绑定16台主机。

 

四、其他

  1.提前与甲方沟通,提前输出并告知《热迁移方案》、《热迁移风险点》、《回退方案》等。

  2.尽可能选择轻量级业务、业务量较少、访问量较少时进行迁移。

  3.对热迁移虚拟机做必要备份

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄