随着企业业务的迅猛扩展,对计算、存储及网络资源的需求呈现出爆炸式增长。然而,原有的VMware虚拟化平台在处理高并发业务时逐渐显得力不从心,不仅限制了业务的灵活性和扩展性,还可能导致性能瓶颈,进而影响用户体验和业务效率。面对这一挑战,企业决定启动一项重大的技术升级项目。
该项目旨在通过引入深信服超融合基础设施,全面替换现有的VMware平台。深信服超融合将构建两个资源池——普通混闪存储和高性能混闪存储,同时与现有的DELL FC外置存储空间实现对接,形成一个集多种存储于一体的融合资源池。这一转变不仅标志着企业从传统单一虚拟化向私有云资源池架构的跨越,更优化了业务信息系统架构,使其能够更好地适应企业业务的动态变化和持续增长。
在硬件配置上,原VMware平台拥有20台服务器,每台配备44核CPU和768G内存,外加约100T的Dell FC存储。而新的深信服超融合方案则显著提升了配置水平,拥有77台服务器,每台配备32核CPU和768G内存,同时配置了1.2P的普通混闪集群(缓存比为10%)、600T的高性能混闪集群(缓存比为24%)以及600T的全闪集群。多个集群的设立旨在满足不同业务系统的需求。
在业务系统迁移策略上,企业采取了针对性的迁移方案,以确保关键业务系统的连续性和稳定性。SRM、CRM、EKP和PCB_MES等关键业务系统经过详细的业务影响分析,确定了各自的RTO和RPO要求,从而制定了迁移的优先级和资源分配。迁移工作主要在非高峰时段进行,并采用了增量迁移技术,以最大限度地减少对业务的影响。
为了提升系统的可靠性,项目还实施了数据冗余架构,在两个相距约五公里的数据中心之间建立了数据冗余桥梁,实现了双活。同时,基于深信服超融合的无代理CDP模块,重要业务系统能够实现秒级备份。1T的IO日志存放在虚拟存储中,备份数据则存放在外置存储EDS上,确保在突发故障发生时能够迅速恢复数据,实现RPO=1s。
深信服超融合基础设施在软硬件层面进行了深度优化,能够更有效地应对企业业务系统的高并发处理需求。高性能混闪卷和全闪卷的应用,满足了高IO性能承载的需求。同时,通过精细化的资源整合和智能调度机制,资源利用效率得到了显著提升,确保了业务系统的灵活性和高效性。
在成本效益方面,超融合资源池架构简化了数据中心的基础设施,降低了对多种独立硬件设备的需求。这不仅降低了硬件采购成本,还减少了因设备多样性而产生的维护工作和相关费用,降低了企业的总体拥有成本(TCO),并增强了系统的可扩展性和灵活性。
从2023年初至2024年10月,整个迁移工程历经近两年的时间。迁移过程分为前期准备、分阶段迁移和重点业务迁移三个阶段。在前期准备阶段,深信服对业务进行了分层设计,识别出369台业务虚机,并根据业务重要性和可中断性进行了分类。同时,对VMware源端和深信服超融合目的端进行了详细的风险分析,制定了科学合理的迁移方案。
在分阶段迁移阶段,深信服优先将三类业务迁移至混闪集群,然后逐步将二类业务迁移至高性能混闪集群,最后在重大节假日将一类业务迁移至全闪集群。迁移过程中,深信服密切关注迁移进度和资源使用情况,通过主动服务巡检并查看资源,确保迁移顺利进行。
以PCB_MES业务系统为例,作为用户的核心业务系统,由于无法安装SCMT的迁移代理agent,只能采用免代理方式进行迁移。迁移过程中,深信服密切关注数据的完整性和一致性,经过约两天的时间,完成了大部分数据的迁移。在切换过程中,遭遇了因Linux内核版本过低而无法在工具上完成切换的问题,但深信服通过取消virtio磁盘后拉起,并进行低版本内核的tools安装,最终成功完成业务迁移。
在完成所有业务的迁移后,深信服对迁移后的系统进行了全面的验证和优化。功能验证包括系统启动与运行、业务应用功能业务流程完整性和功能响应速度等方面。数据验证则检查了迁移后的数据完整性和一致性,确保数据没有丢失或损坏。
为了确保业务持续稳定运行,深信服通过云端智能大脑等智能运维工具,结合线上线下服务协同人机共智的模式,对迁移到HCI的业务应用实现了智能监控。这构建了一个涵盖硬件、云平台、云主机、数据库、应用等全栈的监控体系,有效减少了生产中断事件的发生次数,保障了业务的连续性。
深信服还为用户配备了专属线上线下服务经理,建立了线上线下协同的故障处置机制,确保7*24H及时响应用户问题,协同进行故障排除和恢复。这一措施能够在事件发生前期提前发出预警,识别风险,达到提前介入处理,事先消除风险,规避事件的发生。