设为首页收藏本站在线充值

中原工学院论坛

 找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 95|回复: 0

XSKY产品的自动化和智能化运维如何解决SDS集群硬盘意外下线

[复制链接]

672

主题

672

帖子

929

积分

中级会员

Rank: 9Rank: 9Rank: 9Rank: 9Rank: 9

积分
929
发表于 2020-3-3 17:12:08 | 显示全部楼层 |阅读模式

马上注册,享用更多功能!灵感论坛,推动创造力的社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
 信息化现状
  2019年5月的某工作日。万方数据运维主管李工和往常一样,提早一个小时来到了办公室。他习惯性地在新的一天工作开始前,Check一遍系统运行情况。
  服务器CPU负荷正常,网络连接正常,机房散热没问题…一切迹象都显示良好。
  “咦,这台刚上线没几天的服务器,有几块硬盘怎么下线了?”图片来源网络


  图片来源网络
  当打开XSKYXEDP存储管理界面时,系统第一时间发出了硬盘掉线的告警。他赶紧登陆服务器硬件管理界面,再次核查发现果然是硬盘出现问题。
  在联系了硬件厂家工程师来排查后,发现不仅是硬盘,就连内存,CPU都存在质量的隐患,服务器厂家要求这些部件需要全部更换,但是更换硬件需要几天的等待周期。
  李工心想,要不要赶紧联系XSKY的售后工程师来同步配合硬件更换,但对前端业务的观察后,发现部分坏盘虽然已经下线,但前端业务还正常。
  “这不正是一个大好机会,来检验XSKY产品是否如销售时说的那么易维护?”
  注:配图与本文无关


  说干就干,随后李工在XEDP的操作界面启动了业务优先的QoS,降低硬盘重平衡的速率,以保证不会对前端业务进行冲击,同时对前端业务做了监控,一旦有异常就启动XSKY售后的应急预案。
  在接下来等待硬件备件的几天时间里,李工心里也有点打鼓。但意外的是,前端业务一切正常,并没有出现任何一起来自客户或者业务部门的投诉,原来前端业务仍然在正常运行。
  服务器修复后重新启动,他连忙登陆存储管理界面,发现等待硬件备件期间的数据读写一切都正常,并没出现丢数据的情况。
  随着这台设备的顺利“归队”,继续利用QoS功能减少数据重平衡对前端业务的冲击。而对于前端业务部门来说,整个过程并没有到察觉到后台已经更换了一台存储节点…
  七千万个文件
  北京万方数据股份有限公司(简称“万方数据”)是国内较早以信息服务为核心的股份制高新技术企业,是在互联网领域,集信息资源产品、信息增值服务和信息处理方案为一体的综合信息服务商。目前,万方数据知识服务平台整合了数亿条全球优质知识资源,包括8千余种中文期刊,世界各国出版的4万余种重要学术期刊,6百多万条学术信息,1亿多条专利信息,2百多万条标准信息…


  据不完全统计,客户迄今文件数量达到约7千万个,大部分是几MB不等的小文件。并且,每天还在新增约10GB的文件数据。
  过去,这些数据主要存储在直连式存储阵列中,随着业务的持续运行,现有存储在性能,扩容,数据安全等方面逐渐难以满足需求:
  现有系统千万级小文件的存储性能不足,影响用户体验;
  系统扩容不便,难以满足不断增长的数据存储需求;
  数据是客户的核心资产,需要通过副本等方式增加数据冗余,保证数据安全;
  需要为未来的数据挖掘和分析等更多创新业务,提供更加敏捷化的基础设施就绪。
  软件定义之道
  客户决定采用软件定义存储(SDS)来解决上述问题。在5台通用服务器上部署XSKYXEDP产品,每台设备裸容量80TB,三副本数据冗余保护,通过万兆网络进行连接。


  利用XEDP提供的块存储预留为内部业务使用,对象S3则主要支撑客户的核心生产文件数据存储。在经过数个月的现场测试之后已全部转入生产,目前存储的数据约68TB。
  在之前的作业中,万方数据运维主管李工正是利用了XSKYXEDP完备的告警功能,及时发现了集群中存在故障离线的硬盘。此时基于三副本的数据保护,保证了单点故障系统并不会因此丢失数据。
  而当集群硬件异常时,或者进行硬件更换维护时,硬盘离线超时设置功能使得存储集群进入Recovery状态,将失效硬件上的数据重新分布在其他节点,业务无中断。
  此时,XSKY提供的RecoveryQoS功能,通过制定策略,数据恢复带宽得到有效限制,保障了业务性能下降幅度不超过15%。
  横向扩展架构以及小文件归并等功能,则保证了客户可方便的添加磁盘和节点,实现性能和容量的线性增长,提高小文件存储的性能。
  客户获得以下收益:
  数据高可用,三副本模式下数据持久度达到7个9;
  突破单点故障和性能瓶颈,数据0丢失,业务无中断;
  与之前存储方案相较,小文件存储场景性能提升100%;
  弹性扩展,存储性能和容量线性增长;
  全图形化界面,运维简便,运维效率提升200%;
  构建了面向未来的现代化基础架构。
  XSKY产品的自动化和智能化运维设计,令人印象深刻,我们甚至在没有知会原厂的情况下,自己就能够独立应对可能出现的意外情况。在出现单点故障时,业务无中断,数据0丢失,这给了我们极大信心来支撑未来的业务扩张。
  ——李国辉(万方数据运维主管)

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|中原工学院论坛 ( 豫ICP备11003946号 ) 百度统计

GMT+8, 2024-10-13 04:21 , Processed in 0.086742 second(s), 26 queries .

© 2010-2017 中原工学院团委 | 中工灵感论坛

请将您的想法告诉我们,帮助我们改进服务 请将您的想法告诉我们,帮助我们改进服务

快速回复 返回顶部 返回列表