|
|
51CTO旗下网站
|
|
移动端

机械硬盘短命的坑,固态硬盘帮你补了,别忘了谢谢队友机器学习

信息社会也是数据的战争,个人和企业每天都在数据打交道,也就是在和存储打交道。存储无处不在,从计算、网络和服务器的应用,从移动、嵌入式到汽车工业,从消费类的智能手机、单反相机到U盘。每天,数据量正以惊人的速度增长。我们甚至可以这样总结,几乎所有科技产品都或多或少依赖存储产品。

作者:亲爱的数据来源:deardata|2018-07-11 08:45

为了让最有效的战斗力量全力奔赴主战场,作战双方不仅比拼陆海空三军,还需要动员一切支持性的力量,例如碉堡、栈道等军用建筑;例如运输铁路、码头、燃料供应站等军用设施。一般说来,著名军事基地往往代表强大的后勤力量,会和知名战役一样被人所熟知,比如珍珠港,既是美国海军基地、也是二战太平洋战区著名战役。

中国古语有云,兵马未动,粮草先行。后勤的重要性不亚于直接参与战斗的作战单元本身。在现代军事格言中也有一句——“外行研究战术,内行研究后勤”。 

外行研究战术,内行研究后勤

信息社会也是数据的战争,个人和企业每天都在数据打交道,也就是在和存储打交道。存储无处不在,从计算、网络和服务器的应用,从移动、嵌入式到汽车工业,从消费类的智能手机、单反相机到U盘。每天,数据量正以惊人的速度增长。我们甚至可以这样总结,几乎所有科技产品都或多或少依赖存储产品。

存储是计算机科学和通信技术、信息技术、大数据与人工智能发展的大后勤。这个大后勤在不断的进化,体现为更智能、更快速、更大容量。

大数据、人工智能、物联网千呼万唤存储来

如果把大数据理解成山脉,一把泥土也蕴含着信息量。在大数据中寻找信息的人,可以被比喻成淘金者,他们需要知道哪些矿石中储存有价值的贵重金属。如何才能成为一名熟练的淘金者,并有效地筛选、找到并识别这些矿藏?这里需要快速的数据分析来有效地提取重要的信息。为了更好地处理数据,计算机系统需要有效的、延迟时间最短的闪存。

当前的需求应用场景包括小型可穿戴设备每天监测人体数据的能力在不断增强,无论是检测心率和记录睡眠,医疗设备监测血糖水平和血压。这些都需要闪存的助力。随着物联网设备数量不断提高,以及跟踪患者健康状况的工具不断增加,每分钟的数据量都在增加。

当广告商发广告,要在社交媒体的新闻信息流中推送时,必须筛选所有可用数据,以做到兴趣的精准匹配。例如当地理位置为北京朝阳区的用户,在京东购物的中选择了浏览北京地区商品的历史记录、又获得了常用视频软件的订阅数据和百度搜索数据。现在能够做到快速将这些信息整合在一起,将用户感兴趣的汽车商品放置在浏览推荐首页中。

如果用户搜索历史中有过“如何更改2018奥迪A8刹车片”的搜索历史、又收藏了关于汽车品牌类别的短视频,匹配到《极客汽车》收藏《购买刹车片一站指南》的文章,根据以上历史数据,机器学习算法可以轻松地为当地的汽车配件商店制作广告。随着人工智能技术的发展变得更加智能。再假如几日后,支付宝交易数据将告诉我们,目标用户已经购买了刹车片,这就太好了。下一步,广告商可能会专注于预测该用户可能需要千斤顶支架。

为了识别数据中的“黄金”、足够快地分析这些数据,能够创造看得到的价值,给人类生活带来便利,给企业带来高效。为了持续提升便利以及智能化水平,企业客户与数据中心需要更快更高效的企业级智能存储解决方案。

归根结底,大数据时代,海量数据不仅对存储空间需求与日俱增,随着云计算、物联网、人工智能等新一代信息技术的涌现,传统机械硬盘在性能上已无法满足。企业级固态硬盘(EnterpriseSolid State Drives,ESSD)高传输速率、低延迟、低能耗、低噪音、抗震等优势正逐步在数据中心、互联网企业等领域需求快速增长。固态硬盘所用的闪存是硅半导体行业的高技术结晶。沙子中的二氧化硅经处理制取高纯硅,熔炼成硅锭并切割成圆片,形成了晶圆的最初形态。硅基的这种复杂性,给技术创新留下了想象空间。固态硬盘,可以简单理解为加了控制器的闪存,控制器的性能影响闪存速度。可以更简单的理解为固态硬盘主要由主控芯片+闪存颗粒组成。

图一:企业级固态硬盘总体市场

市场普遍分析认为:固态硬盘市场属于成熟时期,三星独步固态硬盘市场已经是不争的事实。就2018年第一季度的数据显示,三星以39.1%稳居第一把交椅,英特尔紧随其后17.7%。39 年的发展历程美光(Micron)拥有10.9%的份额。即使不细数英雄榜的后几位,我们也可以明显观察的到,这是一个被国外巨头垄断的市场。

图二:2018年第一季度企业级固态硬盘供应商市场份额

图三:全球企业级固态硬盘接口趋势

图四:全球企业级PCIe固态硬盘出货量

企业级固态硬盘现阶段有三种接口,PCIe是快速增长的部分。

杨亚飞博士关于企业级固态硬盘的技术问题:

问题一:简单来讲,存储分成两类,机械硬盘和固态硬盘,固态硬盘的性能和功耗都比机械硬盘要好很多,性能是快了十倍的,为什么过去没有推广开?

答:是被固态硬盘的价格所止步,随着每单位GB容量的增加,价钱成倍增加。

问题二:为什么判断未来几年企业级市场会有一场非常大的突破?

答:到目前为止,所有的数据中心包括国外的亚马逊、微软、Facebook,国内的滴滴、京东,目前企业级固态硬盘使用比例占到整个存储总量低于百分之二十,因为要考虑成本,能够用机械硬盘的都用机械硬盘,但未来几年闪存颗粒介质一直在革命,过去的SLC到MLC再到TLC,后来是3DTLC,三十二层到六十四层,今年的主流是六十四层,明年就是九十六层,2021年大概会有一百四十层,而且每个GB的价钱会迅速回落。

问题三:固态硬盘的主控芯片是不是技术瓶颈?

答:不是。

主控芯片确实非常关键,一方面是连接了闪存颗粒,闪存颗粒可以理解为装数据的仓库。主控芯片就是管理员,要把主机从服务器端来的数据放到仓库,主机读取数据的时候可以把仓库当中的数据送出去,另一方面是连接主机,支撑主机上面的大数据、云计算和人工智能各种各样的应用。两边实际上技术进步都很快,中间存储管理和控制实际上还是用着相对比较落后的技术。随着技术的演进,主控芯片的运算速度越来越快,存储器的存储容量也越来越大,主控芯片和存储器都进步很快,中间存储管理和控制技术还相对比较落后,需要技术创新与变革。

问题四:计算、存储和智能的融合是未来的趋势吗?

答:是的。

现在已经实现了把计算和很多其他智能的元素放到了固态硬盘的主控芯片上面。以前计算和存储是分离的,存储和显示都是处理器的外部设备,我们认为到了人工智能和大数据时代,存储和计算是融合的,因此首次在存储盘上开始实现部分计算。为了夯实功能,要把最基础的、通用的计算做好。比如数据格式算法、非结构化数据在盘里查询,以及数据的排序等在固态硬盘上来完成,能不能做好是存储领域未来的一次革命。

问题五:如何用机器学习解决延长闪存颗粒的寿命?

第一、我们先了解一下固态硬盘的死法,才能更好的理解什么是延长寿命。

简单来讲,闪存颗粒是分成很多块的。比如采购的一个颗粒分为成百上千块,每块又是分成页为单位的,每一页可以理解为就是一个黑板,数据来了以后就可以迅速往上面写字,一页写满再写下一页。存储有一个很大的特点,数据总是在更新,比如写了一个Word文档一直在存,大概有上百个版本,上百个拷贝,新的拷贝进去以后旧的拷贝就没有用了,变成了垃圾。理想情况是垃圾是可以删除的。但实际上硬盘上不是这样操作的,不是实时删除,如果有新的拷贝来了,旧的拷贝标记一下就变成垃圾了,这样有效数据与无效数据就混在一起。

闪存的擦除有一个整块充放电的过程,充放电以后这一块就没了。但是问题来了,一个块当中的页不都是垃圾,因为数据是按顺序写进来的,我们写的Word文档分到这里可能就是垃圾,但是照了一张相进来放在这里就不是垃圾,所以每次回收的时候就变成了把有用的数据搬到旁边的仓库,再回收。小小的一块盘里面的迁徙过程相当于引入了多余的写入的工作,反复工作,累死方休。每一块的擦写次数是一千次到三千次,超过这个次数就被击穿了,这个块就坏掉了。

第二、如何降低这种擦写次数是存储领域最重要的环节,考虑使用机器学习的算法是关键。数据一进来就开始预测这个数据的生命周期是多长。可以比喻为:不求同年同月同日生,但求同年同月同日死。就是把相同生命周期的数据整合管理,比如四十八小时、七十二小时内的数据肯定会被新的代替,变成垃圾,把这些数据放到一个块里面,将来一次性回收是最干净的,大大降低多余的写入工作,效率大大提升。这个方法用数据中心提供的标准数据集做了大量仿真和测试,效果还是非常惊人的,达到了三到五倍以上。

问题六:消费级的颗粒和企业级颗粒有何区别?

通常消费级的颗粒的生命要比企业级的寿命短很多。

使用一块固态硬盘放到笔记本电脑当中,假如是1TB的硬盘,里面每个颗粒的擦写次数只有五百次,什么时候这块硬盘会坏掉?需要500TB的数据,就是往里面写500TB以后这个数据完整地坏掉了,因为每一块都被擦写了500次。今生今世就这500次。笔记本电脑不会遇到这样的一天,因为一般其它地方坏了硬盘还用不坏,所以这就是为什么存储厂商会把质量相对较低的闪存用于消费级产品。

企业级的闪存为什么寿命一般都要很长?从闪存出厂测试与参数配置方面,会与消费级不一样;另一方面因为一台服务器可能支持成千上万的用户,企业级固态硬盘不间断的高强度工作,反复擦反复写,就是这样的一个过程。

综合来看,消费级闪存和企业级闪存有不同的应用场景,当然也会有不同的成本,我们会研究如何把一个等级的闪存用好,如何用到高等级的产品上。

问题七:人工智能如何在固态硬盘上体现?

通俗的说,使固态硬盘变得越来越聪明。搬运工的学习能力原来可能是小学生的水平,升到了大学生的水平,要有一个运筹学和优化在里面,这是人工智能在固态硬盘上的具体体现。产品是在服务器上放着的,不是消费级的产品,是企业级别的。人工智能在固态硬盘上的应用讲起来比较庞杂,我举两个例子。第一、比如固态硬盘对主机端IO的行为学习,可以做到随机场景下的预取,因为实际应用场景从统计学的角度,是可以找到规律的,这样可以提升固态硬盘的性能,这就是机器学习算法在固态硬盘上的应用。第二、再比如固态硬盘上如果有一些计算功能的话,可以减轻主机CPU的负担,因为很多工作都是在固态硬盘上面已经完成了,无需劳驾CPU,数据送上去的时候量就会大大减少,也会减少整个计算机的PCI总线传输量,一石二鸟,效果是系统性的提升。

闪存是基本的存储单元,实际上是通过电压区分的,一开始区分度是非常好的后来越来越模糊彼此之间的界限,可能会出现比特反转。这时候,就有很多可以提高的技术关键点,把这些技术关键点处理好以后,这一块固态硬盘就会变得非常聪明,而且它的成本也会降下来。数据战争中,存储是重要的后勤力量。技术发展这个大后勤不断的进化,需要我们不断的努力。

杨亚飞博士简介:

美国罗德岛大学电子工程博士,微电子与信息安全专家,曾任美国高通公司(Qualcomm)首席科学家办公室高级主任,负责物联网芯片、智能手机芯片、服务器芯片、汽车芯片、路由器芯片等产品安全。也是美国白宫72亿美元国家宽带计划评审专家,2010年,收到时任美国商务部长骆家辉感谢函,表彰其为美国经济复苏所做贡献。2009到2016年间,多次担任国际智能、安全、大数据会议主席。现任深圳大普微电子科技有限公司CEO。

【编辑推荐】

  1. 想知道硬盘是否可以被恢复
  2. SSD固态硬盘结构:主控算法、固件、NAND闪存
  3. 不用Raid机械硬盘也能高速?这样方法你不知道吧!
  4. 东芝硬盘携手深安协 深化智能安防领域合作
  5. SSD硬盘与HDD硬盘的价格比较
【责任编辑:武晓燕 TEL:(010)68476606】


点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

超级网管员——网络安全

本书全面深入地介绍网络安全的配置与实现技术,包括系统管理、用户账户、病毒防御、灾难恢复、文件备份、安全策略、注册表等服务器安全,用...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊