互联网分布式存储入门

存储 存储软件 分布式
在Google、Amazon、腾讯等大型互联网公司里,因为业务广泛,有大量的用户数据需要保存,因此分布式存储系统往往成为该类公司的一个基础设施。分布式存储涉及到单机存储引擎、分布式系统协议等众多领域,该篇文章作为一个入门,带领大家认识分布式存储系统的基本概念。

在Google、Amazon、腾讯等大型互联网公司里,因为业务广泛,有大量的用户数据需要保存,因此分布式存储系统往往成为该类公司的一个基础设施。分布式存储涉及到单机存储引擎、分布式系统协议等众多领域,该篇文章作为一个入门,带领大家认识分布式存储系统的基本概念。

分布式存储应该满足的基本条件

  • 可扩展

以微信朋友圈的图片为例,随着微信运营时间的增长,需要保存的朋友圈图片必然是越来越多的,因此保存这些图片的分布式存储系统必须可扩展。

  • 低成本

对于大型互联网公司来讲,要保存的数据量非常大,因此成本是考量一个存储系统是否可上线运营非常重要的一个指标。

  • 高性能

无论是对整个分布式存储集群还是针对单机的存储引擎,都需要高性能的保证,否则低成本就无从谈起。

  • 易用性

分布式存储系统作为一个基础设施,必须具备足够的易用性,才能更好地服务于各个业务。比如Amazon的S3,接口形式统一,接入简单。

分布式存储系统面临的主要技术挑战

  • 数据分布

整个存储系统是一个集群,如何保证数据均匀分布到多台服务器?假设某一数据被拆分存储到多台服务器后,又该如何实现跨服务器读写?

  • 一致性

出于数据可靠性的考虑,同一份数据必然是保存多份的,如何保证这多份数据的一致性?

  • 容错

对于一个集群而言,机器出现故障是必然的。如何在出现故障时做到及时发现,并且自动把故障机器上的数据和服务迁移到非故障机器?

  • 负载均衡

任何一个集群系统都存在负载均衡的策略问题,分布式存储系统自然不例外。

  • 事务与并发控制

如果要求该分布式存储系统支持事务和并发控制功能,该如何实现?

  • 易用性

易用性前面有提,不再赘述。

  • 压缩/解压缩

怎样根据数据的特点设计、选用合理的压缩/解压缩算法以平衡压缩带来的空间节省和消耗的CPU计算资源。

分布式存储系统存储的数据分类

互联网业务涉及的数据一般可以分为三大类:

1.非结构化数据

典型的如图片、音视频文件等。

2.结构化数据

传统的用关系型数据库保存的二维表结构数据。

3.半结构化数据

介于结构化数据和非结构化数据之间,典型的比如HTML文档。

分布式存储系统分类

基于上述数据类型存储的实际需要,分布式存储系统逐渐演化为以下四种类型:

1.分布式文件系统

一般用于存储非结构化数据。比如HDFS、TFS(Taobao File System)、FastDFS等。

2.分布式键值系统

可以通俗地理解为hash表,如淘宝的Tair、Redis、memcached等,一般用于存储半结构化数据。

3.分布式表格系统

也用于存储非结构化数据,相比分布式键值系统,不单单提供基于主键的读写,还支持对某个主键范围进行扫描,典型的比如Google的Big Table。

4.分布式数据库

由单机数据库发展而来,用于存储结构化数据。典型的如MySQL Sharding集群。

责任编辑:武晓燕 来源: 今日头条
相关推荐

2021-11-29 08:18:22

架构互联网分布式

2018-12-26 08:54:06

架构开源框架微服务

2017-10-27 08:40:44

分布式存储剪枝系统

2015-05-12 13:03:54

开源分布式存储HDFS

2015-12-07 09:58:45

初志科技云存储

2014-10-11 09:16:59

互联网协议

2010-07-19 10:05:56

ibmdw存储系统

2018-02-22 08:42:04

分布式存储安全

2015-06-24 15:35:54

2017-10-17 08:33:31

存储系统分布式

2018-01-02 20:00:28

数据库MySQL分布式存储

2017-04-14 09:48:25

分布式存储系统

2018-10-09 10:45:40

2015-10-08 15:20:34

互联网物联网

2017-01-10 16:18:26

分布式存储建设

2014-01-15 14:35:35

云计算

2015-05-28 16:11:07

互联网+

2015-10-30 17:50:18

互联网金融

2018-08-15 09:02:59

产业互联网工业互联网物联网

2012-05-24 09:22:22

虚拟化互联网数据爆炸
点赞
收藏

51CTO技术栈公众号