GridFS 基于MongoDB的分布式文件存储系统

2016-11-08 - 1853 Words - 5,196 Views - 0 Goods - Nothing

GridFS 基于MongoDB分布式文件存储系统

什么是GridFS

GridFS是一种将大型文件存储在MongoDB的文件规范。所有官方支持的驱动均实现了GridFS规范。GridFS是MongoDB中的一个内置功能,可以用于存放文件。

为什么要使用GridFS

问题1:我之前将文件上传到文件系统中,比如通过FTP上传到文件服务器。并将文件地址存储到MySQL数据库,我觉得这个方式挺好的呀,为什么要使用GridFS?

答:文件系统到了后期会变的很难管理,同时不利于扩展,此外我想做分布式文件系统也显得不那么容易。而GridFS却正好相反,它基于MongoDB的文件系统,便于管理和扩展。

问题2:普通文件系统对于大文件处理比较麻烦,需要考虑文件系统自身的限制,GridFS提供了什么好方案?

答:GridFS 会将大文件对象分割成多个小的chunk(文件片段),一般为256k/块,每块chunk将作为MongoDB的一个文档(document)被存储在chunks集合中。这一点对于很大的内容文件非常有用。此外,GridFS和MongoDB的分片使得你的文件可以分布到多个服务器上,而且没有增加操作的复杂性。

问题3:我可以直接把文件的二进制流存到MongoDB么?

答: MongoDB默认的文件大小上限为16MB。所以,超过这个大小是有问题的。如果你的文件,比如图片、音频、视频等超过了16MB,那么你就应该使用GridFS。

GridFS 的两个集合

GridFS 使用两个集合来存储一个文件:fs.files与fs.chunks。我们可以使用下面命令来进行查看。

fs.files集合包含了文件的元数据。我们使用命令来查看

以下是刚上传文件的元数据信息的 fs.files 集合文档

fs.chunks集合则存储实际的以256KB尺寸进行分割的文件块。如果你有分片的集合,那么文件块会分布到多台服务器上。

以下是刚上传文件的fs.chunks 集合文档

GridFS 基本操作

上传文件

我们使用GridFS的put命令来存储一个文件。首先,调用MongoDB安装目录下bin的mongofiles.exe工具。然后,打开命令提示符,进入到MongoDB的安装目录的bin目录中,找到mongofiles.exe,并输入下面的代码:

参数说明,–d 指定数据库gridfs

列出清单

使用以下命令来查看数据库中文件的文档

返回以下内容

查找文件

可以看到 fs.chunks 集合中所有的区块,以下我们得到了文件的 _id 值,我们可以根据这个 _id 获取区块(chunk)的数据。

以上实例中,查询返回了 50 个文档的数据,意味着文件被存储在50个区块中。

下载文件

我们使用GridFS的get命令来下载一个文件。

Java 操作 GridFS

注意,以下是一个简单的入门案例,不适用于实际场景,实际场景需要考虑异常处理、IO流关闭、日志处理等。
使用的Maven版本

公共方法

上传文件

查找文件

下载文件

删除文件

总结

GridFS是一种大型文件存储方式之一,有其一定的使用场景,务必根据实际场景选择技术方案。

现在主流的文件存储方案,例如云存储服务,以amazon的s3云服务,七牛云存储都是不错的选择。此外,例如还有阿里开源的tair等键值结构数据的解决方案。

转载请注明原文链接:首页 -> 技术交流 -> GridFS 基于MongoDB的分布式文件存储系统
  • 支付宝打赏
  • 微信打赏

China.BeiJing

如果说人生是自我编写的程序,那么青春就是其中意味深长的代码