FastDFS - 海量小文件存储解决之道 (肺癌十天的发展速度)

文章编号：34187 / 分类：行业资讯 / 更新时间：2024-12-11 02:08:05 / 浏览：次

FastDFS是一个C语言实现的开源轻量级分布式文件系统，适用于Linux、FreeBSD、AID等Unix系统，特别适合存储4KB~500MB之间的海量小文件，适用于在线服务如图片、视频、文档等。

系统主要由三个部分构成：Tracker Server、Storage Server和Tracker Server的组管理与数据同步服务。

Tracker Server负责调度工作，实现负载均衡。

其功能包括服务注册、服务发现和负载均衡。

服务注册允许StorageServer在启动时自我注册，并定期报告磁盘剩余空间、文件同步状况、文件上传下载次数等信息。

服务发现则要求客户端在访问StorageServer前，先访问TrackerServer以获取StorageServer的连接信息。

负载均衡策略包括轮询方式、指定组和平衡负载三种，可依据IP地址或上传优先级等进行选择。

Storage Server负责文件的存储与读取。

其功能包括根据分配的Group、Storage Server和storage path写入文件，并生成file_id以作为文件名。

file_id包含源storage server IP、文件创建时间、大小、CRC32校验码和随机数。

在生成两次hash路由后，文件存储在分配的目录下。

下载流程包括解析路径、校验文件存在并返回文件数据。

引入FastDFS_Nginx_Module组件后，下载架构增强了防盗链检查、文件元数据解析和文件访问路由功能。

防盗链检查通过动态生成token进行验证，文件元数据解析获取源storage IP、文件路径、名称和大小信息，文件访问路由依据源服务器IP来重定向或代理获取文件。

配置项如response_mode支持重定向或代理。

同步机制包括同步规则、Binlog复制和同步流程。

同步只在本组的Storage Server之间进行，源头数据需要同步，备份数据无需再次同步。

新增Storage Server后，组内其他Server会启动同步线程，执行全量和增量同步操作。

Binlog文件记录文件上传、删除等操作，用于文件同步。

在小文件存储方面，FastDFS提供文件合并解决方案。

默认存储方式为每个file_id对应一个文件，合并存储方式将多个file_id对应的文件存储为一个大文件。

存储空间管理由Trunk Server负责，通过空闲平衡树分配与回收空闲块。

文件去重需结合FastDHT使用，通过文件内容哈希判断一致性。

FastDFS是一个管理上传文件、图片等应用级文件系统的系统，不具备系统级文件系统如NTFS或FAT的功能。

解密！FastDFS的安装及部署（实战篇）

分布式文件系统(Distributed File System)旨在解决海量数据存储与访问问题，尤其在高访问量场景下，确保高效稳定。

相较于传统文件系统，分布式文件系统通过在多台服务器间分布存储，实现负载均衡与高可用性。

接下来，我们将深入探讨主流分布式文件系统，包括HDFS、GFS与FastDFS，并重点解析FastDFS的安装及配置流程。

FastDFS架构

FastDFS架构由Tracker Server与Storage Server组成。

客户端通过Tracker Server调度，最终由Storage Server完成文件的上传与下载。

Tracker Server负责负载均衡与调度任务，而Storage Server主要负责文件的实际存储。

FastDFS集群

FastDFS采用集群模式，Tracker Server之间平等提供服务，确保无单点故障。

集群中Tracker Server通过轮询方式处理客户端请求。

Storage集群采用分组存储模式，由一个或多个组构成，集群总容量为所有组容量之和，单个组由多台服务器组成，组内服务器间进行文件同步，确保文件一致。

文件上传流程

客户端上传文件后，FastDFS返回文件ID，用于后续的访问。

文件ID包括组名、虚拟磁盘路径、数据目录与文件名。

其中，组名由客户端自行保存，虚拟磁盘路径由Storage配置，数据目录与文件名由服务器生成。

FastDFS安装配置

FastDFS安装涉及gcc、libevent与libfastcommon的安装。

libfastcommon是FastDFS提供的基础库，用于文件解析、日志、随机数生成等。

配置方面，需修改与文件，设置基础路径与存储路径。

最后，启动服务完成安装。

结语

FastDFS作为专为互联网应用设计的分布式文件系统，具备高性能与高可用性。

通过理解其架构与配置流程，您将能轻松搭建并使用FastDFS，应对高流量数据存储与访问需求。

期待后续内容进一步探讨FastDFS的文件存储、同步与访问机制，以及如何借助FastDFS实现大容量存储与负载均衡。

FastDFS中的配置文件详解

FastDFS配置文件的解析在FastDFS配置文件中，包含多个关键配置项，用于管理服务器、客户端交互、文件存储与同步、HTTP服务等功能。

以下为配置详解：1. 基本配置：disabled：控制配置文件是否生效。

值为false时生效。

group_name：指明storage服务器所属的组名。

bind_addr：设定服务器绑定的IP地址，当指定了此参数时，client_bind参数才有效。

client_bind：决定是否绑定指定的IP地址，值为true时绑定，false时绑定任何IP。

port：服务器端口。

其他参数如：connect_timeout、network_timeout、heart_beat_interval、stat_report_interval等，分别控制连接超时、网络超时、心跳发送间隔、硬盘使用情况检测间隔。

base_path：存储路径基础目录。

max_connections：服务器最大并发连接数。

buff_size：缓冲区大小，用于接收和发送数据。

work_thread：工作线程数量，应小于等于max_connections，默认为4。

store_path_count / store_path：存储路径数量及具体目录。

subdir_count_per_path：文件存储的目录数量，默认为32。

tracker_server：配置tracker服务器列表及其端口号。

log_level：日志级别。

run_by_group、run_by_user：控制运行组及用户。

allow_hosts：允许连接的客户端IP列表。

file_distribute_path_mode：文件分发到data path方式，0为轮询，1为随机哈希。

file_distribute_rotate_count：轮询方式下文件转至下一个path的计数。

thread_stack_size：线程栈大小，至少512KB。

upload_priority：上传优先级，值越小优先级越高，默认10。

if_alias_prefix、check_file_duplicate、key_namespace、keep_alive：分别涉及别名前缀、文件重复检查、命名空间和连接方式。

2. I/O管理与同步：disk_rw_separated：是否进行I/O分离，默认为true。

disk_rw_direct：是否直接写入，不使用缓存，默认为false。

disk_reader_threads、disk_writer_threads：分别设置读线程数和写线程数，对于I/O分离方式，写线程数默认为0。

3. 同步机制：sync_wait_msec：同步文件时的休眠时间，单位为毫秒。

sync_interval：同步后到下次同步的休息时间，单位为毫秒。

sync_start_time、sync_end_time：每日同步开始与结束时间，格式为HH:mm。

write_Mark_file_freq：定期将storage的mark文件同步到磁盘的时间间隔，单位为秒。

fsync_after_written_bytes：写入大文件时，每写入N字节调用fsync。

sync_log_buff_interval、sync_binlog_buff_interval、sync_stat_file_interval：分别控制日志、binlog、stat文件同步到磁盘的时间间隔，单位为秒。

4. HTTP服务相关：控制HTTP服务是否启用。

_name：如果为空，则使用IP，否则通过tracker进行重定向。

_port：HTTP服务端口号。

_size：trunk文件大小。

_find_content_type：是否需要从文件扩展名确定文件内容类型。