解决方案

应用数据备份与恢复

痛点

核心应用的数据需要经常备份,而且会基于一套完整严谨的备份策略保存较长时间段内多个版本的全量和增量备份,需要的空间通常是应用数据本身的十倍以上,比如 MySQL / MongoDB。

现在使用最多的是云硬盘。因为云硬盘只能单机访问,为多个应用实例做备份就需要维护很多磁盘,而且会遇到最大容量限制,需要做好容量规划,管理复杂。使用备份数据时,需要先找到对应的磁盘,挂载到用来恢复应用的主机上,这个过程难以自动化,运维效率难以提升。

如果上传至对象存储归档,虽然能弹性扩容,价格也便宜,但是备份 - 验证 - 恢复的流程需要很长时间。在 GitHub 2018 年数据库脑裂的事故中,大约有 8 小时花在从对象存储下载备份数据。

方案

将 JuiceFS 挂载到做备份的应用节点(比如数据库的副本节点),执行物理备份命令,将数据直接写入 JuiceFS 挂载目录。写入过程 JuiceFS 会自动压缩数据,大幅降低网络数据传输,提升速度。

还可以开启数据加密,在备份同时并行完成数据加密,保障数据隐私安全的同时,仍然保持高备份效率。

JuiceFS 支持基于目录的原子快照,可以对备份数据创建快照,然后使用快照数据启动 MySQL 实例验证备份正确性,过程中的数据基于 copy-on-write 机制修改,不会破坏原始备份。验证完成后直接删除快照即可。

日志收集与归档

痛点

如今,日志已经不仅仅用在系统问题的定位上,很多用户访问相关的日志已经被广泛使用在商业智能领域,通过对日志分析和挖掘可以发现很多被忽视的重要价值,提升用户体验,增加商业价值。对日志数据的收集和归档就是迈向商业智能的第一步。

每个业务服务都会产生日志,所以日志产生是极度分散的,需要一个服务把散落在各个节点的日志收集汇总到一起做归档。在开源和商业领域,已有不少日志收集系统,但是它们的部署、维护、故障处理很复杂,需要持续投入人力运维。

同时,归档好的日志经年累月,需要很大的空间存储,一方面要能满足分析计算的性能需求,一方面成本也要经济。对象存储虽然满足弹性扩展、价格便宜的优势,但在分析、查询、管理上很不方便,性能差、人效低。

方案

JuiceFS 有多机共享的特性,又可以基于目录结构归档管理,天生适合做日志收集和归档。只需将 JuiceFS 挂载到所有产生日志的节点(可以是容器、虚拟机、物理机),利用系统自带的日志滚动机制就能完成自动改名、打包、压缩、复制到 JuiceFS 中。

使用 JuiceFS 做日志收集、归档会为你带来以下优势:

  1. 无需再维护收集组件,部署大量的 agent;

  2. 完全兼容 POSIX,没有任何学习门槛;

  3. 兼容 Hadoop 生态的计算框架,性能是对象存储的十倍以上;

  4. 查询方便,兼容所有 Linux 命令行工具;

  5. 弹性伸缩,容量无限,再也不需要做容量规划;

  6. 支持回收站,防止误删除。

数据共享

痛点

NAS 是企业数据共享最普遍的方案,但是维护高可用的 NAS 非常困难。而且还要优化 NFS 网关的性能瓶颈,访问机器数量有限,明文数据传输不安全等多项问题。企业数据共享需要新一代存储产品的支持。

方案

JuiceFS 是理想的企业级 NAS 替代品。它具有高可用,弹性伸缩,加密传输 & 存储,支持上千台机器同时挂载共享数据等特性。可以完全兼容现有的应用,无需修改一行代码即可完成 JuiceFS 迁移。

使用 JuiceFS 进行数据共享有以下优势:

  1. 基于 Raft 协议的高可用性;

  2. 容量弹性伸缩,可达 10PB;

  3. 支持上千个客户端同时挂载,同时读写;

  4. 毫秒级时延,高吞吐量;

  5. 使用 TLS 加密传输,访问安全。

  6. 支持快照、回收站、完整的 Linux 权限控制。

异地灾备

痛点

数据不灾备,业务两行泪。即使是 Google 的数据中心,也发生过被雷劈丢数据的事故。很多客户都忽视了异地灾备,重要数据需要在不同城市甚至不同国家之间做备份。以保证业务的安全性和连续性。

在过去的异地灾备方案中,通常需要在异地建设机房,即使使用公有云也往往需要搭建一套计算资源,用来和主要的业务中心做通信完成备份任务。人力物力的投入都是很大的,这也是异地灾备在过去一直难以实现的原因。

方案

JuiceFS 提供全自动的数据复制,可以跨服务区,跨云厂商。混合云客户也可以轻松将 IDC 中的数据通过 JuiceFS 备份上云。

使用 JuiceFS 做数据异地灾备有以下优势:

  1. 全自动,无需任何干预;

  2. 可以复制到任意可用区和公有云平台;

  3. TCO 大幅下降,异地只消耗对象存储,节省了大量 CPU、内存资源;

  4. 提供亚分钟级的中美跨大洲数据复制能力;

  5. 数据分块加密存储,放心备份敏感数据;

  6. JuiceFS 默认跨两个可用区部署,相当于同城双活,不受公有云单可用区故障影响。

大数据

痛点

公有云上的 HDFS 需要使用云硬盘搭建,成本是使用裸硬盘的三倍以上,而且公有云不提供 HDFS 的全托管式服务,需要自己运维。

如果将对象存储用于大数据分析,性能差,且缺少一致性保证,会带来计算错误。

方案

JuiceFS 是全托管服务,保证 99.95% SLA,无需客户运维。容量弹性伸缩无上限,成本相比使用云硬盘自建 HDFS 节省 60% 以上。 而且 JuiceFS 与 Hadoop / Spark / Hive / HBase / Presto / Impala 等完全兼容。即可以将 JuiceFS 作为 HDFS 的补充,保存空间需求最多的冷数据。也可以用 JuiceFS 完全替代 HDFS,实现存储与计算分离,更好的利用公有云计算弹性伸缩的能力;

使用 JuiceFS 作为大数据存储有以下优势:

  1. JuiceFS 无需任何运维,99.95% SLA。

  2. 容量弹性伸缩,适合海量数据归档,无需容量规划;

  3. 数据强一致性保证;

  4. 性能比对象存储高数十倍以上;

  5. 与云上自建 HDFS 相比,成本节省 60% 以上;

  6. 临时查询可以直接用 Linux 命令行完成。如果数据存在对象存储中,需要先下载再使用,浪费大量时间。

人工智能

痛点

人脸识别技术已经应用到各种生活场景之中,自动驾驶离我们好像也越来越近了。在人工智能到来的今天,一切的“智能”源于对海量信息的处理和分析能力,这里的信息包含千千万万中形式,有文本、图片、音频、视频、医学影像,还有来自于各种传感器采集到的数据。数据量正在指数级的增长,对我们的存储提出了新的挑战。

我们走访了很多人工智能领域的顶尖团队,看到数据存储是大家正在共同面对的挑战,尤其在图像识别、声音合成、自动驾驶等领域,要存储和处理数以十亿,甚至百亿级别的数据量。对于现有的存储系统都是巨大的挑战。

方案

JuiceFS 对机器学习场景和亿级文件规模做了针对性优化,为模型训练提供充沛的 I/O 能力。JuiceFS 使用 POSIX 接口,无需任何定制开发就能支持 TensorFlow / MXNet / Caffe / PyTorch 等机器学习框架。

在机器学习场景下,JuiceFS 具有以下优势:

  1. 针对亿级 inodes 优化,内存效率是现有开源存储方案的 5~10 倍。

  2. 有完备的缓存策略提升机器学习场景下的 I/O 负载需要。

  3. 无需任何定制开发、API 适配。

  4. POSIX 提供了直观的数据管理方式。

  5. 多集群之间的数据共享。