在大数据平台中使用 JuiceFS

背景与挑战

基于 Hadoop 生态的大数据分析平台是非常流行的,它内置的存储系统 HDFS 在管理和运维上要投入很多精力,增长到大数据量和大文件量的时候,社区对其扩展能力的限制和运维上的挑战已经有了共识。JuiceFS 解决了那些问题,为云而设计,为用户提供全托管服务,无需运维,在单一文件系统下可以管理百亿文件,是公有云大数据平台理想的数据存储选择。

当使用 Hadoop 的公司由机房迁移到公有云时,首要挑战就是如何迁移 HDFS 中存储的数据。通常公有云并不提供完全托管的 HDFS 解决方案,仍需要客户自己运维。 此外,虽然 HDFS 是自建数据存储系统的常见选择,但它跟公有云已有的存储产品配合得并不好,无法发挥公有云的弹性优势,使得效果大打折扣。

让大数据平台使用对象存储也有很多问题。对象存储不是文件系统,缺乏 Hadoop 和 Spark 等计算组件严重依赖的一些特性,如数据强一致性、原子重命名等,无法保证计算任务的正确、稳定和高性能。

JuiceFS 作为基于对象存储实现的文件系统,在保持对象存储的弹性伸缩、免运维和低成本优势的同时,通过自身提供的强一致、高性能、高可用元数据服务,保障大规模数据分析任务的正确、稳定、高效地执行。

下面我们告诉你 JuiceFS 如何以更快速、更省钱、更简单的处理 PB 级数据规模的生产任务。

JuiceFS 带给 Hadoop 用户的好处

  • 大幅降低存储成本

    维护 HDFS 集群,除了磁盘成本,还有 CPU 和内存。JuiceFS 是完全托管的存储方案,不需要考虑这些,也不需要预先部署 3 倍以上的存储空间,容量是弹性伸缩的,这也意味着不用考虑资源使用率的问题。同样的数据量,JuiceFS 可以节省 70%。

  • 没有 Java Full GC 带来的困扰

    HDFS 是用 Java 编写的,会遇到垃圾回收带来的系统卡顿,导致整个集群在不可预知的时间内停止响应。JuiceFS 没有这样的问题。

  • 无需持续的容量管理和扩容操作

    HDFS 通常需要做持续的容量规划和管理,并持续地纵向或者横向扩容以满足不断变化的存储需求。 而 JuiceFS 是完全弹性的,只需要为实际使用量付费。

  • 无需担忧可用性

    HDFS 需要持续的监控和运维操作以保证服务的高可用,JuiceFS 有专门的团队帮您解决这些问题,更高效的故障切换方案也会给可用性带来保障。

  • 无需昂贵的第三方专业服务费用

    因为 HDFS 的复杂性,很多公司会购买昂贵的第三方专业服务来保证 HDFS 的稳定运行。 JuiceFS 作为全托管服务,我们会负责 JuiceFS 的可靠稳定运行,可以让你把现金和精力放在更需要的地方。

  • 可以跨区(Region)和公有云进行数据复制

    HDFS 不支持异地数据复制,客户需要自行设计和实施其他复杂的数据复制方案,效果也非常有限。 JuiceFS 允许你将数据复制到任何云的任何区域,使得你可以在两个云同时非常高效地访问同一份数据,也可以在两个公有云或者两个区之前无缝迁移计算任务。

  • 近实时的全球数据复制能力

    JuiceFS 还提供全球范围内任意公有云和区域间的近实时数据镜像,在保证数据一致性的前提下,只有秒级的数据延迟。

  • 数据隐私保护

    安装在主机中的 JuiceFS 客户端直接与对象存储通信,你的数据绝不会经过我们的服务器或第三方代理,保证数据的绝对隐私。 数据复制也完全是通过你主机上的客户端完成的。