书栈网 · BookStack 本次搜索耗时 0.053 秒,为您找到 621 个相关结果.
  • Spark Tuning Guide

    Spark Tuning Guide Writing General Tips Spark failures Hudi consumes too much space in a temp folder while upsert How to tune shuffle parallelism of Hudi jobs ? GC Tuning ...
  • 写入数据

    写操作 DeltaStreamer Datasource Writer 与Hive同步 删除数据 存储管理 这一节我们将介绍使用DeltaStreamer 工具从外部源甚至其他Hudi数据集摄取新更改的方法, 以及通过使用Hudi数据源 的upserts加快大型Spark作业的方法。 对于此类数据集,我们可以使用各种查询引擎查询 它们。 ...
  • 对比

    对比 Kudu Hive事务 HBase 流式处理 对比 Apache Hudi填补了在DFS上处理数据的巨大空白,并可以和这些技术很好地共存。然而, 通过将Hudi与一些相关系统进行对比,来了解Hudi如何适应当前的大数据生态系统,并知晓这些系统在设计中做的不同权衡仍将非常有用。 Kudu Apache Kudu 是一个与Hudi具有...
  • 对比

    Kudu Hive事务 HBase 流式处理 Apache Hudi填补了在DFS上处理数据的巨大空白,并可以和这些技术很好地共存。然而, 通过将Hudi与一些相关系统进行对比,来了解Hudi如何适应当前的大数据生态系统,并知晓这些系统在设计中做的不同权衡仍将非常有用。 Kudu Apache Kudu 是一个与Hudi具有相似目标的存储系统...
  • Basic Configurations

    Basic Configurations Hudi Table Config Hudi Table Basic Configs Spark Datasource Configs Read Options Write Options Flink Sql Configs Flink Options Write Client Configs Comm...
  • Troubleshooting

    Troubleshooting Writing Tables org.apache.parquet.io.InvalidRecordException: Parquet/Avro schema mismatch: Avro field ‘col1’ not found java.lang.UnsupportedOperationException: org...
  • 查询数据

    查询 Hudi 数据集 查询引擎支持列表 读优化表 实时表 Hive 读优化表 实时表 增量拉取 Spark 读优化表 实时表 增量拉取 Presto Impala (3.4 or later) 读优化表 查询 Hudi 数据集 从概念上讲,Hudi物理存储一次数据到DFS上,同时在其上提供三个逻辑视图,如之前 所述。 数...
  • Clustering

    Clustering Background How is compaction different from clustering? Clustering Architecture Overall, there are 2 steps to clustering Schedule clustering Execute clustering Clu...
  • 快速开始

    Quick-Start Guide 设置spark-shell 插入数据 查询数据 更新数据 增量查询 特定时间点查询 删除数据 Pyspark 示例 设置spark-shell 请注意以下事项: 插入数据 查询数据 更新数据 增量查询 特定时间点查询 删除数据 从这开始下一步? Quick-Start Guide ...
  • Docker 示例

    Docker Demo A Demo using docker containers Prerequisites Setting up Docker Cluster Build Hudi Bringing up Demo Cluster Demo Step 1 : Publish the first batch to Kafka Step 2: ...