西南证券开户

Apache Iceberg

跟踪超大规模表的新格式 Apache Iceberg

Apache-2.0
Java
跨平台
Apache
2020-04-30

Apache Iceberg 是一种新的表格格式,用于存储和分析大型的、移动缓慢的表格数据。它的工作方式类似于 SQL 表,它旨在改进内置在 Hive、Presto 和 Spark 中的事实上的标准表布局。

对于使用者来说:

  • 模式演化()支持添加、删除、更新或重命名,并且没有副作用
  • 隐藏分区()可以防止导致错误提示或非常慢查询的用户错误
  • 分区布局演变()可以随着数据量或查询模式的变化而更新表的布局
  • 时光穿梭()可使用完全相同的表快照实现重新查询,或者使用户轻松检查更改
  • 版本回滚使用户可以通过将表重置为良好状态来快速纠正问题

可靠性与性能方面,Iceberg 可用于生产中,它的一个表可以包含数十 PB 的数据,即使没有分布式 SQL 引擎也可以读取这些巨大规模的表。

  • 扫描速度很快,无需使用分布式 SQL 引擎即可读取表或查找文件
  • 高级过滤,使用表元数据对数据文件以分区和列级统计信息进行修剪

Iceberg 旨在解决最终一致的云对象存储中的正确性问题:

  • 可与任何云存储一起使用,并且通过避免列出(list)和重命名,可以在 HDFS 中减少 NN 拥塞
  • 可序列化的隔离,表更改是原子性的,对外永远不会有部分更改或未提交的更改
  • 多个并发写入器使用乐观并发,即使写入冲突,也将重试以确保兼容更新成功
的码云指数为
超过 的项目
加载中
此软件有 1 条评论,请先登录后再查看。

暂无资讯

暂无问答

Apache iceberg:Netflix 数据仓库的基石

http://yq.aliyun.com/articles/747058 Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceb...

03/19 20:03
154
0
Apache iceberg:Netflix 数据仓库的基石

http://yq.aliyun.com/articles/747058 Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceb...

03/19 20:24
245
0
Apache iceberg:Netflix 数据仓库的基石

天前 Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够...

02/28 13:41
24
0
Data Lake 三剑客—Delta、Hudi、Iceberg 对比分析

本文来源于云栖社区:http://yq.aliyun.com/articles/743514 作者:xy_xin 共同点 定性上讲,三者均为 Data Lake 的数据存储中间层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件...

02/08 15:23
717
0
开源数据湖方案选型:Hudi、Delta、Iceberg深度对比

http://dbaplus.cn/news-160-3022-1.html 目前市面上流行的三大开源数据湖方案分别为: delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后...

03/19 20:01
81
0
开源数据湖方案选型:Hudi、Delta、Iceberg深度对比

西南证券开户目前市面上流行的三大开源数据湖方案分别为: delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外...

03/21 00:31
192
0
开源数据湖方案选型:Hudi、Delta、Iceberg深度对比

西南证券开户目前市面上流行的三大开源数据湖方案分别为: delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外...

03/23 22:29
181
0
最强指南!数据湖Apache Hudi、Iceberg、Delta环境搭建

1. 引入 作为依赖Spark的三个数据湖开源框架Delta,Hudi和Iceberg,本篇文章为这三个框架准备环境,并从Apache Spark、Hive和Presto的查询角度进行比较。主要分为三部分 准备单节点集群,包括...

02/28 21:34
45
0
深度对比delta、iceberg和hudi三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮...

03/18 07:01
33
0
Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

作者:辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于...

03/04 13:57
19
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部
发现配资网 五金股票新闻网 环保投资网 99挖财宝 知识之窗网 葫芦岛新闻网 诊股健康网