事务日志是Delta Lake能够提供原子性保证的机制 。无论如何 , 如果它没有记录在事务日志中 , 它就不会发生 。通过只记录完全执行的事务 , 并使用该记录作为唯一的真相来源 , 事务日志允许用户对其数据进行推理;并且即使数据在PB级别上 , 我们也可以对这些数据的准确性高枕无忧 。
【2DataLake — 批流一体化的追风者】6.Delta Lake功能再总结
通过上面5章由表及里的阐述 , 我们大致可以发现Delta Lake优势在于与Spark生态的完整交互以及对于Spark整体流批一体化的填补 , 整体上的功能很多 , 但其实很多高阶部分都是需要用砖厂的内部付费版本 。但从实际使用上的易用上来看 , spark上使用确实很便捷 。设计的思路上包含了大部分我们痛点的更新以及流批一体和分布式元数据管理等;所以从常规的开源版本看 , 对于一些高阶的诸如、 、SSD缓存及审计日志等暂时都没开放 , 因此对于Delta Lake来讲 , 我们主要还是研究其实现方式以及核心原理上 , 实时使用的话 , 会从Hudi和中来选择 。今天这篇就先到这里 , 下一篇我们展开来讲Hudi, 晚安 see you ~ ~ ~
- 商业公司主导下的非营利开源软件基金会之 ———— Eclipse 的成长和发展(
- PostgreSQL数据库锁机制——自旋锁浅析
- 高考志愿填报——网络安全专业解读
- NLP迁移学习——迁移学习的概念与方法
- 上 Unity3D塔防游戏开发——学习笔记
- 12.9 第三题 【CSDN 每日一题】数组排序— 简单
- C语言函数的调用——比较两个数的大小
- 附2019年1月排行榜 请收藏——QKL123!它能帮你挖掘区块链的商业价值
- 机器学习——感知机学习方法
- Python语言程序设计——实验十二