2 DataLake — 批流一体化的追风者( 五 )


事务日志是Delta Lake能够提供原子性保证的机制 。无论如何 , 如果它没有记录在事务日志中 , 它就不会发生 。通过只记录完全执行的事务 , 并使用该记录作为唯一的真相来源 , 事务日志允许用户对其数据进行推理;并且即使数据在PB级别上 , 我们也可以对这些数据的准确性高枕无忧 。
【2DataLake — 批流一体化的追风者】6.Delta Lake功能再总结
通过上面5章由表及里的阐述 , 我们大致可以发现Delta Lake优势在于与Spark生态的完整交互以及对于Spark整体流批一体化的填补 , 整体上的功能很多 , 但其实很多高阶部分都是需要用砖厂的内部付费版本 。但从实际使用上的易用上来看 , spark上使用确实很便捷 。设计的思路上包含了大部分我们痛点的更新以及流批一体和分布式元数据管理等;所以从常规的开源版本看 , 对于一些高阶的诸如、 、SSD缓存及审计日志等暂时都没开放 , 因此对于Delta Lake来讲 , 我们主要还是研究其实现方式以及核心原理上 , 实时使用的话 , 会从Hudi和中来选择 。今天这篇就先到这里 , 下一篇我们展开来讲Hudi, 晚安 see you ~ ~ ~