文章目录2. 应用场景2. 使用案例 2. 快速入门 总结
引言
?
大家好,我是,直译过来就是中国码农的意思,俺希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,一个平凡而不平庸的人 。
一文快速搞懂系列讲究快速入门掌握一个新的大数据组件,帮助新手了解大数据技术,以下是系列文章:
文章传送门:
一文快速搞懂Kudu到底是什么
一文快速了解开源搜索引擎(技术选型+启动命令)
一文快速搞懂系列__一文快速搞懂[实战案例]
这是一文快速搞懂系列的第三篇:一文快速了解 战斗民族的开源搜索引擎(超详细解读+快速入门)
1.技术选型__弱水三千只取一瓢饮
目前市面上主流的开源OLAP引擎包含不限于:Hive、、Kylin、、、Druid、、等 , 可以说目前没有一个引擎能在数据量 , 灵活程度和性能上做到完美 , 用户需要根据自己的需求进行选型 。
总结:上面给出了常用的一些OLAP引擎 , 各自有各自的特点 , 将其分组:
Hive , - 基于SQL on ;
和Spark SQL类似 - 基于内存解析SQL生成执行计划;
Kylin - 用空间换时间 , 预计算;
Druid - 一个支持数据的实时摄入;
- OLAP领域的HBase , 单表查询性能优势巨大;
- OLAP领域的;
2.的保姆级入 门
是一个面向列的数据库管理系统(DBMS) , 用于在线分析处理查询(OLAP) 。
官网:
中文社区:
2. 概 述
1.是俄罗斯的于2016年开源的面向OLAP列式数据库管理系统(DBMS)
2.采用 C++ 语言开发 , 以卓越的查询性能著称 , 在基准测试中超过了目前很多主流的列式数据库
3.集群的每台服务器每秒能处理数亿到十亿多行和数十千兆字节的数据
4.会充分利用所有可用的硬件 , 以尽可能快地处理每个查询
5.单个查询(解压缩后 , 仅使用的列)的峰值处理性能超过每秒2TB
6.允许使用类SQL查询实时生成分析数据报告 , 具有速度快、线性可扩展、硬件高效、容错、
功能丰富、高度可靠、简单易用和支持跨数据中心部署等特性 , 号称在内存数据库领域是最快的
7.提供了丰富的数据类型、数据库引擎和表引擎 , 它所存储的表类似于关系型数据库中的表 , 默认情况下使用结构化方式在节点本地存储表的数据 , 同时支持多种数据压缩方式
8.独立于生态系统 , 不依赖的HDFS , 但可以扩展HDFS进行数据查询 , 还支持查询Kafka和MySQL中的数据
9.目前已经在很多大型企业中得到了充分的生产验证 , 其在存储PB级别的数据规模时仍能很好的提供稳健的实时OLAP服务 。
简单的说作为分析型数据库 , 三大特点:一是跑分快 , 二是功能多 , 三是文艺范 。
2.1. 发展历程
2.1. 特 性
真正面向列的DBMS、支持压缩
支持普通硬盘存储、支持多核并行处理
支持SQL、支持矢量引擎、支持实时数据更新
支持索引、支持在线查询
支持近似计算、支持数据辅助和数据完整性
2.1. 优 势
高性能、线性可扩展、硬件高效
容错、高度可靠、简单易用
存储数据是面向列进行存储 , 类似ORC和及Kudu数据库存储数据方式 。
与行存将每一行的数据连续存储不同 , 列存将每一列的数据连续存储 。
针对分析类查询 , 通常只需要读取表的一小部分列 。在列式数据库中你可以只读取你需要的数据 。例如 , 如果只需要读取100列中的5列 , 这将帮助你最少减少20倍的I/O消耗 。
- 凸集之分离与支撑超平面
- 关于开通微信商户平台后,设置api开发密钥,以及与小程序进行绑定的详细流程!
- 用GitHub Copilot在Vs Code里快速写代码,最详细使用教程
- 统计二进制1个数的代码解读
- 1 Word控件Spire.Doc 【超链接】教程:如何在C#/VB
- 美国1月份PPI数据涨幅超过预期 黄金市场承压下行
- linux中给R分配内存,Linux内存超分配Overcommit深入理解
- 埃安自研版图扩至夸克电驱,动力研发团队已超1000人
- 【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读
- 超速扣几分