博客
关于我
MergeTree原理解析(五)
阅读量:389 次
发布时间:2019-03-05

本文共 1396 字,大约阅读时间需要 4 分钟。

ClickHouse技术解析:MergeTree引擎深入理解

引言

ClickHouse的核心设计理念围绕MergeTree引擎展开,作为其基础,理解MergeTree的工作原理至关重要。本文将从分区、索引、标记文件、数据块等方面深入探讨MergeTree的实现细节,揭示其高效查询背后的秘密。


MergeTree创建与存储

创建

MergeTree表的创建语法简洁,主要参数包括:

  • 分区键:决定数据如何划分,支持单列或多列分区键。
  • 排序规则:决定数据块内部的排序顺序,默认与主键一致。
  • 索引粒度:决定索引间隔,默认为8192行。

示例:

CREATE TABLE [IF NOT EXISTS] [db_name.]table_name (    name1 [type] [DEFAULT|MATERIALIZED|ALIAS expr],    name2 [type] [DEFAULT|MATERIALIZED|ALIAS expr],    ...) ENGINE = MergeTree()    [PARTITION BY expr]    [ORDER BY expr]    [PRIMARY KEY expr]    [SAMPLE BY expr]    [SETTINGS name=value, ...]

存储

MergeTree采用按列存储压缩算法

  • 列存储:每列独立存储,支持LZ4、ZSTD等压缩算法。
  • 排序:数据按ORDER BY规则预先排序。
  • 数据块:按大小或规则划分数据块,优化存储和查询效率。

数据分区

分区规则

分区ID生成规则包括:

  • 不指定分区键:默认分区ID为all
  • 整型分区:直接使用整型字符表示。
  • 日期分区:转换为YYYYMMDD格式。
  • 其他类型:使用128位Hash值。
  • 分区名称

    分区名称格式为:

    PartitionID_MinBlockNum_MaxBlockNum_Level

    其中:

    • PartitionID:分区ID。
    • MinBlockNum:最小数据块编号。
    • MaxBlockNum:最大数据块编号。
    • Level:合并次数。

    分区合并

    分区合并基于以下规则:

  • 新数据写入时,系统会自动创建新的分区目录。
  • 相同分区目录会按规则合并。
  • 合并时会生成新的partition.datminmax索引文件。

  • 一级索引

    稀疏索引优势

    稀疏索引优势体现在:

  • 索引标记占用少量空间。
  • 索引数据常驻内存,查询速度快。
  • 仅需12208行索引标记支持1亿行数据。
  • 索引粒度

    index_granularity定义索引粒度,影响数据标记和索引文件。每8192行生成一次索引标记。

    索引生成规则

    索引文件primary.idx内容规则:

    • 每8192行记录一次索引值。
    • 支持多列索引,例如ORDER BY(CounterID, EventDate)

    二级索引

    二级索引类型

    MergeTree支持四种二级索引:

  • minmax:基于最小和最大值。
  • set:基于集合元素。
  • ngrambf_v1:基于多字段聚合。
  • tokenbf_v1:基于子字符串匹配。
  • 二级索引创建

    二级索引语法:

    INDEX index_name expr TYPE index_type(...)GRANULARITY granularity

    创建时会生成相应的索引和标记文件。

    转载地址:http://mqzzz.baihongyu.com/

    你可能感兴趣的文章
    oracle 可传输的表空间:rman
    查看>>
    Oracle 启动监听命令
    查看>>
    Oracle 启动阶段 OPEN
    查看>>
    Oracle 在Drop表时的Cascade Constraints
    查看>>
    Oracle 在Sqlplus 执行sql脚本文件。
    查看>>
    Oracle 如何处理CLOB字段
    查看>>
    oracle 学习
    查看>>
    oracle 定义双重循环例子
    查看>>
    ORACLE 客户端工具连接oracle 12504
    查看>>
    Oracle 客户端连接时报ORA-01019错误总结
    查看>>
    oracle 导出sql数据库表结构,使用sql developer 导出Oracle数据库中的表结构
    查看>>
    oracle 嵌套表 例子,Oracle之嵌套表(了解)
    查看>>
    Oracle 常用命令
    查看>>
    Oracle 常用的V$视图脚本(二)
    查看>>
    Oracle 并行原理与示例总结
    查看>>
    oracle 并集 时间_Oracle集合运算符 交集 并集 差集
    查看>>
    Oracle 序列sequence 开始于某个值(10)执行完nextval 发现查出的值比10还小的解释
    查看>>
    ORACLE 异常错误处理
    查看>>
    oracle 执行一条查询语句,把数据加载到页面或者前台发生的事情
    查看>>
    oracle 批量生成建同义词语句和付权语句
    查看>>