博客
关于我
MergeTree原理解析(五)
阅读量:389 次
发布时间:2019-03-05

本文共 1396 字,大约阅读时间需要 4 分钟。

ClickHouse技术解析:MergeTree引擎深入理解

引言

ClickHouse的核心设计理念围绕MergeTree引擎展开,作为其基础,理解MergeTree的工作原理至关重要。本文将从分区、索引、标记文件、数据块等方面深入探讨MergeTree的实现细节,揭示其高效查询背后的秘密。


MergeTree创建与存储

创建

MergeTree表的创建语法简洁,主要参数包括:

  • 分区键:决定数据如何划分,支持单列或多列分区键。
  • 排序规则:决定数据块内部的排序顺序,默认与主键一致。
  • 索引粒度:决定索引间隔,默认为8192行。

示例:

CREATE TABLE [IF NOT EXISTS] [db_name.]table_name (    name1 [type] [DEFAULT|MATERIALIZED|ALIAS expr],    name2 [type] [DEFAULT|MATERIALIZED|ALIAS expr],    ...) ENGINE = MergeTree()    [PARTITION BY expr]    [ORDER BY expr]    [PRIMARY KEY expr]    [SAMPLE BY expr]    [SETTINGS name=value, ...]

存储

MergeTree采用按列存储压缩算法

  • 列存储:每列独立存储,支持LZ4、ZSTD等压缩算法。
  • 排序:数据按ORDER BY规则预先排序。
  • 数据块:按大小或规则划分数据块,优化存储和查询效率。

数据分区

分区规则

分区ID生成规则包括:

  • 不指定分区键:默认分区ID为all
  • 整型分区:直接使用整型字符表示。
  • 日期分区:转换为YYYYMMDD格式。
  • 其他类型:使用128位Hash值。
  • 分区名称

    分区名称格式为:

    PartitionID_MinBlockNum_MaxBlockNum_Level

    其中:

    • PartitionID:分区ID。
    • MinBlockNum:最小数据块编号。
    • MaxBlockNum:最大数据块编号。
    • Level:合并次数。

    分区合并

    分区合并基于以下规则:

  • 新数据写入时,系统会自动创建新的分区目录。
  • 相同分区目录会按规则合并。
  • 合并时会生成新的partition.datminmax索引文件。

  • 一级索引

    稀疏索引优势

    稀疏索引优势体现在:

  • 索引标记占用少量空间。
  • 索引数据常驻内存,查询速度快。
  • 仅需12208行索引标记支持1亿行数据。
  • 索引粒度

    index_granularity定义索引粒度,影响数据标记和索引文件。每8192行生成一次索引标记。

    索引生成规则

    索引文件primary.idx内容规则:

    • 每8192行记录一次索引值。
    • 支持多列索引,例如ORDER BY(CounterID, EventDate)

    二级索引

    二级索引类型

    MergeTree支持四种二级索引:

  • minmax:基于最小和最大值。
  • set:基于集合元素。
  • ngrambf_v1:基于多字段聚合。
  • tokenbf_v1:基于子字符串匹配。
  • 二级索引创建

    二级索引语法:

    INDEX index_name expr TYPE index_type(...)GRANULARITY granularity

    创建时会生成相应的索引和标记文件。

    转载地址:http://mqzzz.baihongyu.com/

    你可能感兴趣的文章
    Quartz2.2.1简单使用
    查看>>
    POJ 1080 Human Gene Functions(DP:LCS)
    查看>>
    Quant 开源项目教程
    查看>>
    POJ 1088 滑雪
    查看>>
    POJ 1095 Trees Made to Order
    查看>>
    POJ 1113 Wall(计算几何--凸包的周长)
    查看>>
    poj 1125Stockbroker Grapevine(最短路)
    查看>>
    Qualitor processVariavel.php 未授权命令注入漏洞复现(CVE-2023-47253)
    查看>>
    poj 1151 (未完成) 扫描线 线段树 离散化
    查看>>
    POJ 1151 / HDU 1542 Atlantis 线段树求矩形面积并
    查看>>
    poj 1163 数塔
    查看>>
    POJ 1177 Picture(线段树:扫描线求轮廓周长)
    查看>>
    Qualitor checkAcesso.php 任意文件上传漏洞复现(CVE-2024-44849)
    查看>>
    POJ 1182 食物链(并查集拆点)
    查看>>
    POJ 1185 炮兵阵地 (状态压缩DP)
    查看>>
    POJ 1195 Mobile phones
    查看>>
    POJ 1228 Grandpa's Estate (稳定凸包)
    查看>>
    poj 1236(强连通分量分解模板题)
    查看>>
    poj 1258 Agri-Net
    查看>>
    quagga 和 zebos
    查看>>