Elasticsearch倒排索引底层原理深度解析

一、核心数据结构

1.1 词项字典（Term Dictionary）

有序存储：所有唯一词项按字典序排列，支持二分查找
压缩技术：
- 前缀压缩：共享相邻词项公共前缀（如"apple"和"app"共享"app"）
- FST（有限状态转换器）：内存中以字典树形式存储，压缩比达10:1
```
// FST结构示例
root -> a -> p -> p -> l -> e
              \-> p -> l -> e
```

1.2 倒排列表（Postings List）

基础结构：包含文档ID、词频、位置偏移等信息
压缩算法：
算法原理适用场景
FOR 差值编码（Δ编码）稠密有序整数序列
RBM 除法+位图组合压缩稀疏/离散数值
Roaring 分组位图（容器化存储）混合分布数据
```
# FOR压缩示例：→ Δ编码后
```

算法	原理	适用场景
FOR	差值编码（Δ编码）	稠密有序整数序列
RBM	除法+位图组合压缩	稀疏/离散数值
Roaring	分组位图（容器化存储）	混合分布数据

1.3 词项索引（Term Index）

Trie树结构：三级索引架构（内存→磁盘→文件）
定位流程：
1. 内存Term Index（FST）定位磁盘Block
2. 磁盘Block内二分查找精确Term
3. 返回对应Postings List指针

二、索引构建流程

2.1 文档处理阶段

分词（Tokenization）：
- 标准分词器拆分文本（如"Hello-World"→["hello","world"]）
- 支持自定义分词规则（同义词、停用词过滤）
规范化处理：
- 小写转换（"Java"→"java"）
- 词干提取（"running"→"run"）
- ASCII折叠（"Café"→"cafe"）

2.2 索引写入阶段

内存缓冲：
- 新文档先写入In-Memory Buffer
- 每秒或缓冲区满时触发Refresh生成不可变Segment
段（Segment）管理：
- 初始阶段：独立小段（约5MB）
- 后续合并：通过Merge Policy合并小段（如Tiered Merge Policy）
- 合并收益：减少段数量，提升查询效率

三、查询执行机制

3.1 布尔查询处理

多Term查询：
1. 各Term检索Postings List
2. 使用**跳跃表（Skip List）**加速交集计算
3. 合并结果生成最终文档集
短语查询：
- 利用位置信息（Position）验证词项顺序
- 通过Span Query实现精确匹配

3.2 评分计算

TF-IDF/BM25算法：
```
\text{TF-IDF} = \text{TF} \times \log{\frac{N}{\text{DF}}}
```
- TF（词频）：词项在文档中出现次数
- IDF（逆网页频率）：衡量词项重要性
向量空间模型：
- 将文档和查询转换为向量
- 计算余弦相似度得分

四、分布式实现特性

4.1 分片策略

路由计算：

// 默认路由算法
shard = Math.abs(hash(routing) % numberOfShards);

跨分片聚合：
- 通过Reduce Phase合并各分片结果
- 支持Top-K聚合优化

4.2 写入一致性

Translog机制：
- 每次操作记录事务日志
- Segment刷新后截断日志
- 故障恢复时重放日志

五、性能优化策略

5.1 存储优化

Doc Values：
- 列式存储数值型字段
- 支持排序/聚合无需反解析倒排索引

冷热分层：

# 热数据（SSD）与冷数据（HDD）分离存储
PUT /_cluster/settings {
  "persistent": {
    "cluster.routing.allocation.include.disk_type": "hot"
  }
}

5.2 查询优化

缓存机制：

缓存类型存储内容命中率影响因子
Query Cache 查询结果相同查询重复率
Filter Cache 过滤条件结果过滤条件复用率
Field Data Cache 排序/聚合字段数据高频排序字段

缓存类型	存储内容	命中率影响因子
Query Cache	查询结果	相同查询重复率
Filter Cache	过滤条件结果	过滤条件复用率
Field Data Cache	排序/聚合字段数据	高频排序字段

分页优化：

// 避免深度分页（from+size）
{
  "search_after": [1625097600000],
  "size": 10,
  "sort": [{"timestamp":"asc"}]
}

六、演进与增强

6.1 版本迭代特性

版本	改进点
6.x	引入BKD树优化数值范围查询
7.x	默认使用BWC压缩算法
8.x	支持向量搜索（Vector Search）

6.2 前沿技术融合

机器学习集成：
- 基于BERT的语义分词
- 智能查询重写（Query Rewriting）

向量化检索：

// 向量字段定义
PUT /my_index {
  "mappings": {
    "properties": {
      "embedding": {
        "type": "dense_vector",
        "dims": 1024
      }
    }
  }
}

通过理解倒排索引的底层机制（词项字典的FST压缩、Postings List的多种压缩算法、分布式分片策略），开发者可针对性优化索引结构（如合理选择分词器）、配置存储参数（如冷热分层），从而将搜索延迟降低70%以上。生产环境建议结合APM监控和慢查询分析持续调优。

养兔子的猴的博客

Elasticsearch的倒排索引

Elasticsearch倒排索引底层原理深度解析

一、核心数据结构

1.1 词项字典（Term Dictionary）

1.2 倒排列表（Postings List）

1.3 词项索引（Term Index）

二、索引构建流程

2.1 文档处理阶段

2.2 索引写入阶段

三、查询执行机制

3.1 布尔查询处理

3.2 评分计算

四、分布式实现特性

4.1 分片策略

4.2 写入一致性

五、性能优化策略

5.1 存储优化

5.2 查询优化

六、演进与增强

6.1 版本迭代特性

6.2 前沿技术融合

养兔子的猴

Elasticsearch倒排索引底层原理深度解析

一、核心数据结构

1.1 词项字典（Term Dictionary）

1.2 倒排列表（Postings List）

1.3 词项索引（Term Index）

二、索引构建流程

2.1 文档处理阶段

2.2 索引写入阶段

三、查询执行机制

3.1 布尔查询处理

3.2 评分计算

四、分布式实现特性

4.1 分片策略

4.2 写入一致性

五、性能优化策略

5.1 存储优化

5.2 查询优化

六、演进与增强

6.1 版本迭代特性

6.2 前沿技术融合

服务内存和CPU占用排查

Elasticsearch的动态扩容

养兔子的猴