Elasticsearch 查询流程深度解析

一、查询流程全景图

Elasticsearch 的查询流程是典型的分布式两阶段模型，包含 协调节点调度 和 分片级执行 两大核心阶段，具体流程如下：

sequenceDiagram
    Client->>+协调节点: 发送搜索请求
    协调节点->>分片节点: 广播查询请求
    分片节点->>分片节点: 本地倒排索引检索
    分片节点->>协调节点: 返回Top N文档ID
    协调节点->>分片节点: 获取完整文档
    分片节点->>协调节点: 返回完整数据
    协调节点->>Client: 合并结果返回

二、核心阶段详解

2.1 请求分发阶段

协调节点选择
客户端可向任意节点发送请求，该节点自动成为协调节点。协调节点通过 cluster state 获取索引分片分布信息。
分片路由计算
根据查询条件中的路由参数（如routing字段）或默认哈希算法，确定目标分片集合（主分片+副本分片）。
负载均衡策略
采用轮询机制选择分片副本，避免单节点过载。可通过preference=_primary强制优先主分片。

2.2 分片级查询执行

每个分片执行本地查询的 两阶段处理：

2.2.1 Query Phase（查询阶段）

倒排索引检索
通过分词器解析查询词项，在倒排索引中定位匹配的文档ID集合。
相关性评分
使用 BM25 算法计算文档相关性得分（_score），过滤不满足条件的文档。
优先队列构建
每个分片维护大小为 from + size 的优先队列，存储文档ID、得分等元数据。

2.2.2 Fetch Phase（获取阶段）

文档拉取
协调节点汇总所有分片的优先队列，重新排序后确定最终结果集的文档ID。
多文档获取
通过 _mget API 批量获取完整文档内容（含_source字段）。
高亮处理
在分片节点本地执行高亮计算，减少网络传输数据量。

2.3 结果合并阶段

全局排序
协调节点对合并后的文档按 _score 降序排列，支持自定义排序规则。
聚合计算
执行分片本地聚合（如terms统计）后，在协调节点进行结果合并。
分页处理
根据 from 和 size 参数截取指定范围的结果集，默认返回前10条。

三、关键机制与优化

3.1 分布式查询特性

特性	实现方式	优势
并行执行	分片级独立查询	提升吞吐量
结果缓存	Shard Request Cache	缓存聚合结果（size=0查询）
过滤缓存	Node Query Cache	缓存常用过滤条件结果

3.2 性能优化策略

查询类型选择
- query_then_fetch（默认）：两阶段查询，适用于通用场景
- dfs_query_then_fetch：全局计算词频，提升相关性精度（代价较高）
深度分页优化
```
{
  "from": 10000,
  "size": 10,
  "sort": }
```
避免使用高from值，推荐使用search_after或滚动查询
字段数据优化
- 启用doc_values加速排序/聚合
- 对大文本字段禁用fielddata

3.3 高级查询处理

复合查询示例

{
  "bool": {
    "must": [{"term": {"name": "wangyang"}}],
    "filter": [{"range": {"age": {"gte": 30}}}]
  }
}

must子句参与评分
filter子句不参与评分但可缓存

高亮优化

{
  "highlight": {
    "fields": {"content": {"fragment_size": 150, "number_of_fragments": 3}}
  }
}

控制高亮片段数量和长度，减少数据传输

四、查询流程示意图

graph TD
    A[客户端] --> B[协调节点]
    B --> C{分片选择}
    C --> D[主分片1]
    C --> E[副本分片2]
    D --> F[本地查询]
    E --> F
    F --> G[返回Top N]
    B --> H[合并结果]
    H --> I[获取完整文档]
    I --> J[返回最终结果]

五、性能调优建议

硬件配置
- 为文件系统缓存预留50%内存
- 使用SSD存储加速分片访问
索引设计
- 避免过度索引（禁用不必要字段的_source）
- 合理设置分片大小（建议10-50GB）
监控指标
- search_slowlog：记录慢查询日志
- indices.query.bool.filter.cache.size：监控过滤器缓存命中率

通过理解该流程，开发者可针对性优化查询语句（如避免深度分页）、合理设计索引结构，从而将查询延迟降低60%-90%。

养兔子的猴的博客

Elasticsearc查询流程

Elasticsearch 查询流程深度解析

一、查询流程全景图

二、核心阶段详解

2.1 请求分发阶段

2.2 分片级查询执行

2.2.1 Query Phase（查询阶段）

2.2.2 Fetch Phase（获取阶段）

2.3 结果合并阶段

三、关键机制与优化

3.1 分布式查询特性

3.2 性能优化策略

3.3 高级查询处理

四、查询流程示意图

五、性能调优建议

养兔子的猴

Elasticsearch 查询流程深度解析

一、查询流程全景图

二、核心阶段详解

2.1 请求分发阶段

2.2 分片级查询执行

2.2.1 Query Phase（查询阶段）

2.2.2 Fetch Phase（获取阶段）

2.3 结果合并阶段

三、关键机制与优化

3.1 分布式查询特性

3.2 性能优化策略

3.3 高级查询处理

四、查询流程示意图

五、性能调优建议

Elasticsearch的动态扩容

Elasticsearc新增数据流程

养兔子的猴