ES querycache 加速匹配的方法

前言 #

ES 进行信息检索的时候，boolean 查询组合条件有 must/must_not/should/filter 四个操作。其中 must 和 filter 的用途都是用于过滤必要符合的条件，但是 filter 在查询过程中不算分并且可以进行缓存，这样逻辑简单又可以加速的查询方式经常得到 Elastic 的提倡。

可是，只有 filter 的条件可以被缓存么？这里的缓存是属于哪一部分？缓存有什么样的进入和淘汰机制？怎么去监控缓存的使用情况？

这些问题也会伴随着对 ES 的深入使用自然而然的产生。本文中，我们结合 Elastic 的一些资料进行探索。

什么是 Filter Context #

仔细去看 Elastic 的文档可以发现，在 filter 的使用介绍里是这么写的Filter clauses are executed in filter context, meaning that scoring is ignored and clauses are considered for caching.这里不仅措辞严谨的说 filter 条件以 filter context 的方式执行，并做了超链解释。

简而言之，filter context 主要用于查询的过滤条件，并且不用算分，与 bool 的 filter 条件没有严格关联，除了 bool 的 filter 外，bool 中的 must_not， constant_score 查询中的 filter，聚合中的 filter 也都属于。

如何进入 Query Cache #

现在我们来看看是查询是怎么进入 Query Cache 的：

找到匹配文档
在倒排索引中找到 filter 条件符合的词项，并在所有的文档中检索这个词项。
建立一个位图 bitset
建立一个只包含 1 和 0 的位图 bitset，这个 bitset 用于描述所有文档的匹配情况，匹配的文档被设置为 1。ES 实际执行时，使用的是 RoaringBitMap。
迭代 bitset
一旦为某个查询生成了 bitset, Elasticsearch 就会遍历 bitset 以查找满足所有过滤条件的匹配文档集。执行顺序通常是首先迭代最稀疏的 bitset(因为它排除了最多数量的文档)。
增加使用计数
把查询条件和其结果的 bitset 组合作为 key-value 进行缓存，这里利用对查询条件的使用记录来判断是否进缓存。简单来说，如果一个查询在最近的 256 个查询中被多次使用，它将被缓存在内存中。更为详细的保留机制见下一节。

Query Cache 的缓存机制 #

总体来说，Query Cache 是 Lucene 层面实现的，ES 层面会进行一些策略控制和信息统计。

Query Cache 会维护在相对较大的 segment 上，对于**存储小于 1w 文档数或者 size 大小小于整体索引 size 3%**的 segment 不会维护 Query Cache（小 segment 本身的查询就比较快，不需要 cache 加速）。 docs_count(segment) < 10000 || segment.size < 3%*index.size

其管理策略类是 lucene 的 UsageTrackingQueryCachingPolicy，符合 LRU 的规则，也就是说 Query Cache 中的查询结果长时间不被访问会被优先淘汰。这里判断是否被缓存的方法是shouldCache(Query query)，有兴趣的同学可以去研究下

判断是否可以缓存的主要规则如下：

判断是否为 filter 查询assert query instanceof BoostQuery == false;
命中永不缓存 shouldNeverCache 条件的淘汰，其中包括：TermQuery、MatchAllDocsQuery、MatchNoDocsQuery、以及子查询为空的 BooleanQuery、DisjunctionMaxQuery
某些大于特定阈值的查询可以被缓存：
3.1 大于 2 次：MultiTermQuery、MultiTermQueryConstantScoreWrapper、TermInSetQuery、PointQuery（在 isCostly 方法中定义）
3.2 大于 5 次：除了上面列出条件的所有 filter 查询

使用和观测 Query Cache #

最后，我们来看下怎么去使用和观测 Query Cache。

默认情况下节点的 Query cache 最多缓存 10000 个子查询的结果，或者最多使用堆内存的 10%，都可以通过配置来调整:

indices.queries.cache.count  #默认 10000
indices.queries.cache.size   #默认 10%

对 Query Cache 也可以进行人工清理：POST /<index>/_cache/clear?query=true

而 Nodes stats API 和 Index stats API 都提供了 Query Cache 的监控

  "query_cache": {
  "memory_size_in_bytes": 1110305640,//使用的size
  "total_count": 45109997,//历史查询总条数 total=hit+miss
  "hit_count": 1192144,//命中的
  "miss_count": 43917853,//未命中的
  "cache_size": 1309,//当前缓存的条数
  "cache_count": 51509,//历史缓存总条数
  "evictions": 50200//被驱逐的条数
}

使用小建议：

当 evictions 大量发生时，缓存被大量置换，对高敏感的业务可能会有一定的查询抖动。
在监控项上添加一个 hit/total 的百分比监控，更加直观。

小结 #

本文短暂总结了 Filter context 如何形成 Query Cache 并进行维护观测的整体流程。

其中对 Query Cache 和其他缓存有兴趣的同学可以研读张超老师的扒一扒缓存的裤子

Filter context 本身可以省去复杂的算分过程，再加上 Query Cache 的加速优势，建议大家在编写只需要匹配过滤查询语句中优先选择。

金多安

infinite possibilities

· TDBC 2025 大会聚焦 AI 与数据库融合，极限科技发布新一代 Coco AI 搜索平台 · 极限科技 Coco AI 荣获 2025 首届人工智能应用创新大赛全国一等奖 · 搜索型数据库的技术发展历程与趋势前瞻 · 极限网关助力好未来 Elasticsearch 容器化升级 · 国产搜索引擎崛起：Elasticsearch 国产化加速

· Easysearch BKD Merge 异常排查实录：最终定位到旧版 GraalVM JIT 运行时 · INFINI Labs 产品更新 | Easysearch 2.1.0 新增高性能 Rules 规则引擎插件,数据探索 Discover 等 · Easysearch ZSTD 基准测试：高压缩率下实现近 5 倍查询吞吐 · 极限科技开源赞助计划：欢迎开源项目申请支持 · 捷报传来！极限科技 Coco AI 团队荣获第二届“兴智杯”总决赛二等奖 · 探索低空经济“关键一跃” —— 技术如何驱动商业落地线上研讨会圆满举办 · 极限科技荣膺 2025 金猿奖 — “年度国产化优秀代表厂商”，自主可控搜索方案 Easysearch 获行业高度认可 · 极限科技 Coco AI 荣获 2025 IT168 技术卓越奖 - 创新产品奖 · APM（三）：监控 Python 服务链 · INFINI Labs 产品更新 | Coco AI v0.10 × Easysearch v2.0 联袂上线：UI 全面重构，体验焕然一新

Easysearch x

Elasticsearch x

Lucene x

GraalVM x

JDK x

产品更新 x

performance x

2026 x

开源 x

赞助 x

开源生态 x

社区 x

Coco AI x

二等奖 x

兴智杯 x

人工智能 x

赛事 x

低空经济 x

商业化 x

数据分析 x

金猿奖 x

国产化 x

搜索引擎 x

技术卓越奖 x

创新产品奖 x

IT168 x

APM x

Skywalking x

Easy-Es x

Coco x

AI x

GitLab x

代码审核 x

石油石化 x

Gitee x

投票 x

Meilisearch x

Rust x

轻量级 x

搜索百科 x

Docker x

Docker Compose x

Easyserach x

Console x

DevOps x

国产替代 x

backup x

snapshot x

CCR x

Gateway x

esdump x

source_reuse x

ignore_above x

OpenSearch x

AWS x

Solr x

Easyearch x

发明专利 x

数据分区 x

国际专利 x

一等奖 x

人工智能应用创新大赛 x

bulk x

embedding x

OpenAI x

IK x

TDBC x

2025 x

信通院 x

可信数据库大会 x

搜索型数据库 x

中国数据库产业图谱 x

上海开源创新菁英荟 x

开源创新新星企业 x

Workshop x

AI 搜索 x

智能助手 x

Automation x

Logstash x

MongoDB x

开源中国 x

直播 x

merge x

Elasticsearch 9 x

GitCode x

AI搜索 x

Cloud x

rollup x

Kubernetes x

Operator x

Arm64 x

Snapshot x

S3 x

Grafana x

Opensearch x

Nginx x

直播活动 x

搜索客社区 x

Meetup x

ES x

企业搜索 x

DeepSeek x

RAG x

certificate x

windows x

Rollup x

TopN x

Filebeat x

Ubuntu x

请求限速 x

INFINI Console x

指标 x

Kibana x

多集群 x

client x

Spring Boot x

ECE x

ES Bulk x

vector database x

Postgres x

可搜索快照 x

SDK x

官网 x

Web 开发 x

Next.js x

React x

Three.js x

Metrics x

Helm x

filter x

querycache x

practice x

Agent x

localStorage x

响应式 x

时间组件 x

时区组件 x

极限科技 x

三周年 x

周年庆 x

国家高新技术企业 x

校园招聘 x

湖北工业大学 x

Tauri x

Web 开发人员 x

桌面应用开发 x

桌面端 x

Electron x

Pizza x

认证培训 x

报名 x

Scrapy x

爬虫 x

Rust开发者大会 x

docsearch x

文档搜索 x

Easyseach x

有奖征文 x

黑神话悟空 x

EKS x

征文系列 x

跨集群搜索 x

科技中小企业 x

白皮书 x

Python SDK x

数据库产业图谱 x

超大规模 x

分布式集群 x

写入限流 x

2024可信数据库发展大会 x

创新型中小企业 x

搜索数据库 x

正排索引 x

免费许可证 x

K8S x

DTC2024 x

实时搜索 x

ES国产化 x

Redis x

OOM x

测试 x

内存 x

趋势 x

AI绘画 x

Stable Diffusion x

Diffusion x

Model x

GAN x

语义搜索 x

知识图 x

向量数据库 x

中国信通院 x

星河（Galaxy） x

标杆案例 x

鲲鹏 x

鲲鹏技术认证 x

客户端 x

日志平台 x

LDAP x

Loadgen x

中国一汽 x

国内数据库 x

墨天轮 x

监控系统 x

集成测试 x

ZSTD x

Helm Charts x

国产适配 x

兆芯 x

Linux x

LoongArch x

信创适配 x

二维拆分算法 x

中国移动云 x

Vault x

加密 x

安全工具 x

kNN x

向量检索 x

图片搜索 x

Alerting x

SQL x

搜索 x

Embedding x

可信数据库 x

统信 x

海光 x

龙芯 x

restore x

Arm x

大数据企业证书 x

移动云大会 x

信通院产品评测 x

国内首家 x

数据可视化 x

北京软协 x

第十届理事会会员单位 x

Apache Arrow x

宣传片 x

大会分享 x

多集群管理 x

无缝数据迁移 x

Loadrun x

INFINI Gateway x

log4j x