Easysearch 新功能： IK 字段级别词典

Easysearch 1.10 版本在 IK 词典部分增加了字段级别词典的功能。

字段级别词典的功能支持用户对不同的字段设置不同的分词词库，用户既可以完全使用自己的词库，也支持在 ik 默认的词库上增加自定义的词库内容。

在整体使用上，ik 自定义词库的设计是比较灵活的，用户不仅可以通过分词器设置，自由的应用到各个字段。存储词典的方式也从固定文件和远程连接修改成了读取本地集群中默认的词库索引，减少了自定义词库的配置成本。当然，这个词库索引也可以由用户自定义，只要能和默认的词库索引保持一样的结构就好。

好了，现在让我们具体看一下 ik 字段级别词典的使用方法吧。

词库存储位置 #

默认的词库索引是 .analysis_ik 索引，IK 插件自动初始化的 .analysis_ik 索引。

用户可以自定义使用某个索引替代 .analysis_ik（设置参数下面会提及），但是要保持和 .analysis_ik 一个的 mapping 结构和使用同一个 pipeline。

.analysis_ik 词库需要存储的格式如下：

POST .analysis_ik/_doc
{
  "dict_key": "test_dic",
  "dict_type": "main_dicts",
  "dict_content":   "dict_content": """中华人民共和国
中文万岁
秋水共长天"""
}

主要使用字段

dict_content：词典内容字段。各个词典以换行符分隔。
dict_key：自定义词典名。对应自定义词典中设置的 dict_key。
dict_type：字典类型，可选 “main_dicts”, “stopwords_dicts”, “quantifier_dicts” 三个值。其中任意 dict_key 的"main_dicts"必须存在。

如何使用自定义词库 #

自定义词库的生效主要通过自定义 tokenizer 进行设置。

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_custom_analyzer": {
          "type": "custom",
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "ik_max_word",
          "custom_dict_enable": true,
          "load_default_dicts":true,
          "lowcase_enable": true,
          "dict_key": "test_dic",
          "dict_index":"custom_index"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "test_ik": {
        "type": "text",
        "analyzer": "my_custom_analyzer"
      }
    }
  }
}

其中

custom_dict_enable：布尔值，默认 false，true 则可以定制词典读取路径，否则 load_default_dicts / dict_key / dict_index 均失效。
load_default_dicts：布尔值，默认 true，定制的词典是否包含默认的词典库。
lowcase_enable：布尔值，默认为 true，是否大小写敏感，false 则保留原来文本的大小写。
dict_key：string。对应词库索引中的 dict_key 字段内容。如果词典名不匹配，则会装载错误或者直接报错 。
dict_index: string。词库索引名称，默认是 .analysis_ik。可以自定义，但是要保持和 mapping 结构以及 pipeline 一致。

词库内容怎么更新 #

词库现阶段只接受追加内容，没有删除词库数据的功能。如果在同一条数据上进行修改则也被视为追加。暂时不建议对词库内容进行删除或者修改，可能会造成节点间词库的混乱**。**

词库的追加内容是能自动被程序探测的，这个主要依赖于 .analysis_ik 的时间戳字段和 pipeline 执行。

# 词典索引写入需要的默认时间戳 pipeline
GET _ingest/pipeline/ik_dicts_default_date_pipeline
{
  "ik_dicts_default_date_pipeline": {
    "processors": [
      {
        "set": {
          "field": "upload_dicts_timestamp",
          "value": "{{_ingest.timestamp}}",
          "override": true
        }
      }
    ]
  }
}

# 词典索引的结构
GET .analysis.ik
{
  ".analysis.ik": {
    "aliases": {},
    "mappings": {
      "properties": {
        "dict_content": {
          "type": "text",
          "analyzer": "custom_analyzer"
        },
        "dict_key": {
          "type": "keyword"
        },
        "dict_type": {
          "type": "keyword"
        },
        "upload_dicts_timestamp": {
          "type": "date"
        }
      }
    },
    "settings": {
      "index": {
        "number_of_shards": "1",
        "provided_name": ".analysis.ik",
        "default_pipeline": "ik_dicts_default_date_pipeline",
        "creation_date": "1738910858601",
        "analysis": {
          "analyzer": {
            "custom_analyzer": {
              "type": "custom",
              "tokenizer": "pattern_tokenizer"
            }
          },
          "tokenizer": {
            "pattern_tokenizer": {
              "pattern": "\n",
              "type": "pattern"
            }
          }
        },
        "number_of_replicas": "1",
        "uuid": "bmBY_qf3TpW_Qyw_1tOq2Q",
        "version": {
          "created": "1090199"
        }
      }
    }
  }
}

这里 ik_dicts_default_date_pipeline 会对每一条写入词库的数据赋予当前 upload_dicts_timestamp 时间戳。ik 会记录当前词库的最大时间戳，然后每分钟都会去查询一次词库索引现有的最大时间戳。如果查到词库索引的最大的时间戳大于上次记录到的时间戳，则对这段时间内的词库内容都进行加载。

代码样例 #

测试词典数据

POST .analysis_ik/_doc
{
  "dict_key": "test_dic",
  "dict_type": "main_dicts",
  "dict_content": """中华人民共和国
  中文万岁
  秋水共长天"""
}

测试索引

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_custom_analyzer": {
          "type": "custom",
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "ik_max_word",
          "custom_dict_enable": true,
          "load_default_dicts":false,
          "lowcase_enable": true,
          "dict_key": "test_dic"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "test_ik": {
        "type": "text",
        "analyzer": "my_custom_analyzer"
      }
    }
  }
}

分词测试

POST my-index-000001/_analyze
{
  "field": "test_ik",
  "text": [
    "中华人民共和国 中文万岁 秋水共长天"
  ]
}
# 返回结果
{
  "tokens": [
    {
      "token": "中华人民共和国",
      "start_offset": 0,
      "end_offset": 7,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "中文万岁",
      "start_offset": 8,
      "end_offset": 12,
      "type": "CN_WORD",
      "position": 1
    },
    {
      "token": "万",
      "start_offset": 10,
      "end_offset": 11,
      "type": "TYPE_CNUM",
      "position": 2
    },
    {
      "token": "岁",
      "start_offset": 11,
      "end_offset": 12,
      "type": "CN_CHAR",
      "position": 3
    },
    {
      "token": "秋水共长天",
      "start_offset": 13,
      "end_offset": 18,
      "type": "CN_WORD",
      "position": 4
    }
  ]
}

测试未加载的词典

追加词典数据

POST .analysis_ik/_doc
{
  "dict_key": "test_dic",
  "dict_type": "main_dicts",
  "dict_content": "极限科技"
}

测试新加载的词典

好了，以上就是 ik 字段级别词典的主要功能，具体内容欢迎大家使用。

金多安

infinite possibilities

· TDBC 2025 大会聚焦 AI 与数据库融合，极限科技发布新一代 Coco AI 搜索平台 · 极限科技 Coco AI 荣获 2025 首届人工智能应用创新大赛全国一等奖 · 搜索型数据库的技术发展历程与趋势前瞻 · 极限网关助力好未来 Elasticsearch 容器化升级 · 国产搜索引擎崛起：Elasticsearch 国产化加速

· Elasticsearch 6/7/8 到 Easysearch 2.x 迁移指南 · Easysearch analysis-ik 多词典性能优化：从性能回退到分词性能提升 25%~30% · Easysearch 正式支持插件开发：让你的搜索系统真正"为你所用" · 破解 AI 幻觉困局：Easysearch 以检索技术筑牢大模型“可信防线” · INFINI Agent v1.31.0 发布 | 全新 Easysearch 向导：一站式集群拉起与精细化管理 · 用 Easysearch 给 AI Agent 装上长期记忆：Mem0 集成实战 · 银行和保险风控，怎样把规则真正跑进实时链路 · 同样 15,000 条重规则，Percolate Query 比 Easysearch 慢 21.8 倍——Heavy-OR 场景实测 · 警惕企业级搜索数据泄露风险，国产 Easysearch 以全链路安全方案筑牢数据安全防线” · Easysearch BKD Merge 异常排查实录：最终定位到旧版 GraalVM JIT 运行时

Easysearch x

Elasticsearch x

迁移 x

快照 x

snapshot x

向量 x

IK x

分词 x

performance x

插件 x

开发 x

自定义 x

扩展 x

AI x

幻觉 x

大模型 x

Agent x

产品更新 x

Mem0 x

MCP x

AI Agent x

向量检索 x

kNN x

规则引擎 x

银行 x

保险 x

风控 x

Rules x

Percolator x

国产 x

搜索 x

安全 x

Lucene x

GraalVM x

JDK x

2026 x

开源 x

赞助 x

开源生态 x

社区 x

Coco AI x

二等奖 x

兴智杯 x

人工智能 x

赛事 x

低空经济 x

商业化 x

数据分析 x

金猿奖 x

国产化 x

搜索引擎 x

技术卓越奖 x

创新产品奖 x

IT168 x

APM x

Skywalking x

Easy-Es x

Coco x

GitLab x

代码审核 x

石油石化 x

Gitee x

投票 x

Meilisearch x

Rust x

轻量级 x

搜索百科 x

Docker x

Docker Compose x

Easyserach x

Console x

DevOps x

国产替代 x

backup x

CCR x

Gateway x

esdump x

source_reuse x

ignore_above x

OpenSearch x

AWS x

Solr x

Easyearch x

发明专利 x

数据分区 x

国际专利 x

一等奖 x

人工智能应用创新大赛 x

bulk x

embedding x

OpenAI x

TDBC x

2025 x

信通院 x

可信数据库大会 x

搜索型数据库 x

中国数据库产业图谱 x

上海开源创新菁英荟 x

开源创新新星企业 x

Workshop x

AI 搜索 x

智能助手 x

Automation x

Logstash x

MongoDB x

开源中国 x

直播 x

merge x

Elasticsearch 9 x

GitCode x

AI搜索 x

Cloud x

rollup x

Kubernetes x

Operator x

Arm64 x

Snapshot x

S3 x

Grafana x

Opensearch x

Nginx x

直播活动 x

搜索客社区 x

Meetup x

ES x

企业搜索 x

DeepSeek x

RAG x

certificate x

windows x

Rollup x

TopN x

Filebeat x

Ubuntu x

请求限速 x

INFINI Console x

指标 x

Kibana x

多集群 x

client x

Spring Boot x

ECE x

ES Bulk x

vector database x

Postgres x

可搜索快照 x

SDK x

官网 x

Web 开发 x

Next.js x

React x

Three.js x

Metrics x

Helm x

filter x

querycache x

practice x

localStorage x

响应式 x

时间组件 x

时区组件 x

极限科技 x

三周年 x

周年庆 x

国家高新技术企业 x

校园招聘 x

湖北工业大学 x

Tauri x

Web 开发人员 x

桌面应用开发 x

桌面端 x

Electron x

Pizza x

认证培训 x

报名 x

Scrapy x

爬虫 x

Rust开发者大会 x

docsearch x

文档搜索 x

Easyseach x

有奖征文 x

黑神话悟空 x

EKS x

征文系列 x

跨集群搜索 x

科技中小企业 x

白皮书 x

Python SDK x

数据库产业图谱 x

超大规模 x

分布式集群 x

写入限流 x

2024可信数据库发展大会 x

创新型中小企业 x

搜索数据库 x

正排索引 x

免费许可证 x

K8S x

DTC2024 x

实时搜索 x

ES国产化 x

Redis x

OOM x

测试 x

内存 x

趋势 x

AI绘画 x

Stable Diffusion x

Diffusion x

Model x

GAN x

语义搜索 x

知识图 x

向量数据库 x

中国信通院 x

星河（Galaxy） x

标杆案例 x

鲲鹏 x

鲲鹏技术认证 x

客户端 x

日志平台 x

LDAP x

Loadgen x

中国一汽 x

国内数据库 x

墨天轮 x

监控系统 x

集成测试 x

ZSTD x

Helm Charts x

国产适配 x

兆芯 x

Linux x

LoongArch x

信创适配 x

二维拆分算法 x

中国移动云 x

Vault x

加密 x

安全工具 x

图片搜索 x

Alerting x

SQL x

Embedding x

可信数据库 x

统信 x

海光 x

龙芯 x

restore x

Arm x

大数据企业证书 x

移动云大会 x

信通院产品评测 x

国内首家 x

数据可视化 x

北京软协 x

第十届理事会会员单位 x

Apache Arrow x

宣传片 x

大会分享 x

多集群管理 x

无缝数据迁移 x

Loadrun x

INFINI Gateway x

log4j x

词库存储位置 #

如何使用自定义词库 #

词库内容怎么更新 #

代码样例 #

相关文章