--- title: "ES 数据太敏感不让看,怎么办?" date: 2023-06-08 lastmod: 2023-06-08 description: "本文通过实例演示了使用 easysearch 实现数据脱敏的方法,包括哈希脱敏和正则脱敏,确保敏感数据在受限用户查看时被有效隐藏,同时介绍了身份模拟功能及 Infini Gateway 流量分析中的脱敏效果。" tags: ["Gateway", "Easysearch"] summary: "在使用 ES 的过程中,如果 ES 集群中存放的是敏感数据,是不能够随便供人查看的。什么?在排查故障?那也不行,合规高于一切。 不知道大家有没有遇到过上面描述的情景,或者如果是你遇到了,你会怎么办呢? 我们常常讲,解决问题要抓住问题的本质。人类的本质是复读机,上述问题的本质是"敏感"。 既然问题的本质是数据敏感,那就把敏感数据变成普通数据。这样既符合了合规要求,也促进大家工作。 话不多说,我们 demo。 在下面的 demo 过程中,我们主要用到 easysearch,不为别的,因为它自带脱敏功能。 准备敏感数据 # 下面的数据中,字段 description 和 country 是敏感的。受限用户查看时,敏感数据显示脱敏后的内容。 POST movies/_doc/1 { "year": 2023, "title": "This is a movie", "description":"我是敏感数据" } POST movies/_doc/2 { "year": 2023, "title": "What r u looking at", "description":"我是敏感数据", "country":"我是敏感数据" } 建立 hash 脱敏角色并赋给用户 # 默认情况下,easysearch 安全模块使用 BLAKE2b 算法,但你可以使用 JVM 提供的任何哈希算法。此列表通常包括 MD5、SHA-1、SHA-384 和 SHA-512。 此次测试,我们就用默认的算法,建立一个 masked_movie 角色。该角色只能查看 movies 索引,且 description 和 country 字段会被脱敏查看,脱敏方式是默认的 BLAKE2b 算法。" --- 在使用 ES 的过程中,如果 ES 集群中存放的是敏感数据,是不能够随便供人查看的。什么?在排查故障?那也不行,合规高于一切。 不知道大家有没有遇到过上面描述的情景,或者如果是你遇到了,你会怎么办呢? 我们常常讲,解决问题要抓住问题的本质。人类的本质是复读机,上述问题的本质是"敏感"。 既然问题的本质是数据敏感,那就把敏感数据变成普通数据。这样既符合了合规要求,也促进大家工作。 话不多说,我们 demo。 在下面的 demo 过程中,我们主要用到 easysearch,不为别的,因为它自带脱敏功能。 ### 准备敏感数据 下面的数据中,字段 description 和 country 是敏感的。受限用户查看时,敏感数据显示脱敏后的内容。 ``` POST movies/_doc/1 { "year": 2023, "title": "This is a movie", "description":"我是敏感数据" } POST movies/_doc/2 { "year": 2023, "title": "What r u looking at", "description":"我是敏感数据", "country":"我是敏感数据" } ``` ### 建立 hash 脱敏角色并赋给用户 默认情况下,easysearch 安全模块使用 BLAKE2b 算法,但你可以使用 JVM 提供的任何哈希算法。此列表通常包括 MD5、SHA-1、SHA-384 和 SHA-512。 此次测试,我们就用默认的算法,建立一个 masked_movie 角色。该角色只能查看 movies 索引,且 description 和 country 字段会被脱敏查看,脱敏方式是默认的 BLAKE2b 算法。 ``` PUT _security/role/masked_movie { "cluster": [], "indices": [{ "names": ["movies"], "field_mask": ["description","country"], "privileges": ["read"] }] } PUT _security/user/movie-user { "password": "password", "roles": ["masked_movie"] } ``` ### Hash 脱敏效果 受限用户查看效果 {{% load-img "/img/blog/2023/data-desensitization/1.png" "" %}} 高权用户查看效果 {{% load-img "/img/blog/2023/data-desensitization/2.png" "" %}} 像这样切换用户的操作,在生产环境中其实也没这么简单。生产的密码不能随便告知他人,甚至不能通过口头、通讯软件来传递。针对这种情况,easysearch 有个身份模拟功能,可配置一个用户能模拟其他用户来访问 ES。 配置好后,我就能用 admin 直接模拟 movie-user 用户了(-H "security_run_as:movie-user")。 效果如下: {{% load-img "/img/blog/2023/data-desensitization/3.png" "" %}} 相关链接 [https://docs.infinilabs.com/easysearch/main/docs/references/security/access-control/run-as/](https://docs.infinilabs.com/easysearch/main/docs/references/security/access-control/run-as/) ### 正则脱敏 除了使用哈希,还可以使用一个或多个正则表达式来替换字符串从而达到字段脱敏的效果。语法是 :://:: 。如果使用多个正则表达式,则结果将从左向右传递,就像 shell 中的管道操作一样。 我们再建立一个正则脱敏的角色和用户,让敏感数据只显示第一个汉字。 ``` PUT _security/role/masked_movie_re { "cluster": [], "indices": [{ "names": ["movies"], "field_mask": [ "description::/(.)(.*)/::$1******", "country::/(.)(.*)/::$1******" ], "privileges": ["read"] }] } PUT _security/user/movie-user-re { "password": "password", "roles": ["masked_movie_re"] } ``` ### 正则脱敏效果 受限用户查看效果 {{% load-img "/img/blog/2023/data-desensitization/4.png" "" %}} ### 流量分析与脱敏 大家知道我们还有个产品叫 Infini Gateway,它可做 ES 流量分析。在进行流量分析时,会抓取请求的内容和返回。由于"脱敏"是在 easysearch 里完成的,所以 Gateway 记录的数据,已经是脱敏后的了。 我们来看一下,把访问的 url 换成网关的端口。 ``` curl -ku movie-user-re:password http://localhost:8000/movies/_search?pretty ``` 查看 Gateway 记录的数据 {{% load-img "/img/blog/2023/data-desensitization/5.png" "" %}} 嗯,香! 好了,这次 demo 到这里就结束了。大家有什么好的想法、需要解决的场景,欢迎交流。