焦点注册登录

焦点资讯

咨询热线

18888889999

手机：18888889999
电话：0898-66889888
地址：海南省海口市玉沙路58号

Elasticsearch：使用同义词 synonyms 来提高搜索效率

2024-04-22 14:21:38

在我们的很多情况下，我们希望在搜索时，有时能够使用一个词的同义词来进行搜索，这样我们能搜索出来更多相关的内容。我们可以通过 text analysis 来帮助我们形成同义词。如果大家对 Elastic 的 analyzer 还不是很熟的话，请参阅我之前的文章 “Elasticsearch: analyzer”。文本分析通常应用于你建立索引时的所有文档以及发送给 Elasticsearch 的所有查询。在进行同义词搜索时，我们有如下的几种方案：

在建立索引时 (indexing)，通过 analyzer 建立 synonyms 的反向索引（inverted index)
在 query 时，通过 search analyzer 对查询的词建立 synonyms
在 indexing 及 query 时，同时建立反向索引中的 synonym 及在 query 时为查询的词建立 synonyms

那么在实际的使用中，我们到底是用上述的哪种方案呢？在下面的例子中，你将看到在 query 时使用 synonym 会更加灵活，并且更容易让我们更新同义词的名单已经更好地支持 multi-word synonyms。

在今天的文章中，我们将分别论述。

首先，我们来创建一个具有如下 anaylzer 及 mapping 的一个索引：

在上面，我们使用 synonym_graph 过滤器对 quey 时的词进行过滤。在这个过滤器中，我们把如下的一个词都视为同义词：

在mapping 中，我们定义了 search_analyzer 为 my_analyzer，也就是说在 query 时，它会对所有的词进行分词。但凡有任何一个词是?China, chn, PRC, People's Republic of China 其中的一个，它都将被视为同义词。

我们首先来创建一个文档：

运行上面的指令，我们将创建一个 content 为?I like People's Republic of China 的文档。

接下来，我们做如下的查询：

那么显示的结果是：

可能有人说了，这是因为上面的 content 里本身就含有 China, 所以上面的结果证明不了什么。接下来，我们进行如下的搜索：

结果，我们可以发现，我们同样显示上面的搜索的结果。这个说明了这个同义词的搜索是成功的。

接下来，我们想搜索 silk road 也能搜索出中国来，那么我怎么做呢？

我们来执行如下的命令：

我们可以通过更新? setting 来实现这个。在上面请注意：当我们更新一个索引的 index 时，我们必须先把它关掉，等设置好后，在重新打开。否则会有错误。那么经过上面的修改后，我们重新运行如下的搜索：

那么上面的搜索结果将会显示我们之前显示的结果。在这里 silk road 也就是和之前的其它词都是同义词。

有人可能觉得上面在 settings 里配置太多的同义词很麻烦（如果同义词很多的话）。按照 Elastic 的官方文档，我们可以把所有的同义词放到一个文档中。首先，我们在 Elasticsearch 的 config 目录中，创建一个叫做 analysis 的子目录，然后创建一个叫做 synonyms.txt 的文档，而它的内容如下：

在这里，我们多添加了一个 elk, elastic stack 的同义词。我们来创建一个新的索引：

运行完上的指令后，我们来创建一个文档：

然后我们做如下的搜索：

上面的搜索结果显示：

显然，我可以看到搜索 elk，我们就可以搜索到含有 elastic stack 的文档。

在实际的使用中，如果我们更新 synonyms.txt 文件，那么，我们可以使用如下的 API 来进行更新：

你可以使用重新加载搜索分析器 API 获取对 search analyzer 的 synonym_graph 或 synonym?token filter 中使用的同义词文件的更改。要符合条件，token filter 必须具有 updateable 的 true 标志，并且只能在 search analyzer 中使用。

针对这种情况，我们可以在建立索引的时候，就把同义词建立好。这样，我们可以在 query 时，不使用同义词解析。在这种情况下，我们可以使用 synonym 过滤器，而不是 synonym_graph 过滤器。

我们接下来使用如下的命令来创建一个新的索引：

在上面，我们使用了 my_analyzer 作为 myindex2 在索引时使用的分词器。它将使用 synonym 过滤器，并把如下的词视为同义词：

我们可以使用如下的方法来测试这个 analyzer:

上面的命令显示的结果是：

你可以看到，尽管在测试的 text 没有 elastic stack，只有 elk，但是显示的结果了含有 elastic 及 stack 这两个 token。

我们接下来使用如下的命令来创建一个文档：

我们使用如下的查询：

上面显示的结果是：

从上面的显示的结果来看，当我们搜索 elastic stack 时，它同时匹配 content: "elastic stack" 以及 content: elk。也就是说，如果文档里含有 elk，那么这个文档也将被搜索到。我们做如下的搜索：

那么上面的命令显示的结果是：

显然它已经把我们的想要的结果搜索出来了。

在上面，我们展示了两种方法进行同义词的查询。在实际的使用中，你可以根据自己的情况适当进行选择。当然，我们有可以把上面的两种方法进行同时并用。通过这两种方法，也有可能会造成搜索的精确度的问题。这个是你必须要想清楚的。这个就像我们撒网打鱼一样，把网撒大了，捞上来的也有可能不是我们想要的。

上一篇 : 我国电竞产业产值破千亿，市场经济潜力巨大

下一篇: 抖音创作者服务中心是干什么用的？赚钱是真的吗？

返回列表