今天我们宣布发布 Meilisearch v1.10。在这篇文章中,我们将回顾最具影响力的变化。要查看完整的列表,请访问 GitHub 上的 变更日志

🚀
Meilisearch 1.10 也在 Meilisearch Cloud 上可用——立即升级!

我们很高兴宣布联邦搜索 终于登陆 Meilisearch。此功能扩展了 多搜索 API,允许您将来自多个查询的结果合并到一个统一的响应中。您现在可以搜索不同的索引,并从整个数据集中获取最相关的结果,而不仅仅是每个索引中最相关的结果。

对于需要搜索各种类型的资源或具有多种产品类别的电子商务网站的 SaaS 平台来说,联邦搜索是一个改变游戏规则的功能。

这是一个针对 movies 和 comics 索引进行 联邦搜索请求 的示例有效负载

{
  "federation": {
    "offset": 5,
    "limit": 10
  },
  "queries": [
    {
      "q": "Batman",
      "indexUid": "movies"
    },
    {
      "q": "Batman",
      "indexUid": "comics"
    }
  ]
}

在这个例子中, 联邦搜索响应 将如下所示

{
  "hits": [
    {
      "id": 42,
      "title": "Batman returns",
      "overview": "..",
      "_federation": {
        "indexUid": "movies",
        "queriesPosition": 0
      }
    },
    {
      "comicsId": "batman-killing-joke",
      "description": "..",
      "title": "Batman: the killing joke",
      "_federation": {
        "indexUid": "comics",
        "queriesPosition": 1
      }
    },
 ],
  "processingTimeMs": 0,
  "limit": 2,
  "offset": 0,
  "estimatedTotalHits": 2,
  "semanticHitCount": 0
}

查询权重

联邦搜索不仅仅是合并结果;它也是关于让这些结果更有意义和更相关。感谢查询权重,您可以优先考虑某些查询而不是其他查询,确保最重要的数据浮出水面。

下面的示例有效负载在联邦搜索中使用 **查询权重**,赋予 boosted 字段为 true 的文档更高的重要性

{
  "federation": {},
  "queries": [
    {
      "q": "iphone case",
      "indexUid": "products",
      "filter": "BOOSTED = true",
      "federationOptions": {
        "weight": 3.0
      }
    },
    {
      "q": "iphone case",
      "indexUid": "products"
      // federationOptions.weight defaults to 1
    }
  ]
}
💡
了解有关联邦搜索及其用例 的更多信息。

新增:查询和文档的语言设置

默认情况下,Meilisearch 会自动检测文档和查询中使用的语言。这对于边缘情况来说有一些限制。Meilisearch 1.10 引入了新的语言设置,允许用户手动自定义其语言偏好。

有两种方法可以声明搜索中使用的语言

  • 设置查询中使用的语言
  • 设置文档字段中使用的语言

设置搜索查询语言环境

您可以在 搜索参数 中定义查询中使用的语言。

使用查询 locales 进行搜索的示例有效负载

{
   "q": "進撃の巨人",
   "locales": ["jpn"]
}

设置文档属性的语言环境

您可以通过 索引设置 定义数据集中使用的语言。

带有 localizedAttributes 的设置示例有效负载

{
  "localizedAttributes": [
    {
      "locales": ["jpn"], 
      "attributePatterns": ["*_japanese"]
    }
  ]
}
💡
Meilisearch 支持所有 ISO-639-2B 语言环境。

自托管:现在需要 Ubuntu v20

如果您自托管 Meilisearch,请注意:Meilisearch 1.10 现在需要 **Ubuntu 20 版本**。此更新确保与最新功能兼容,并保持最佳性能和安全性。我们建议阅读有关 如何升级您的 Ubuntu 版本 的文档。

💡
此更改不影响 Meilisearch Cloud 用户。

实验性:AI 驱动的搜索 DX 改进

新增:用于基于 REST API 的嵌入器的自定义标头

Meilisearch 1.10 支持向您的基于 API 的嵌入服务发送自定义标头。当将 rest 源用于您的 嵌入器设置 时,Meilisearch 现在接受可选的 headers 对象。这些标头将被添加到对嵌入器 API 的所有请求中。

嵌入器设置的示例有效负载

{
  "source": "rest",
  "apiKey": "•••••••••••••••••",
  "headers": {
    "Custom-Header": "value"
  }
}

新增:生活质量改进

此外,我们还添加了一些微小的更改,使使用 Meilisearch AI 驱动的搜索 API 更轻松

  • 嵌入器设置现在接受 url 参数,用于 OpenAI 嵌入器通过代理访问 OpenAI
  • 嵌入器设置现在接受 dimensions 参数,用于 ollama 嵌入器
  • Meilisearch 现在在没有向量的文档的响应中包含 _vectors (仅当 retrieveVectors 启用时)

⚠️ 突破性变化:基于 REST API 的嵌入器重大变化

用于配置基于 REST API 的嵌入器 (例如,OpenAI、Mistral 等)的 API 发展迅速,为了避免混淆,我们决定将参数重新组织到专门的 request 和 response 字段中。

在实践中,此更改

  • 删除 query 、 inputField 、 inputType 、 pathToEmbeddings 和 embeddingObject 字段
  • 添加 request 和 response 字段

查看下面的示例,了解如何迁移到新的语法。

**之前** — 使用 Meilisearch 1.9

{
   "source": "rest",
   "url": "https://localhost:10006",
   "query": {
     "model": "minillm",
   },
   "inputField": ["prompt"],
   "inputType": "text",
   "embeddingObject": ["embedding"]
}

**之后** — 从 Meilisearch 1.10 开始

{
   "source": "rest",
   "url": "https://localhost:10006",
   "request": {
     "model": "minillm",
     "prompt": "{{text}}"
   },
   "response": {
     "embedding": "{{embedding}}"
   }
}

升级流程

此流程仅在您使用基于 REST API 的嵌入器时才需要。要升级到 Meilisearch 1.10,请执行以下步骤

  1. 删除源为 "rest" 的嵌入器
  2. 更新您的 Meilisearch Cloud 项目 或 自托管的 Meilisearch 实例 ,就像往常一样

实验性: CONTAINS 过滤器运算符

Meilisearch 1.10 引入了 CONTAINS 运算符。由于我们正在解决一些性能问题,它仍处于实验阶段。这个新的 过滤器运算符 允许检查子字符串是否包含在较大的字符串中。

对于文档 { id: 1, name: "Keffir" },您可以按如下方式使用过滤器

  • name CONTAINS kef — 搜索将匹配该文档
  • name CONTAINS clifford — 搜索将不匹配该文档
💡
请记住,所有过滤器都使用小写、规范化的字符串(所有重音符都已删除)。
💬
通过此 Github 讨论 分享您的反馈。

实验性:使用函数更新文档

Meilisearch 1.10 允许您通过执行 Rhai 函数 来编辑文档。这使您可以使用过滤器仅更新数据集中的一部分。此外,使用函数可以让您根据文档的数据实施动态逻辑。

以下有效负载更新了所有 id 大于 3000 的文档的标题

{
  "filter": "id > 3000",
  "function": "doc.title = `✨ ${doc.title.to_upper()} ✨`"
}

这也支持更复杂的用例,例如 实施衰减排名策略。根据您的需要,您可能需要定期实施以下函数,该函数将由 Cron 作业定期运行。

{
  "context": { "now": 1715423249 },
  "function": "
    // `posted_at` and `now` are Unix Epoch timestamps in seconds
    // they must be converted to hours.
    let age_hours = (context.now - doc.posted_at) / 60 / 60;
    doc.ranking_score = doc.upvotes ** 0.8 / (age_hours + 2) ** 1.8;
  "
}
💬
通过此 Github 讨论 分享您的反馈。

v1.10 的发布就到这里了!这些发布说明只突出了最重要的更新。要查看完整的列表,请阅读 GitHub 上的 变更日志

使用 Meilisearch Cloud 轻松升级。


贡献者致谢

如果没有 Meilisearch 和 Charabia 贡献者 @Karribalu、 @hanbings、 @junhochoi、 @JWSong、 @PeterDaveHello、 @LukasKalbertodt 和 @phillitrOSU,此版本将不可能发布。

我们还要特别感谢我们的 SDK 维护者,他们为让 Meilisearch 在许多 语言和框架 中可用而付出了努力。我们很高兴 @Sherlouk 和 @Ja7ad 加入我们的开源维护者。💪


通过订阅我们的每月新闻通讯,随时了解 Meilisearch 的所有信息。要详细了解 Meilisearch 的未来并帮助塑造它,请查看我们的 路线图,并参与我们的 产品讨论

对于其他任何问题,请加入我们开发者社区的 Discord