Hugging Face 总部位于纽约和巴黎,是一个开源机器学习技术提供商,允许用户使用 Hugging Face 开源库和 Hub 训练、部署和共享 AI 模型。

通过与 Meilisearch Cloud 合作,Hugging Face 积极履行其促进 AI 民主化的愿景。

“如今,Meilisearch 被 Hugging Face 用于为 300,000 多个 AI 模型、数据集和演示提供发现功能。对于 AI 民主化来说,这非常重要,因为如果知识存在但无法访问,那么它还有什么意义呢?” - Mishig Davaadorj,Hugging Face 软件工程师

挑战

在 Hugging Face 平台上,用户可以上传他们的 AI 模型、数据集和演示。随着活跃的用户社区不断参与 Hugging Face Hub(一个用于共享和搜索机器学习工件的平台),可发现性问题成为焦点。

Hugging Face Hub 托管了 220,000 多个 AI 模型,满足各种 机器学习任务 的需求,这些模型都整齐地存储在存储库中。这些模型存储库旨在使模型的探索和利用尽可能无缝。Hugging Face 存储库中的每个 AI 模型都附带一个模型卡,这是一个包含有价值元数据的项目文件,它在增强可发现性、可重复性和共享方面起着至关重要的作用。模型卡还提供有关 AI 模型偏差和局限性、模型描述和训练指南的重要信息,并作为用户在 Hub 上搜索模型或上传自己的模型的全面指南。

在引入 Meilsearch 之前,Hugging Face 依赖于简单的过滤和关键词搜索解决方案。但是,很明显,人们越来越需要更灵活、更容错的全文搜索解决方案。这种解决方案需要确保每个搜索查询的默认相关性更高,并利用模型卡中存储的额外属性和元数据。

为什么 Hugging Face 选择 Meilisearch Cloud

在将 Meilisearch 集成到其 ML 模型存储库之前,Hugging Face 已经将其免费的开源解决方案用作其 开源库 文档(包括 transformers & diffusers)的搜索引擎。该文档包含约 500 页,并已使用了一年多。由于团队已经从实施和运行 Meilisearch 中获得了积极的经验,因此当需要增强模型卡搜索的可发现性时,无需进行额外的测试或概念验证。

1. 排名规则的可定制性

在评估过程中,Hugging Face 团队还考虑了 Mongo Atlas Search。但是,他们对排名可用的定制选项不满意。为了增强模型卡可发现性,考虑了几个因素,例如项目名称、描述以及每个卡片的喜欢或下载次数。Meilisearch 在适应这些搜索标准方面表现出更大的灵活性和适应性。

2. 迁移到 Meilisearh Cloud 以便于使用

在成功地将其文档中实施 Meilisearch 后,Hugging Face 团队顺利地将 Meilisearch Cloud 集成到其模型卡存储库中,从开箱即用的相关性中受益。

3. 支持和基础设施外包的质量

Hugging Face 团队选择 Meilisearch Cloud,部分原因在于其专门的支持能力。鉴于在存储库中获得高度相关的搜索结果对 Hugging Face 至关重要,因此选择 Cloud 版本的决定还受到将基础设施委托给 Meilisearch Cloud 专家技术的推动。将基础设施外包使 Hugging Face 团队能够提高其开发速度。

实施

由于 Meilisearch 已经实施用于 Hugging Face 文档,因此一旦排名和内部规则到位,搜索解决方案扩展到其他用例就很顺利。

如今,Meilisearch 引擎为 Hugging Face 存储库中 220,000 个模型卡、38,000 个数据集和 60,000 个演示提供发现功能。关键词过滤机制已在 Hugging Face 主页上实施,适用于已熟悉特定模型名称的用户。

但是,随着 Meilisearch 的实施,用户可以选择执行全文搜索。这种搜索功能不仅适用于模型名称和 ID,还包括模型卡的全部内容。

实施了“尝试全文搜索”的额外按钮,以最大程度地减少搜索行为的更改,用户可以自由选择最适合其偏好的搜索体验。

愿景

随着 AI 的不断发展,Hugging Face 预计搜索行为和人们查找所需项目的方法将发生变化。Hugging Face 期待将语义搜索纳入其文档和模型卡搜索中。目前,该平台正在积极测试 Meilisearch VectorDB 作为潜在解决方案之一。

Hugging Face 还预计将获得更详细的使用情况见解,包括有关用户日常搜索模式以及某些模型卡项目随时间推移的活动水平的信息。