什么是向量?
向量是具有 **大小** 和 **方向** 的数学实体。这种不仅能传达多少(大小)而且能传达朝哪个方向的能力,使它们成为表示和操纵不同类型的复杂数据的强大工具。
向量通常被描绘成指向 **空间内** 某个方向的 **箭头**,但它们也可以转换为数字。将向量表示为 **数值** 使得在数学上更容易处理它们。
向量是一个广泛的数学概念,用于跨多个领域的各种目的。
向量嵌入是向量在 机器学习 和 AI 领域的特定应用。
向量嵌入的目的是什么?
机器学习模型旨在揭示模式和关系。它们将 **复杂的实体**(如文本或图像) **映射到** **向量空间** **中的点**。我们称这些向量嵌入。
向量嵌入(也称为嵌入)以数值格式表示非数值数据,同时 **保留这些非数值实体的语义含义和关系**。它们的目的是让机器学习和自然语言处理 (NLP) 中的计算模型 **“理解”实体之间的相似性和差异**。
什么是向量空间嵌入?
在向量空间中,相似的实体 **彼此靠近**,表明它们的语义或上下文相似性。例如,在词嵌入的上下文中,含义相似的词在向量空间中彼此靠近。
这种空间配置使嵌入能够有效地捕获和组织实体之间的 **语义关系**,这是一个被称为语义空间的概念。
什么是语义空间?
语义空间就像一个 **虚拟景观**,每个 大型语言模型 (LLM) 在训练时构建。在此训练阶段,模型分析大量数据以表示和理解语言。它吸收的信息的多样性和性质在 **塑造这种语义空间** 中起着重要作用,而语义空间反过来影响 LLM 如何解释和生成语言。
鉴于要转换的数据的复杂性,向量嵌入需要 **多维空间** 来包含这些关系和细微差别的深度。根据它们要捕获的 **特征的复杂性** 和所涉及的数据集的大小,这些空间的跨度可能很广,从几十个到数千个维度。
这个多维空间允许算法以反映人类直觉和理解的方式解释和处理复杂数据。
说明语义空间
让我们用一个非常简单的例子来说明语义空间。考虑一个具有三个轴的图表,分别对应于以下语义属性:feline
、juvenile
和 canine
。

- 在
feline
轴上,我们有cat
- 在
juvenile
轴上,我们有baby
- 在
canine
轴上,我们有dog
通过组合这些轴,我们可以找到给出更具体实体的交点
Feline
和juvenile
组合得到kitten
Juvenile
和canine
组合得到puppy

通过将数值分配给这些属性,我们可以构建一个简单的语义空间
在语义空间中嵌入向量
实际上, **语义空间更复杂**,属性并不总是明确定义的。我们不知道这是否实际上是 canine
属性,但它与 canine
有关,而 dog
在该属性上的排名很高。数字不是 1
或 0
,而是一些实数。这种复杂性允许更细致地了解单词和概念之间的关系。实际的语义空间可能如下所示
从这些详细的值中,创建了向量嵌入,在多维向量中捕获每个词的本质,例如 dog
的 [0.95973, 0.12, 0.22]
。这些向量不仅仅将词语定位在空间中;它们构建了一个 **详细的含义网络**,每个方面旨在揭示该词语的真实含义的一部分。特定维度及其代表的内容可能 **在不同模型之间有所不同**,反映了它们封装的语义含义的复杂性。
结论
向量嵌入是复杂、非数值数据的数值表示。它们由机器学习模型使用实数向量生成。这些向量嵌入在一个高维空间中,以适合计算的格式封装原始数据的关联和特征。
向量数据库(如 Meilisearch)是处理嵌入的首选,因为它们促进 **相似性搜索**(也称为语义搜索),这允许根据其向量表示识别语义上相似的项目。
AI 搜索即将登陆 Meilisearch Cloud,加入候补名单
Meilisearch 是一款开源搜索引擎,不仅为最终用户提供最先进的体验,还提供简单直观的开发人员体验。
Meilisearch 长期以来一直是关键词搜索的参与者,它允许用户通过构建基于人工智能驱动的解决方案来解决搜索用例,不仅支持向量搜索作为向量存储,还提供混合搜索。这种混合方法将全文搜索与语义搜索相结合,增强了搜索结果的准确性和全面性。
有关 Meilisearch 的更多信息,您可以加入 Discord 上的社区或订阅 新闻稿。您可以通过查看 路线图 并参与 产品讨论 来了解更多有关该产品的信息。