你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure Database for PostgreSQL 中的矢量存储

矢量存储用于分析和生成 AI 中的许多领域和情况,包括自然语言处理、视频和图像识别、建议系统和搜索。

什么是矢量存储?

矢量存储(也称为向量数据库)是存储和管理矢量嵌入的数据库。 矢量嵌入是高维空间中数据的数学表示形式。

在此空间中,每个维度对应于数据的一个特征。 数以万计的维度可用于表示复杂的数据。 矢量在此空间中的位置表示其特征。 字词、短语、整个文档、图像、音频和其他类型的数据都可以矢量化。

矢量存储的工作原理是什么?

在向量存储中,使用向量搜索算法建立索引并查询嵌入。 众所周知的矢量搜索算法包括磁盘近似近邻(DiskANN)分层可导航小型世界(HNSW)带平面压缩的倒排文件(IVFFlat)。

借助矢量搜索,可根据数据特征而不是属性字段上的精确匹配项来查找相似的项。 这种方法在搜索相似文本、查找相关图像、提出建议甚至是检测异常等应用中很有用。

矢量搜索用于通过嵌入 API 查询使用机器学习模型创建的数据的 向量嵌入 。 嵌入 API 的示例包括 Azure OpenAI 嵌入Azure 上的 Hugging Face

矢量搜索测量数据矢量与查询矢量之间的距离。 最接近查询向量的数据向量是语义上最相似的向量。

Azure Database for PostgreSQL 用作矢量存储时,可以存储、索引和查询嵌入内容以及原始数据。 此方法消除了在单独的纯向量数据库中复制数据的额外成本。

此体系结构还会将矢量嵌入和原始数据保留在一起。 将嵌入向量和数据放在一起可以更好地促进多模式数据操作的进行。 它还可实现更高的数据一致性、规模和性能。