了解索引过程
索引过程的工作原理是为每个索引实体创建 文档 。 在编制索引期间, 扩充管道 以迭代方式生成文档,这些文档将数据源中的元数据与认知技能提取的扩充字段相结合。 可以将每个索引文档视为 JSON 结构,该结构最初由一个 文档 组成,其中包含已映射到直接从源数据中提取的字段的索引字段,如下所示:
- 文档
- metadata_storage_name
- metadata_author
- 内容
当数据源中的文档包含图像时,可以配置索引器以提取图像数据并将每个图像放置在 normalized_images 集合中,如下所示:
- 文档
- metadata_storage_name
- metadata_author
- 内容
- normalized_images
- image0
- image1
通过这种方式对图像数据进行归一化,可以将图像集合用作从图像数据中提取信息的技能的输入。
每个技能都会在文档中添加字段,例如,删除文档书写语言的技能可能会将其输出存储在 language 字段中,如下所示:
- 文档
- metadata_storage_name
- metadata_author
- 内容
- normalized_images
- image0
- image1
- 语言
文档按层次结构进行组织,并将技能应用于层次结构中的特定上下文,使你可以在文档的特定级别为每个项目运行技能。 例如,你可以对规范化图像集合中的每个图像运行光学字符识别 (OCR) 技能,以提取它们包含的任何文本:
- 文档
- metadata_storage_name
- metadata_author
- 内容
- normalized_images
- image0
- 文字
- image1
- 文字
- image0
- 语言
每个技能的输出字段都可以用作管道中后续其他技能的输入,这些技能又将其输出存储在文档结构中。 例如,我们可以使用合并技能将原始文本内容与从每个图像中提取的文本合并,以创建一个新的 merged_content 字段,其中包含文档中的所有文本(包括图像文本)。
- 文档
- metadata_storage_name
- metadata_author
- 内容
- normalized_images
- image0
- 文字
- image1
- 文字
- image0
- 语言
- merged_content
管道末尾的最终文档结构中的字段由索引器通过以下两种方式之一映射到索引字段:
- 直接从源数据中提取的字段都映射到索引字段。 这些映射可以是隐式(字段自动映射到在索引中具有相同名称的字段),也可以是显式(映射定义为将源字段与索引字段相匹配,通常是将字段重命名为一些更有用的字段,或在映射数据值时将函数应用于数据值)。
- 来自技能组中的技能的输出字段从其在输出中的层次结构位置显式映射到索引中的目标字段。