搜索引擎之倒排索引:产品经理需要了解的搜索算法


立即下载 一瓶泡沫
2024-04-12
索引 排索引 内容 搜索 结构 用户 检索 查找 引擎 目录
935.6 KB

搜索引擎之倒排索引: 产品经理需要了解的
搜索算法
互联网时代, 信息纷繁海量, 人们通过搜索引擎直达 “心
中所想 ”已是常态。那么搜索引擎到底是如何高效查找目标内
容呢?本文主要介绍搜索引擎里一个比较重要的结构 ——
倒排索引。
1 倒排索引简介
倒排索引(英文: Inverted Index),是一种索引方法,常
被用于全文检索系统中的一种单词文档映射结构。
现代搜索引擎绝大多数的索引都是基于倒排索引来进
行构建的,这源于在实际应用当中,用户在使用搜索引擎查
找信息时往往只输入信息中的某个属性关键字,如一些用户
不记得歌名,会输入歌词来查找歌名;输入某个节目内容片
段来查找该节目等等。
面对海量的信息数据,为满足用户需求,顺应信息时代
快速获取信息的趋势,聪明的开发者们在进行搜索引擎开发
时对这些信息数据进行逆向运算,研发了 “关键词 ——文档”
形式的一种映射结构,实现了通过了物品属性信息对物品进
行映射,可以帮助用户快速定位到目标信息,极大地降低了
信息获取难度。倒排索引又叫反向索引,它是一种逆向思维
运算,是现代信息检索领域里面最有效的一种索引结构。
2 倒排索引 &FAQ
从用户请求到结果返回,许多朋友会对倒排索引在检索
系统中的工作过程产生好奇,本小节就倒排索引的一些常规
认识,有如下问题:
Q1:何为索引?倒排索引又是什么?
索引,是为了加快信息查找过程,基于目标信息内容预
先创建的一种储存结构。例如:一本书,没有目录,理论上
也是可读的,只是当你合上当前在读的内容时,下次再翻开
书本去查找,就比较耗费时间了。如果增加几页目录,我们
可以快速地了解书本的大体内容分布,以及每一个章节页面
位置的分布情况,这样我们查询内容的效率自然就会提高。
书的目录,就是书本内容一种简单索引。
倒排索引,是索引技术中的一种,它是基于信息主体的
关键属性值进行构建的。如下图 1:
图 1 倒排索引概念示例图
假设检索系统中只有一个商品 ——衣服 A,基于该商品
构建其倒排索引结构之后,会产生上图右表中的索引结构,
这样用户可以通过搜 “AAA”,“蓝色”,“M码”,“猴子”,均
可找到该商品,加快了检索速度,扩大了检索范围。
Q2:当接受到用户查询请求时,倒排索引中发生了什
么?


索引/排索引/内容/搜索/结构/用户/检索/查找/引擎/目录/ 索引/排索引/内容/搜索/结构/用户/检索/查找/引擎/目录/
-1 条回复
登录 后才能参与评论
-->