嗨,老铁,欢迎来到我的博客!

如果觉得我的内容还不错的话,可以关注下我在 segmentfault.com 上的直播。我主要从事 PHP 和 Java 方面的开发,《深入 PHP 内核》作者之一。

[视频直播] PHP 进阶之路 - 亿级 pv 网站架构的技术细节与套路 直播中我将毫无保留的分享我这六年的全部工作经验和踩坑的故事,以及会穿插着一些面试中的 考点难点加分点

周梦康 发表于 2014-08-24 2847 次浏览 标签 : 计算机基础

下面内容来源:http://www.ucai.cn/opencourse/148

结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。 
非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。 

全文检索是一种将文件中的所有文本与检索项匹配的文字资料检索方法。
全文检索搜索的是非结构化的数据。
使用场景:例如根据关键词搜新闻

将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定的结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。
这部分从非机构化数据中提取出来的重新组织的信息,我们称之为索引。

全文检索大体过程分为创建索引和搜索索引
反向索引
如果索引能够保存从字符串到文件的映射,则会大大提高搜索速度。
由于从字符串到文件的映射是文件到字符串映射的反向过程,于是保存这种信息的索引就叫做反向索引。

如何创建索引:
1.搜集需要索引的原文当
2.将原文档传给分词组件进行粉刺
3.处理得到的词汇(去掉一些无意义的词,比如副词”,复数变成单数,动词时态的变化)
4.将词汇建立索引:简历字典、排序、储存链表、出现频率、出现位置

搜索:
1.用户输入查询语句
2.对查询语句进行词法分析,语法分析以及语言处理
3.搜索索引,得到符合词法树的文档
4.根据得到的文档和查询语句的相关性,对结果进行排序

嗨,老铁,欢迎来到我的博客!

如果觉得我的内容还不错的话,可以关注下我在 segmentfault.com 上的直播。我主要从事 PHP 和 Java 方面的开发,《深入 PHP 内核》作者之一。

[视频直播] PHP 进阶之路 - 亿级 pv 网站架构的技术细节与套路 直播中我将毫无保留的分享我这六年的全部工作经验和踩坑的故事,以及会穿插着一些面试中的 考点难点加分点

评论列表