周梦康 发表于 2014-08-24 3029 次浏览 标签 : 计算机基础

下面内容来源:http://www.ucai.cn/opencourse/148

结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。 
非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。 

全文检索是一种将文件中的所有文本与检索项匹配的文字资料检索方法。
全文检索搜索的是非结构化的数据。
使用场景:例如根据关键词搜新闻

将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定的结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。
这部分从非机构化数据中提取出来的重新组织的信息,我们称之为索引。

全文检索大体过程分为创建索引和搜索索引
反向索引
如果索引能够保存从字符串到文件的映射,则会大大提高搜索速度。
由于从字符串到文件的映射是文件到字符串映射的反向过程,于是保存这种信息的索引就叫做反向索引。

如何创建索引:
1.搜集需要索引的原文当
2.将原文档传给分词组件进行粉刺
3.处理得到的词汇(去掉一些无意义的词,比如副词”,复数变成单数,动词时态的变化)
4.将词汇建立索引:简历字典、排序、储存链表、出现频率、出现位置

搜索:
1.用户输入查询语句
2.对查询语句进行词法分析,语法分析以及语言处理
3.搜索索引,得到符合词法树的文档
4.根据得到的文档和查询语句的相关性,对结果进行排序

评论列表