摘要:提示信息检索文档评分词项权重计算向量空间模型第三部分权重计算文章目录权重计算权重文档频率计算举例权重权重计算在进行排序时,除了词项频率之外,我们通常还需要词项在整个文档集中的频率和评分。那么我们就希望给它更高的权重。
提示:
信息检索:文档评分-词项权重计算-向量空间模型
第三部分:tf-idf权重计算
在进行排序时,除了词项频率tf之外,我们通常还需要词项在整个文档集中的频率和评分。
原因,当词项A和词项B在文档1中tf相同时,但词项B在文档集中每个文档中都有,而词项A只存在于文档1中,那么A和B需要有一个重要性的排序。
罕见词项要比常见词项蕴含的信息要多很多,它出现的频率越低,那么出现它的文档就显得相关性更高。那么我们就希望给它更高的权重。
那么对于常见词而言,相对蕴含信息就相对偏少,给一个低的权重即可。
出现词项的文档数目
idft是反映信息量的一个指标。
用log10(N/dft)来限制N/dft的作用
N=1000000
vs | |
---|---|
文档集频率cf | t在整个文档集中出现的次数 |
文档频率df | 包含t的文档数目 |
哪一个更适合查询?即赋予更高的权重?
通过上图,df(idf)的更适合做查询
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/125634.html
摘要:在自然语言处理中,一个很重要的技术手段就是将文档转换为一个矢量,这个过程一般是使用这个库进行处理的。自然语言处理中,一般来说,代表词。自然语言预处理中,一个很重要的步骤就是将你收集的句子进行分词,将一个句子分解成词的列表。 前言 本文根据实际项目撰写,由于项目保密要求,源代码将进行一定程度的删减。本文撰写的目的是进行公司培训,请勿以任何形式进行转载。由于是日语项目,用到的分词软件等,在...
阅读 3740·2023-01-11 11:02
阅读 4248·2023-01-11 11:02
阅读 3059·2023-01-11 11:02
阅读 5186·2023-01-11 11:02
阅读 4744·2023-01-11 11:02
阅读 5542·2023-01-11 11:02
阅读 5321·2023-01-11 11:02
阅读 4005·2023-01-11 11:02