资讯专栏INFORMATION COLUMN

6.3排序式检索 tf-idf权重计算

不知名网友 / 3543人阅读

摘要:提示信息检索文档评分词项权重计算向量空间模型第三部分权重计算文章目录权重计算权重文档频率计算举例权重权重计算在进行排序时,除了词项频率之外,我们通常还需要词项在整个文档集中的频率和评分。那么我们就希望给它更高的权重。

提示:
信息检索:文档评分-词项权重计算-向量空间模型
 第三部分:tf-idf权重计算


tf-idf权重计算

在进行排序时,除了词项频率tf之外,我们通常还需要词项在整个文档集中的频率和评分。
原因,当词项A和词项B在文档1中tf相同时,但词项B在文档集中每个文档中都有,而词项A只存在于文档1中,那么A和B需要有一个重要性的排序。

权重

罕见词项要比常见词项蕴含的信息要多很多,它出现的频率越低,那么出现它的文档就显得相关性更高。那么我们就希望给它更高的权重。
那么对于常见词而言,相对蕴含信息就相对偏少,给一个低的权重即可。

文档频率df

出现词项的文档数目

idft是反映信息量的一个指标。
用log10(N/dft)来限制N/dft的作用

idf计算举例

N=1000000

cf VS df

vs
文档集频率cft在整个文档集中出现的次数
文档频率df包含t的文档数目

哪一个更适合查询?即赋予更高的权重?
通过上图,df(idf)的更适合做查询

※tf-idf权重




文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/125634.html

相关文章

  • 自然语言处理真实项目实战

    摘要:在自然语言处理中,一个很重要的技术手段就是将文档转换为一个矢量,这个过程一般是使用这个库进行处理的。自然语言处理中,一般来说,代表词。自然语言预处理中,一个很重要的步骤就是将你收集的句子进行分词,将一个句子分解成词的列表。 前言 本文根据实际项目撰写,由于项目保密要求,源代码将进行一定程度的删减。本文撰写的目的是进行公司培训,请勿以任何形式进行转载。由于是日语项目,用到的分词软件等,在...

    王岩威 评论0 收藏0

发表评论

0条评论

不知名网友

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<