资讯专栏INFORMATION COLUMN

TF-IDF、词袋模型与特征工程

xialong / 3535人阅读

摘要:如标题,与词集词袋模型都是数据预处理中常用的算法,这里展示一下这两种算法的联合应用。我们再回过头来看看的缺陷,其中的第二点和第三点以相反角度来看都有助于我们对词袋模型中特征向量的优化这个需要各位好好理解一下。

如标题,TF-IDF与词集词袋模型都是数据预处理中常用的算法,这里展示一下这两种算法的联合应用。

一. 词集与词袋模型

这个算法的主要作用也就是对文本做单词切分,有点从一篇文章里提取关键词这种意思,旨在用向量来描述文本的主要内容,其中包含了词集与词袋两种。

词集模型:单词构成的集合,集合中每个元素只有一个,即词集中的每个单词都只有一个。

词袋模型:如果一个单词在文档中出现不止一次,就统计其出现的次数,词袋在词集的基础上加入了频率这个维度,使统计拥有更好的效果,通常我们在应用中都选用词袋模型。

python代码示例

使用xss攻击语句来测试词袋模型的效果

from sklearn.feature_extraction.text import CountVectorizer
#词袋模型,这里的min_df取值为3,即该向量在整个payload中至少出现了三次
vec=CountVectorizer(min_df=3,ngram_range=(1,1))
content=[
    "alert(1)X",
    "">