摘要:而腾讯和宝马保时捷,网易和宝马保时捷将会离得较远一些。关于的使用方法,可以参考基于的实践。下面我们分别查看同宝马和腾讯最相近的前个词语。可以发现和宝马相近的词大都属于汽车行业,而且是汽车品牌和腾讯相近的词大都属于互联网行业。
Word2Vec简介
Word2Vec是词(Word)的一种表示方式。不同于one-hot vector,word2vec可以通过计算各个词之间的距离,来表示词与词之间的相似度。word2vec提取了更多的特征,它使得具有相同上下文语义的词尽可能离得近一些,而不太相关的词尽可能离得较远一些。例如,【腾讯】和【网易】两个词向量将会离得很近,同理【宝马】和【保时捷】两个词向量将会离得很近。而【腾讯】和【宝马】/【保时捷】,【网易】和【宝马】/【保时捷】将会离得较远一些。因为【腾讯】和【网易】都同属于互联网类目,而【宝马】和【保时捷】都同属于汽车类目。人以类聚,物以群分嘛!互联网圈子中谈的毕竟都是互联网相关的话题,而汽车圈子中谈论的都是和汽车相关的话题。
我们怎么得到一个词的word2vec呢?下面我们将介绍如何使用python gensim得到我们想要的词向量。总的来说,包括以下几个步骤:
wiki中文数据预处理
文本数据分词
gensim word2vec训练
wiki中文数据预处理首先,下载wiki中文数据:zhwiki-latest-pages-articles.xml.bz2。因为zhwiki数据中包含很多繁体字,所以我们想获得简体语料库,接下来需要做以下两件事:
使用gensim模块中的WikiCorpus从bz2中获取原始文本数据
使用OpenCC将繁体字转换为简体字
WikiCorpus获取原始文本数据数据处理的python代码如下:
from __future__ import print_function from gensim.corpora import WikiCorpus import jieba import codecs import os import six from gensim.models import Word2Vec from gensim.models.word2vec import LineSentence import multiprocessing class Config: data_path = "xxx/zhwiki" zhwiki_bz2 = "zhwiki-latest-pages-articles.xml.bz2" zhwiki_raw = "zhwiki_raw.txt" zhwiki_raw_t2s = "zhwiki_raw_t2s.txt" zhwiki_seg_t2s = "zhwiki_seg.txt" embedded_model_t2s = "embedding_model_t2s/zhwiki_embedding_t2s.model" embedded_vector_t2s = "embedding_model_t2s/vector_t2s" def dataprocess(_config): i = 0 if six.PY3: output = open(os.path.join(_config.data_path, _config.zhwiki_raw), "w") output = codecs.open(os.path.join(_config.data_path, _config.zhwiki_raw), "w") wiki = WikiCorpus(os.path.join(_config.data_path, _config.zhwiki_bz2), lemmatize=False, dictionary={}) for text in wiki.get_texts(): if six.PY3: output.write(b" ".join(text).decode("utf-8", "ignore") + " ") else: output.write(" ".join(text) + " ") i += 1 if i % 10000 == 0: print("Saved " + str(i) + " articles") output.close() print("Finished Saved " + str(i) + " articles") config = Config() dataprocess(config)使用OpenCC将繁体字转换为简体字
这里,需要预先安装OpenCC,关于OpenCC在linux环境中的安装方法,请参考这篇文章。仅仅需要两行linux命令就可以完成繁体字转换为简体字的任务,而且速度很快。
$ cd /xxx/zhwiki/ $ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json文本数据分词
对于分词这个任务,我们直接使用了python的jieba分词模块。你也可以使用哈工大的ltp或者斯坦福的nltk python接口进行分词,准确率及权威度挺高的。不过这两个安装的时候会花费很长时间,尤其是斯坦福的。关于jieba的分词处理代码,参考如下:
def is_alpha(tok): try: return tok.encode("ascii").isalpha() except UnicodeEncodeError: return False def zhwiki_segment(_config, remove_alpha=True): i = 0 if six.PY3: output = open(os.path.join(_config.data_path, _config.zhwiki_seg_t2s), "w", encoding="utf-8") output = codecs.open(os.path.join(_config.data_path, _config.zhwiki_seg_t2s), "w", encoding="utf-8") print("Start...") with codecs.open(os.path.join(_config.data_path, _config.zhwiki_raw_t2s), "r", encoding="utf-8") as raw_input: for line in raw_input.readlines(): line = line.strip() i += 1 print("line " + str(i)) text = line.split() if True: text = [w for w in text if not is_alpha(w)] word_cut_seed = [jieba.cut(t) for t in text] tmp = "" for sent in word_cut_seed: for tok in sent: tmp += tok + " " tmp = tmp.strip() if tmp: output.write(tmp + " ") output.close() zhwiki_segment(config)gensim word2vec训练
python的gensim模块提供了word2vec训练,为我们模型的训练提供了很大的方便。关于gensim的使用方法,可以参考基于Gensim的Word2Vec实践。
本次训练的词向量大小size为50,训练窗口为5,最小词频为5,并使用了多线程,具体代码如下:
def word2vec(_config, saved=False): print("Start...") model = Word2Vec(LineSentence(os.path.join(_config.data_path, _config.zhwiki_seg_t2s)), size=50, window=5, min_count=5, workers=multiprocessing.cpu_count()) if saved: model.save(os.path.join(_config.data_path, _config.embedded_model_t2s)) model.save_word2vec_format(os.path.join(_config.data_path, _config.embedded_vector_t2s), binary=False) print("Finished!") return model def wordsimilarity(word, model): semi = "" try: semi = model.most_similar(word, topn=10) except KeyError: print("The word not in vocabulary!") for term in semi: print("%s,%s" % (term[0],term[1])) model = word2vec(config, saved=True)
word2vec训练已经完成,我们得到了想要的模型以及词向量,并保存到本地。下面我们分别查看同【宝马】和【腾讯】最相近的前10个词语。可以发现:和【宝马】相近的词大都属于汽车行业,而且是汽车品牌;和【腾讯】相近的词大都属于互联网行业。
>>> wordsimilarity(word=u"宝马", model=model) 保时捷,0.92567974329 固特异,0.888278841972 劳斯莱斯,0.884045600891 奥迪,0.881808757782 马自达,0.881799697876 亚菲特,0.880708634853 欧宝,0.877104878426 雪铁龙,0.876984715462 玛莎拉蒂,0.868475496769 桑塔纳,0.865387916565 >>> wordsimilarity(word=u"腾讯", model=model) 网易,0.880213916302 优酷,0.873666107655 腾讯网,0.87026232481 广州日报,0.859486758709 微信,0.835543811321 天涯社区,0.834927380085 李彦宏,0.832848489285 土豆网,0.831390202045 团购,0.829696238041 搜狐网,0.825544642448
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/38691.html
摘要:下载数据方法使用官方的数据最新打包的中文文档下载地址是。中文维基数据繁简混杂大家都说存在这个问题,但的网站是将繁体中文和简体中文分开处理的,所以一直觉得从数据库到结构都应有方法将两者区分开,暂罢,待有空研究其数据时再议。 照例,先讲下环境,Mac OSX 10.11.2 ,Python 3.4.3。 下载数据 方法1:使用官方dump的xml数据 最新打包的中文文档下载地址是:http...
摘要:在自然语言处理中,一个很重要的技术手段就是将文档转换为一个矢量,这个过程一般是使用这个库进行处理的。自然语言处理中,一般来说,代表词。自然语言预处理中,一个很重要的步骤就是将你收集的句子进行分词,将一个句子分解成词的列表。 前言 本文根据实际项目撰写,由于项目保密要求,源代码将进行一定程度的删减。本文撰写的目的是进行公司培训,请勿以任何形式进行转载。由于是日语项目,用到的分词软件等,在...
阅读 2770·2021-10-11 11:08
阅读 1488·2021-09-30 09:48
阅读 1048·2021-09-22 15:29
阅读 1036·2019-08-30 15:54
阅读 976·2019-08-29 15:19
阅读 526·2019-08-29 13:12
阅读 3159·2019-08-26 13:53
阅读 956·2019-08-26 13:28