记一次关于sklearn.datasets.fetch_20newsgroups的下载速度极慢的解决

dabai 发布于2019-07-30 17:56 / 2946人阅读

摘要：明天就是中秋节了现在的实验室空空荡荡的只剩下我们几个了提前祝大家中秋快乐

最近, 耗子我在做关于互联网新闻分类的项目, 需要用到sklearn.datasets里新闻数据抓取器fetch_20newsgroups, 而当将参数subset设置为"all"时, fetch_20newsgroups需要即时从互联网下载数据, So:

稍有python下载经验的就知道, 1M就得等很久了, 这是14M, 啊啊！

So:老办法一

直接复制图片中的网址下载:

https://ndownloader.figshare.com/files/5975967

然后, 依然很慢......

So:老办法二

复制链接, 用火狐浏览器插件多线程下载器下载
额, 也不算快啊......

So:老办法三

直接复制链接给迅雷呀！? 刚咋没想到呢？？？？
行吧, 还算迅雷给力......

接下来。。。

问题又来了, 有文件了, Python 怎么读取啊？？？
文件名是 20newsbydate.tar.gz
然后我就搜了 Python如何读取gz文件
大概是我中午没睡好吧, 搜这干嘛......

几经波折, 终于找到了......
感谢大神的分享: 这里是原文

在此说明如下:
fetch_20newsgroups函数将下载的文件放在
C:Users(你的user_name)scikit_learn_data20news_home目录下
将你下载的文件放在这里

注:
Python下载的文件叫20new-sbydate.tar.gz
你下载的叫20newsbydate.tar.gz
所以改成它那样的就成
(不过自己应该先看下, 你那个版本的Python下载的文件名字是啥)

进入Python安装文件夹中找到文件 twenty_newsgroups.py

用任意文本编辑器打开它
找到download_20newsgroups函数

上红框是下载文件的部分, 下红框是解压文件的部分
So, 我们只需要将上红框注释掉, 并加入文件地址即可
然后, ctrl+s , 如图:

有可能再报一个缩进的错:

缩进嘛, 看下哪行的4个空格变成一个Tab了, 改过来即可

So:

这是耗子我第一次发文章, 有错误的请不吝赐教, 耗子一定改正。明天就是中秋节了, 现在的实验室空空荡荡的只剩下我们几个了, 提前祝大家中秋快乐！

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/42517.html

记一次修复微信支付吊起非常慢的问题

摘要：记一次修复微信支付吊起非常慢的问题微信接支付调用有些安卓手机吊起非常慢，因为调支付写法就是这样子，实在定位不到问题所在，正在打算放弃的时候。定位会导致支付吊起不了吗原来之前把浏览器定位换成了微信定位，解决安卓下面会频繁弹授权的问题。记一次修复微信支付吊起非常慢的问题微信h5接支付调用 window.wx.invoke(getBrandWCPayRequest) 有些安卓手机吊起非常...

Mertens 2019-08-22 17:25 评论0 收藏0
sklearn 文本分类记录 [1] 官方文档

摘要：最后，模型甚至可以返回最能影响分类器分类效果的个单词，但是要求分类器有属性，目前用到的几个分类器，似乎都有这个这个属性。工作上需要用到文本分类，这里用 sklearn 做为工具，记录下学习过程目录 1. SVM 文本分类范例2. sklearn 做文本分类其他可选分类器3. 文本分类的数据预处理3. 中文文本分类方法 SVM 文本分类范例 import numpy as np f...

pcChao 2019-07-30 14:48 评论0 收藏0
记一次MongoDB高负载的性能优化

摘要：年月日本文是关于记录某次游戏服务端的性能优化此处涉及的技术包括引擎随着游戏导入人数逐渐增加单个集合的文档数已经超过经常有玩家反馈说卡特别是在服务器迁移后从核降到核卡顿更严重了遂开始排查问题确认服务器压力首先使用命令查看总体情况此时占用不高 Last-Modified: 2019年6月13日11:08:19 本文是关于记录某次游戏服务端的性能优化, 此处涉及的技术包括: MongoDB...

huhud 2019-07-01 13:57 评论0 收藏0
记一次MongoDB高负载的性能优化

摘要：年月日本文是关于记录某次游戏服务端的性能优化此处涉及的技术包括引擎随着游戏导入人数逐渐增加单个集合的文档数已经超过经常有玩家反馈说卡特别是在服务器迁移后从核降到核卡顿更严重了遂开始排查问题确认服务器压力首先使用命令查看总体情况此时占用不高 Last-Modified: 2019年6月13日11:08:19 本文是关于记录某次游戏服务端的性能优化, 此处涉及的技术包括: MongoDB...

vibiu 2019-06-26 18:05 评论0 收藏0