摘要:先将里面的表格预处理清理下复杂格式把第一行置为英文字段名将导出为格式这时在中导入会提示是因为会使用系统编码到处的文件编码在中使用系统自带的转换该文件为格式具体参数可以参考这样转换好的文件就是使用导入安装即自带导入工具
先将excel里面的表格预处理,清理下复杂格式,把第一行置为英文字段名
将xls导出为csv格式: points.csv
这时在mongoimport中导入会提示:
exception:Invalid UTF8 character detected
是因为excel会使用系统编码到处GBK的文件编码.
在linux-mint中,使用系统自带的iconv转换该文件为utf8格式
iconv -f gbk -t UTF-8 points.csv > points_utf8.csv
具体参数可以参考:
iconv --help
这样转换好的文件就是points_utf8.csv
使用mongoimport导入(安装mongodb即自带导入工具)
mongoimport -d test -c students --type csv --file ./points_utf8.csv --headerline --upsert
同样 具体参数解释可以参见 mongoimport -h
points里面的内容就会被转换到mongodb:test db的students集合中.
每一行作为一个object有一个唯一的id,之前在表格中定义的headerline为key的document插入.
{ "_id" : ObjectId("553edfdac4e551239d3c975b"), "name" : "张三", "teamName" : "某某班", "ss1" : 12, "ss2" : "", "ss3" : 37, "ss4" : 45, "ss5" : "", "ss6" : "", "ss7" : 18, "ss8" : 24, "ss9" : 17, "ss10" : 11, "ss11" : 9, "ss12" : 15, "ss13" : 10, "ss14" : 13, "ss15" : 24, "ss16" : 26, "po1" : 21, "po2" : 38, "fn1" : "", "fn2" : 25, "fn3" : 23 }
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/18759.html
摘要:查看源码下载页面并处理提取数据观察该网站结构可知该页面下所有电影包含在标签下。使用语句获取该标签在标签中遍历每个标签获取单个电影的信息。以电影名字为例清洗数据其余部分详见源码页面跳转检查后页标签。 查看源码 1 下载页面并处理 DOWNLOAD_URL = http://movie.douban.com/top250/ html = requests.get(url).text tr...
阅读 485·2021-10-09 09:44
阅读 2031·2021-09-02 15:41
阅读 3532·2019-08-30 15:53
阅读 1812·2019-08-30 15:44
阅读 1255·2019-08-30 13:10
阅读 1150·2019-08-30 11:25
阅读 1383·2019-08-30 10:51
阅读 3346·2019-08-30 10:49