摘要:我们的研究表明,结合公共数据和机器学习方法,可以得到社会经济数据和美国人的政治倾向。
AI科技评论按:最近,一篇名为《Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US》的论文发布到了arxiv.org上,作为这篇论文的联合作者之一,李飞飞在她的推特上向公众推荐了这篇论文。这篇论文主要论述了如何将谷歌街景车搜集来的机动车辆数据,结合机器学习算法,从而估算出本地区人口的特征和组成,甚至这一地区居民的政治倾向。
下面是这篇论文的一些节选内容,原文地址为:https://arxiv.org/abs/1702.06683。由AI科技评论编译。
几千年来,统治者和政策制定者进行全国人口调查,用来搜集人口数据。在美国,最细致的人口调查工作就是“美国社区调差”(ACS),由美国普查局执行,每年花费10亿美元和6500人以上的人力。这是一个劳动密集型数据搜集过程。
最近几年,计算方法崛起成为解决社会科学领域问题的有效方法。比如用Twitter上的数据预测失业率、使用书里的大量文本分析文化等等。这些例子表明,计算方法可以促进社会经济领域的研究发展,最终可以详细、实时地分析人口趋势,并且成本很便宜。
我们的研究表明,结合公共数据和机器学习方法,可以得到社会经济数据和美国人的政治倾向。我们的流程里,针对几个城市耗费少量人力来搜集数据,然后用来预测全美的状况。
具体而言,我们分析了由谷歌街景汽车在200个城市里搜集来的5000万张图片。我们的数据主要是关于机动车辆,因为90%的美国家庭都拥有至少一辆汽车,而且人们对汽车的选择受到多种人口因素的影响,包括家庭需求、个人偏好和资金等。
基于深度学习的CNN计算机视觉框架,不仅能够在复杂的街景下识别出汽车,还能鉴定出一系列汽车特征,包括材料、型号和年份。对于一个未经训练的人来说,汽车之间的不同是难以发觉的。比如,同一型号的汽车,不同年份的在尾灯有微小变化(比如2007产的Honda Accord和2008年产Honda Accord)。然而,我们的系统就能够将汽车分成2657类,每张图片的分析时间只需0.2秒。该系统可以在2周时间里对5000万张图片分类,而一个专业的人类分类员,假设他每张需要10秒时间,将会花费15年的时间完成这个任务。
利用谷歌街景汽车搜集来5000万张图片,我们使用图像识别算法(Deformable Part Model)来学习自动搜集汽车图片。搜集每一辆汽车图片后,我们部署CNN模型,用来进行物体分类,来判定每一辆车的材料、型号、车型和年份。然后,我们根据城镇名字分类数据库,划分到两个数据库里。第一个是"训练库",包含了所有名字以A、B、 C开头的地区,这个数据库包括了35个城市,训练产生模型;第二个是“测试库”,包括所有名字以D、Z为开头的地区,这个数据库用来提升模型。
我们总共搜集了2200万辆(占全美汽车总数8%)汽车的数据,用来准确估算这个地区的收入、种族、教育和投票程式(voting pattern)。结果显示出的关系出人意料的简单和有力。比如,如果在一个城市里15分钟的车程中,遇到的轿车数量高于卡车数量,那么这个城市倾向于在下届大选中投票给民主党(88%几率);反之则倾向于投票给共和党(82%)。我们的结果表明,自动系统监测使用良好的空间分辨率,能够接近实时地监测人口趋势,可以有效地辅助劳动密集型的调查方法。
欢迎加入本站公开兴趣群商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/4482.html
摘要:谷歌云在其官方博客上公布,确认来自卡内基梅隆大学的计算机科学院院长教授将在年底接任李飞飞的谷歌云负责人职位,而李飞飞也将正式回归斯坦福大学当教授。两年前,李飞飞从斯坦福休假加入谷歌,成为谷歌云的负责人与首席科学家。今年7月的谷歌Next大会上,李飞飞宣布了两年前推进的Contact Center落地、AutoML推出自然语言和翻译服务、TPU 3.0进入谷歌云,这意味着谷歌云拥抱AI Fir...
摘要:谷歌最近人事变动颇为频繁,在李佳被爆离开谷歌后,有消息称谷歌云服务的负责人戴安妮格林也将辞职,其职位将由甲骨文前总裁托马斯库里安接任。如今,加飞猫陆续离开百度云,格林也准备辞职,除了个人主观原因之外,必然和谷歌云服务近两年的发展相关。谷歌最近人事变动颇为频繁,在李佳被爆离开谷歌后,有消息称谷歌云服务的负责人戴安妮·格林也将辞职,其职位将由甲骨文前总裁托马斯·库里安(Thomas Kurian...
摘要:年月日,将标志着一个时代的终结。数据集最初由斯坦福大学李飞飞等人在的一篇论文中推出,并被用于替代数据集后者在数据规模和多样性上都不如和数据集在标准化上不如。从年一个专注于图像分类的数据集,也是李飞飞开创的。 2017 年 7 月 26 日,将标志着一个时代的终结。那一天,与计算机视觉顶会 CVPR 2017 同期举行的 Workshop——超越 ILSVRC(Beyond ImageNet ...
阅读 1243·2021-11-22 09:34
阅读 2060·2021-10-08 10:18
阅读 1673·2021-09-29 09:35
阅读 2373·2019-08-29 17:20
阅读 2053·2019-08-29 15:36
阅读 3332·2019-08-29 13:52
阅读 719·2019-08-29 12:29
阅读 1122·2019-08-28 18:10