摘要:内容中的少即是多除了设计,内容上有时我们也追求少即是多。算法与数据中的少即是多我还是希望自己写的东西有一点技术性,所以想在最后提提算法与数据中的少即是多概念。至此,我们得到一个更加干净的小字典,但是少即是多,他的分词效果非常好。
每天被形形色色的信息包围着,看十几条来自Facebook的消息,刷上百张Instagram的照片,快速跳过百来个Snapchat的故事,仔细阅读一下Wechat的公众号和朋友圈,睡前点开Zaker上有趣的新闻推荐读一读。接收到的信息越多,使用手机频率越大,越明白“少即是多”这个话在设计,内容以及算法数据上的重要。
其实这个文章我主要想记录一个听到的数据降噪的故事,想看的可以跳过前两段。
设计中的少即是多
“少即是多”最早就在设计界被人提起,实体产品中有一个出名的例子就是无印良品。他们主打无标示,少设计的家用产品,功能上全心解决生活痛点。正是他们对生活文化的理解,造就了市值7000亿日元的品牌。
互联网也充满了“少即是多”的产品,Tinder有着像纸牌一样的界面,每个界面上的功能都及其简单,就像纸牌一样一目了然。你可以把纸牌理解成一个个stories,在某些互联网产品上进化为newsfeed,但是传统的纸牌模式比newsfeed更有助于你抛开干扰,快速的作出决定。
另一个最近常常谈到的产品就是snapchat,每当你看到视频或图片时都处于全屏状态,一方面可以说他们没有Design,一方面也可以说他们有最简单的Design。这种做法给他们带来了极大的广告完成率,因为用户很难意识到的自己在看广告。大屏幕的表现手法以及庞大的年轻人用户群对电影,体育,游戏相关类的广告有着很大的转换率。
内容中的少即是多
除了设计,内容上有时我们也追求“少即是多”。多显得杂,比如快手,内容虽多但不值钱。少有时能体现品牌,比如米未,拥有《奇葩说》A轮融资20亿。上亿的节目点击率和网络口碑以外,还造就了240万粉丝的马薇薇,颜如晶等网络名人。内容营销,有时在精不在多。
同时看看坐拥4.5亿用户的今日头条,尽管活跃用户不如某些门户网站,但是用户的流量消耗很大。他们所强调的精准推送与无限刷新,让你第一眼看到的内容少而精。尽管因为他们算法的不足,我已经把他们的app删掉了,但还是不得不承认他们获得的成功。
算法与数据中的少即是多
我还是希望自己写的东西有一点技术性,所以想在最后提提算法与数据中的“少即是多”概念。直白的说,算法上时间复杂度少,那么能处理的数据就多,数据中的噪音少,那么你从数据中提炼出来的规则就更加准确。Quora上知名问题“你在工作中应用机器学习学到的最重要的一课是什么”当中提到重要一点就是确定你的数据是干净并且高质量的;大数据的性感充满危险。
其实写这个文章我主要是想记录Google做CJK分词的算法中降噪的例子。中文分词最大的难处就是在于有歧义,就像Matrix67在他的“漫话中文分词”文章中提到的“北京/大学生/前来/应聘”有可能被理解为“北京大学/生前/来/应聘”。目前CRF算法是公认的最好算法,但实际效果也基于训练模型和数据。
通过最大化概率来分词是最简单的模型,假设我们知道每一个词在网上的出现概率,P(北京)>P(北)*P(京),P(清华大学)>P(清华)P(大学),那么我们可以通过最大化概率知道:
北京清华大学->北京/清华大学
可是简单的最大化概率模型很难解决stopword对分词产生的影响,比方说“的确定不下来”很容易被理解为“的/确定/不/下来”。所以Google采用了上下文关联的统计模型,对于任意两个词语考虑他们一起出现的概率,比如比较P(确定|的)和P(定|的确)。
Google黑板报讲了他们的算法,但是并没有讲他们如何对海量数据降噪。他们想到的方法非常简单,那就是对原始数据分词再分词。
例如用户输入“王二小明白展堂”,这里我想表达“王二小明白展堂”。但因为并不常见,所以每个词语的上下关联不大,很容易被拆分为“王二小明白展堂”。这是因为在我们用来建立模型的数据当中,每一次出现“王二小”都会使得“王二”的概率增大;每一次出现“小明”,“从小明白”都会使得“小明”的概率增大;而“白展堂”也是常见的词语。
为了减小概率字典里的噪音,我们在生成第一个概率字典后,对原始数据进行分词并且计算新的概率字典。这时候“王二小”再也不是“王二”了,“从小明白”再也不是“从小”,“小明”和“明白”了。至此,我们得到一个更加干净的小字典,但是“少即是多”,他的分词效果非常好。
这个降噪的想法非常的简单和直接,也许你不用拍脑袋都能想到,但是当工作钻入牛角尖时,你可能会忘了它。说了这么多“少即是多”,还是要提醒一下在使用时最好还是等有了大数据后再使用。当你的数据量不够大时,珍惜每一个数据点吧。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/125911.html
摘要:本文将模拟一个欧派,让大家足不出户在家里就能更加直观立体的挑选家具。创建广告牌宽度高度深度宽度上的节数高度上的节数深度上的节数中心点家具展销欧派这里给我们给整个场景用抽象物体围起来了,以免第一人称控件开启时会造成无碰撞体系坠落出场景。 本文将模拟一个欧派,让大家足不出户在家里就能更加直观立体的挑选家具。 第一步,利用CampusBuilder搭建模拟场景。CampusBuilder的模...
摘要:最近,我需要在开发的事件管理系统中实现搜索功能。今天,我会介绍整个过程以及如何构建灵活且可扩展的搜索系统。这将是个挑战前端的条件过滤的截图。像刚刚的情况下搜索用户时加上一个过滤器再返回搜索结果。 showImg(https://segmentfault.com/img/remote/1460000018654283?w=1680&h=494); 最近,我需要在开发的事件管理系统中实现搜...
摘要:设计者的品味现在流行相对主义,即认为真理是相对的。优秀设计的原则是许多学科的共同原则,一再反复地出现。好设计是永不过时的设计。好设计是解决主要问题的设计。好设计是模仿大自然的设计。好设计是成批出现的。好设计常常是大胆的设计。 9 设计者的品味 现在流行相对主义,即认为真理是相对的。即使你已经从小孩变成了成年人,这种观点依然可能妨碍你思考品味。把品味说成个人的偏好可以有效地杜绝争论,防止...
摘要:近日,在年云计算与大数据在智能工业中的发展及应用高峰论坛上,与会专家认为,信息技术和全球工业系统正在深入融合,给全球工业带来深刻的变革,创新了工业企业的研发生产运营营销和管理方式。 近日,在2016年云计算与大数据在智能工业中的发展及应用高峰论坛上,与会专家认为,信息技术和全球工业系统正在深入融合,给全球工业带来深刻的变革,创新了工业企业的研发、生产、运营、营销和管理方式。 步入智能化综...
阅读 3473·2023-04-25 20:09
阅读 3685·2022-06-28 19:00
阅读 2994·2022-06-28 19:00
阅读 2995·2022-06-28 19:00
阅读 3048·2022-06-28 19:00
阅读 2834·2022-06-28 19:00
阅读 2969·2022-06-28 19:00
阅读 2578·2022-06-28 19:00