再接着,看到了今年10月份在天津的一次计算
会议上,微软首席科学家Richard F. Rashid在上面演讲关于语音识别的时候,演示了其使用深度学习技术(他的原话是:deep
neural network,深度神经网络,属于深度学习的一种)来提高语音识别准确率的效果(),
相比目前较先进的基于Hidden Markov Model的技术,其准确率提升了大约30%(If you use that to take it
much more data than had previously been able to be used with the hidden
markov models, so that one change that particular break through
increased recognition rates by approximately thirty
percent)。然而,在7分35秒的时候,我也抑制不住地”哇”起来,原来,那个系统在进行语音识别的同时,还进行了识别,把英文翻译成了中文,不仅
如此,它还学习了Richard的发音和腔调,用中文把翻译的结果念了出来,博得现场一片掌声。虽然仔细一看,有些中文还是没有实时翻译过来,发出中文声
音也需要在原说话人发音之后大约2秒左右,但这已经是非常之牛,想想国内语音识别的先驱科大讯飞,目前还真是无法望其项背。
当前,国外在这方面的研究就是三分天下的局面,University of
Toronto的Geoffrey E. Hinton与微软合作,Stanford University的Andrew Y.
Ng和Google合作,以及New York University的计算机科学家Yann LeCun和Rob
Fergus。国内方面百度的于凯是这方面的先行者;据说企鹅也在招人搞这个,又据说是在做索引结构方面也能有一个质的飞跃,一篇文章提取特征后就剩一个
20维的向量,也还不确定是否真能如此神,另外还有文献提到可以用来做detection,因为目前adaboost确实是在训练上很花时间,自己之前在
家搞了个手表的训练,也花了一周时间,而深度学习在特征选择方面还是挺有优势的,不过之前看Andrew教授的视频,提到未监督学习用在做
detection上还是没有什么突破,不知道这里做检测效果会怎样;学术界现在在这块就是在与时间赛跑,谁先跑出个成果谁就是第一个吃螃蟹的(做人脸的
山世光也对于凯在这方面的report挺看重)。下面就先附上一些个人觉得比较重要的相关论文,其中部分还未细读,有些因为放在springlink或者
sciencedirect上无法下载,待有时间再请人找找后深入学习。
Learning multiple layers of representation, 2007.
这篇论文,篇幅短小,适合初学者理解DBNs,特别是非数学专业的。
Deep machine learning – a new frontier in artificial intelligence research, 2010.
深度学习的入门材料。
Learning deep architecture for AI, 2009.
深度学习的经典论文,可以当作深度学习的学习材料。
To recognize shapes, first learn to generate images, 2006.
多伦多大学的内部讲义。目前还没找到。
A fast learning algorithm for deep belief nets, 2006.
摘要:深度学习学习笔记整理系列作者声明该的学习系列是整理自网上很大牛和机器学习专家所无私奉献的资料的。但是自年以来,机器学习领域,取得了突破性的进展。
Deep Learning(深度学习)学习笔记整理系列
zouxy09@qq.com
http://blog.csdn.net/zouxy09
作者:Zouxy
version 1.0 2013-04-08声明:1)该Deep Lea...