资讯专栏INFORMATION COLUMN

谷歌推出开源工具DeepVariant,用深度学习识别基因变异

raledong / 1289人阅读

摘要:今天推出了一个名叫的开源工具,用深度神经网络来从测序数据中快速较精确识别碱基变异位点。今天,团队,联合同属于旗下的生命科学兄弟公司,用了两年多时间,研发出了一个名叫的开源工具,专门用深度神经网络来识别结果中测序数据里这些碱基变异位点。

Google今天推出了一个名叫DeepVariant的开源工具,用深度神经网络来从DNA测序数据中快速较精确识别碱基变异位点。

学科研究的革命性进展,特别是基因学上,需要依赖于新技术的出现。比如桑格发明了测序法之后,才实现了人类基因组的测序。

再比如DNA(微阵列)芯片技术的诞生,使得大规模的基因测序成为可能。这些技术让我们能够获得大量遗传信息,可以更广泛地应用于健康、农业和生态上。

基因测序领域里,最革命性的技术当属2000年初首次商用的高通量测序(缩写为HTS)了。HTS可以大规模、低成本、快速地获得任何生物的基因序列。

不过,HTS有个致命的问题在于,测序出来的结果不是完整的,而是碎片化的片段信息。

比如测的是人的基因序列的话(也就是说,信息量级为23对染色体上的30亿对碱基排序),那么得到的测序结果是不到10亿个短序列片段,一般每个短序列片段我们称为读取单位(reads)。

每个读取单位含有100个碱基对(不同读取单位的信息需要重叠,才能最后拼全),而每个碱基的错误率范围是0.1%到10%。所以,一直以来,对于HTS来说,较大的挑战是把碎片化的结果信息拼成一整段完整的序列信息。

瓶中基因组联盟Genome in a Bottle Consortium(GIAB),和精准FDA平台(美国药监局做的基因组信息学社区和共享数据平台)一样,致力于提高基于HTS基因测序结果。他们能提供高精度的人体基准基因组序列信息。

把测序结果与基准基因序列一比对,就可以得到很多个碱基变异位点(就是上图打星的地方),这些位点,可能是SNP单核苷酸多态性导致的,也可能是测序过程中复制出错造成的。

今天,Google Brain团队,联合同属于Alphabet旗下的生命科学兄弟公司Verily,用了两年多时间,研发出了一个名叫DeepVariant的开源工具,专门用深度神经网络来识别HTS结果中DNA测序数据里这些碱基变异位点。这个工具在准确率上和较精确度上,比传统的比对拼接方法都高出一大截。

DeepVariant,把工作量巨大的拼接问题(HTS碎片化的结果拼接成完整的基因序列),转变成了一个典型的图像分类问题。而图像分类正是谷歌擅长的技术。

2016年,DeepVarient还在PrecisionFDA Truth Challenge中赢得了较高SNP性能奖(Highest SNP Performance)。在那之后,Google Brain团队又将错误率降低了50%。

下面的四幅图,分别代表实际测序的片段和基准序列的比对结果。

 A:单核苷酸多态性造成的碱基变异位点;

B:一条染色体上少了一个碱基;

C:两条染色体上都少了一个碱基;

D:复制错了的碱基变异位点。

在比对过程中,要回答的一个关键的问题是,怎么判断比对后得到的碱基变异位点,是存在于两条染色体中,还是只在一条里,还是都没有。造成碱基变异位点的原因不只一种,最常见的三种可能是单核苷酸多态性,或多插了一个碱基,或少复制了一个碱基。

这些变异位点如果用视觉识别的算法就能快速找出来。大大提高HTS后的比对拼接的效率。

因为瓶中基因组联盟Genome in a Bottle Consortium(GIAB)提供的人体基准基因组序列信息是高精度可信的,或者更严谨地说,是最接近真实序列的信息。

通过这个基准序列得到的复制数据,谷歌团队可以拿它们来训练基于Tensor Flow的图像分类模型,所得到的DeepVariant,最后可以区别真实序列数据和复制数据。

尽管DeepVariant根本不懂什么是基因组序列,也不懂HTS,但是只用了一年,就已经赢得了PrecisionFDA Truth Challenge中的较高SNP性能奖(Highest SNP Performance)。而且到目前为止,把已有最优异的方法拼接错误率降低了50%多。

在发布开源代码的同时,Google Brain还发布Google Cloud上的DeepVarient工作流,方便开发者用它来处理大型数据集。

最后,附上相关链接:

Google Research Blog介绍:

https://research.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html

开源代码:

https://github.com/google/deepvariant

Google Cloud版:

https://cloud.google.com/genomics/deepvariant

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:81035754

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/4683.html

相关文章

  • TensorFlow发布机器学习框架TensorFlow.js

    摘要:今年,发布了面向开发者的全新机器学习框架。今年,围绕,谷歌同样做出了几项重大宣布发布新的官方博客与频道面向开发者的全新机器学习框架发布一系列新的库与工具例如等。提供了多种适用于张量的线性代数和机器学习运算的。 当时时间 3 月 30 日,谷歌 TenosrFlow 开发者峰会 2018 在美国加州石景山开幕,来自全球的机器学习用户围绕 TensorFlow 展开技术演讲与演示。去年的 Ten...

    malakashi 评论0 收藏0
  • PB 级数据处理挑战,Kubernetes如何助力基因分析?

    摘要:阿里云基因数据服务不断提升极致弹性的计算能力,和大规模并行处理能力,以及海量高速存储来帮助基因公司快速自动化处理每天几十上百的下机数据,并产通过标准产出高质量的变异数据。 摘要: 一家大型基因测序功能公司每日会产生 10TB 到 100TB 的下机数据,大数据生信分析平台需要达到 PB 级别的数据处理能力。这背后是生物科技和计算机科技的双向支撑:测序应用从科研逐步走向临床应用,计算模...

    forsigner 评论0 收藏0
  • 亚马逊推出三大机器学习云服务,AI成为云计算之战天王山

    摘要:被称为亚马逊的新服务提供了强大的功能,如图像分析,文本到语音转换和自然语言处理。换句话说,其任务是将谷歌的机器学习功能产品化。亚马逊平台推出的这些新服务中的第一个是名为的图像识别服务。 亚马逊一直在其零售业务中使用深度学习和人工智能来提高客户体验。该公司声称,它有数千名工程师专门从事人工智能相关开发,以改善搜索、物流、产品推荐和库存管理。亚马逊现在正在将相同的专业知识带给云,展示了开发人员可...

    huhud 评论0 收藏0

发表评论

0条评论

raledong

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<