生物学是数据科学的下一个爆发点—

新闻资讯

生物学是数据科学的下一个爆发点

发布时间:[2018-07-04] 来源: 点击量:

进入》主数据管理 企业数据治理 信息资源规划 数据安全管理

对于数据科学家或初创公司来说，CSB是一个新兴领域，将充分利用深度学习领域的进展。

CSB将显著加速治愈人类某些棘手的疾病，或在5至7年时间内成为下一代独角兽的基石。

或许只有当你真正参与其中才能更好地描述这一切，比如通过面部识别技术在Facebook上标记你朋友的脸，或者为旅行平台创建聊天机器人，或者努力治愈癌症并延长人类的寿命。

这不就是生物信息学吗?

与大多数重要的创新一样，CSB并非新生事物。1978年，人们发现了限制性内切酶，并开始使用它，这被看成是第一次在生物学上使用工程概念。

就像深度学习不得不等待MPP和使用GPU来加速计算一样，从2003年解码人类基因组开始，随后的15年出现了基因组数据大爆炸，但CSB仍然停留在概念阶段。

早期的生物信息学试图解决基因组学初始阶段的问题。例如，如何组装全基因组模型或使用SNP(单核苷酸多态性)来标记DNA的特定区域(人类基因组中有大约1000万个SNP)。

CSB不是一般的生物信息学

从两三年前的深度学习大爆发开始，第一个有远见的生物学家/数据科学家团队开始探索如何在看似无关的学科中利用这种新的协同增效效应。

为了让你了解这个领域的新颖性和开放性，Angel.co网站(跟踪创业公司的形成和投资情况)列出了超过400万家创业公司，其中绝大多数与科技有关。有超过5000个公司与“大数据”有关，另外5,000家则被归类为“分析”。只有222家属于生物信息学，其中只有一部分正在研究CSB。

这感觉就像是2010年前后的深度学习，距离图像分类或语音识别准确率达到95%还有三年时间，这些技术后来被10,000家新的AI初创公司用在他们的应用程序中。

一些例子

毋庸置疑，在迄今为止发表的材料中，这一领域的创新者一直羞于过多地谈论他们的专有算法，除非它们是基于深度学习的。以下是一些正在发生的快照。

Hexagon Bio：四分之三的抗生素和一半的抗癌化合物，包括青霉素和他汀类药物均来自天然真菌。但是，新化合物的发现在很大程度上是随机的，并且依赖研究人员的直觉。

Hexagon挖掘了2000多种菌菇和霉菌的真菌基因组，用以预测哪些基因簇最可能产生有用的化合物。然后他们将测试微生物与修改过的的DNA部分相结合，以便产生可能的化合物，用于攻击癌细胞。他们目前大约有22种化合物具有临床应用的前景。

除了他们的专有算法，Hexagon已经开始使用DNA测序和自动化工作站这类工具。他们还使用了一种技术，通过下载和打印基因簇的拷贝，加快DNA的合成速度。现在只需要按下一个按钮，就可以完成酵母菌的重新设计。

在过去的18个月中，他们从私人投资者手中筹集了800万美元资金。

真菌药物开发领域特别火爆，竞争者是否能够脱颖而出，取决于他们的算法能否快速而准确地发现有用的DNA片段。

这一领域的其他进展包括：

LifeMine Therapeutics：一家由哈佛大学化学生物学家共同创立的初创企业，已经从大量投资者手中获得了价值5500万美元的A轮融资，这些公司包括无锡医疗保健风险投资公司、谷歌和默克风险投资公司。

Lodo Therapeutics Corp：5月份与罗氏公司签署了一项有关基因组筛选的协议，涉及金额9.69亿美元。

Adapsyn Bioscience Inc：1月份收到来自辉瑞的1.62亿美元投资，用于微生物挖掘。

并非所有的CSB都涉及实验工作

BenevolentAI正致力于为炎症、神经退行性疾病、孤儿疾病和罕见的癌症寻找新型解决方案，但这些都没能提供足以吸引大型制药公司投资所需的大规模市场。BenevolentAI认为，我们可能可以从药物研发机构的未开发研究中找到这些问题的答案。

他们的方法是开发一个先进的人工智能平台，他们称之为深度判断系统。这个平台可以基于人类的判断和数据进行学习和推理。

该平台使用来自科学论文、专利、临床试验信息的大量非结构化数据，试图从大量结构化数据集中识别出隐蔽的科学知识，并基于“已知”的东西推断出应该“应该”知道什么。

生成模型可能是最前沿的

哈佛大学化学教授Alan Aspuru-Guzik利用生成DNN架构提出了一种分子结构，该分子结构可能可以用于复制两种不同药物的组合特性，例如阿司匹林与布洛芬。有效药物的组合和有效方案的组合将大大提升我们有效治愈更多疾病的能力，并带来成本上的效益。

我们经常考虑如何在谷歌的智能回复等应用程序中使用生成DNN(RNN、LSTM)，为回复邮件提供建议。实际上，如果我们能够使用潜在的分子结构作为输入，AI就能够建议潜在的组合，这些组合不仅是物理上的，而且还可能具有组合的治疗效果。

2017年12月，Aspuru-Guzik和他在哈佛大学、多伦多大学和剑桥大学的同事发表了生成模型的可喜成果，该模型是基于250,000种类药物分子训练出来的。

这些公司在寻找什么样的数据科学家?

对于那些可能对跨领域感兴趣的人来说，他们在CNN、RNN、LSTM和QAM(Question Answering Machine，问答机)方面的深度学习技能将会成为他们的优势，当然具体要取决于公司。我们看到很多工作岗位的描述要求候选人懂Python和R，但没有特别提到要懂生物信息学，或所述不多。

最多就是有些岗位要求候选人基本熟悉生物学研究。我们的猜测是，现在没有那么多数据科学家同时拥有生物学学位，并且这些公司重视数据科学多过生物学。

另一方面，如果我们建议我们的孩子在高中和大学时学些什么，数据科学和生物学的结合看起来是个不错的选择。

我们认为这个领域才刚刚开始，要像今天的AI那样成熟，还需要7到10年的时间。对于现在的年轻数据科学家或者在最近10年内从学校毕业的新数据科学家来说，这可能是一个很长的职业生涯。

现在的CSB大致相当于福特汽车Model A手工版阶段。随着这个领域的数据科学的进步和自动化程度的提高，在不久的将来，我们有望直接在计算机屏幕上设计或编辑基因组。

哈佛医学院的基因科学家George Church说：“我认为这可能比太空革命或计算机革命更伟大”。中翰软件专注数据治理11年http://www.jobhand.cn/。