Getting to know Stanford’s first data science faculty

“研究大脑的人和研究天气模式的人有什么共同点？”数据科学家 Laura Gwilliams 问道。“答案是：数据中的复杂时空模式！”

Gwilliams 和 Brian Hie 是斯坦福数据科学的首批教员，这是一个隶属于研究院长的单位，致力于数据驱动的发现和扩展数据科学教育。Gwilliams 是心理学助理教授和斯坦福数据科学教员研究员，研究人类大脑如何使语言成为可能。Hie 是化学工程助理教授和Dieter Schwarz基金会SDS教员研究员，正在开发大型、多用途的AI神经网络——称为基础模型——以理解分子和分子系统的进化，并利用这些知识推动医学进步和治疗方法。

数据科学是一个新兴领域，应用范围几乎无穷无尽。无论是神经科学、天气、微生物学还是人工智能，数据科学方法都能利用大量数据，这些数据可能过于密集或复杂，难以理解。

为了更好地了解数据科学的全部潜力，斯坦福报告采访了 Gwilliams 和 Hie，讨论了他们在语言学和神经科学以及生物学机器学习方面的激动人心的工作。

这次采访经过了长度和清晰度的编辑。

你如何定义数据科学？

Hie: 数据科学是一个跨学科领域，使用科学方法、过程、算法和系统从结构化和非结构化数据中提取知识和见解。它结合了统计学、数学、计算机科学和领域专业知识的各个方面，以分析复杂数据并解决现实世界的问题。

Gwilliams: 我认为数据科学是所有科学努力的核心，使其成为真正的跨学科追求。

在过去的五到十年里，数据科学发生了怎样的变化？

Gwilliams: 我认为一个核心变化是每个人——从行业到学术界再到公众——都认识到数据及其相关模型在改变我们生活的世界中的承诺和重要性。这推动了所有科学领域考虑如何在自己的领域中利用数据科学，认识到如果不适当地这样做，就有可能被落下。

在我专注于语言的研究中，数据科学使得人工系统能够以语言学家曾经认为只有人类才能达到的质量水平生成语言。这颠覆了语言学领域，因为这些模型表明，只要有足够的数据，就可以通过语言的统计学来学习和生成创造性、有意义的表达。

Hie: 在我对生物学基础模型的研究中，数据科学的发展是变革性的。我们现在正在处理包含数百万序列的基因组数据库。我们在这些数据上训练的大型语言模型现在可以处理来自DNA、RNA和蛋白质的信息，以及它们之间的复杂相互作用。这导致了具体的进展：我们正在设计新的、复杂的生物系统，包括DNA、RNA和蛋白质，这些系统可以用来设计新的基因组。这种大数据和先进建模的融合正在革新我们处理复杂生物系统的方法，并加速从基础研究到医学应用的路径，例如开发对病原体或肿瘤进化具有抗性的治疗方法，或用于纠正导致遗传疾病的突变的新技术。

数据科学的跨学科性质在你的工作中为什么重要？

Gwilliams: 我认为数据科学是一种强大的工具包，可以应用于不同领域，以实现科学发现，这在其他情况下是不可能的。

要理解像人类大脑如何神经实现语言这样复杂的问题，需要结合多个学科的见解：来自神经科学、语言学、心理学的神经实现和表示理论，以及通过数据科学进行建模和分析的强大工具。每个领域单独解决的问题只是部分问题——多个领域的结合是构建对一个非常复杂和多方面问题的全面答案所必需的。

Hie: 生物数据的量已经爆炸式增长，我们需要计算工具和先进的统计模型来理解这些数据。生物学的重大进展通常需要深厚的计算和统计专业知识。

我喜欢在前沿创新。我们正在推动生物学机器学习的边界，以建模超越单个分子的更复杂系统，达到系统或完整有机体的水平。这也有望解锁许多新的生物学应用。此外，能够指导来自各个领域的聪明和勤奋的学生也是一件很棒的事情。

你的研究下一步是什么？

Gwilliams: 为了更好地理解支持人类语言的神经算法，我的实验室目前正在开发首个跨越单个神经元、皮层柱和区域结构的数据集。这包括一种新的大脑记录设备，称为“光泵磁力计”系统，目前正在吴蔡神经科学研究所安装，可以非侵入性地记录人类大脑，提供毫米和毫秒分辨率的皮层测量。

Hie: 我们正在努力推动机器学习指导的生物设计的可能性。目前，大多数人只能对非常大的基因组进行小的改动，或者可以从头重新设计编码单个蛋白质或RNA分子的基因组小部分。我们希望能够使用我们的技术以可控的方式设计复杂的生物系统，甚至是完整的基因组，这将帮助我们将生物系统重新编程为应对气候变化或更好的治疗方法。

你希望有一天看到什么？

Hie: 来自计算背景，我进入生物学是为了帮助人们。希望通过推动计算生物学的进步，我们可以为更有效的疾病预防和治疗做出贡献。

Gwilliams: 我希望看到学术界和工业界共同朝着一个共同的目标努力，将模型和计算算法开源，为社区的利益服务。

我还希望减少对模型性能的强调，更多地关注理解这些模型的成功和失败模式，以及更数据和能源高效的模型训练方法。我对“可解释AI”的进展感到非常兴奋——这项工作旨在诊断为什么一个模型如此强大，以及它如何学会解决问题，而不仅仅是它解决问题的效果如何。

8.1 Getting to know Stanford’s first data science faculty

ONE SENTENCE SUMMARY:

MAIN POINTS:

TAKEAWAYS:

关键问题与行动计划

关键问题 1: 如何利用数据科学推动生物医学领域的创新和发展？

行动计划：

关键问题 2: 如何评估生成式人工智能在语言处理和神经科学中的应用潜力？

行动计划：

关键问题 3: 如何推动跨学科合作以加速数据科学的应用和发展？

行动计划：