@ 2024.08.15 , 07:01

为什么生物学的生成AI进展缓慢

生物领域的生成性AI因数据获取和验证成本高而进展缓慢。

生成性AI在文本、图像、视频和声音生成方面的进展迅速。只需使用OpenAI的ChatGPT,便能深信不疑。相比之下,生物领域的生成性机器学习进展缓慢,尤其是与人类创造的数据(如文本和图像)处理速度相比。这主要是由于数据验证成本高昂。

与其他生成性机器学习领域不同,生物领域在获取和验证新数据方面面临重大挑战。这种差异主要体现在两个方面。

首先,自然语言处理(NLP)的原始材料是人类创造的文本,数量丰富。我们可以通过网络爬虫获取这些数据。而生物序列数据的收集不仅需要大量的工作来收集和处理物理DNA,还需进行测序。这个过程需要开发新的测序和收集技术,而每项技术都带来了不同的偏差和复杂性。

更重要的是,生物领域没有相当于教科书的高质量、指导性文本可用。最接近的可能是UniProt等数据集,这些数据集是经过精心策划和去重的蛋白质序列数据集,但只有一个。

其次,两个领域的验证过程差异显著。在NLP中,评估计算机生成的文本相对简单;人类可以迅速判断文本是否连贯和有意义。然而,在生物学中,验证DNA或蛋白质字母序列是否“合理”要复杂得多。即使是计算预测一个序列是否会正确折叠并执行所需功能,也需要大量计算,而这只是另一种预测。要真正测试生物序列的“意义”,必须在设计出编码该序列的DNA后,将其插入细胞,在合适的环境中培养,然后提取和测试该分子,使用生化检测,这一过程耗时、成本高且往往需要专门设备。(这可能是博客中最大的轻描淡写。)

本质上,虽然NLP允许几乎立即评估文本输出,因为人类机器非常擅长识别文本或图像的连贯性,但生物机器学习则需要数周的昂贵实验室工作来验证每个输出。

机器学习的进展依赖于数据集和评估,而不仅仅是算法。因此,生物数据的稀缺性和高验证成本使得生物学中的机器学习进展比NLP要慢,后者的数据生成和评估相对便宜。

因此,生物学中的机器学习进展将比NLP更慢。数据的可用性和成本,以及验证的复杂性,显著限制了生物领域的进展,而这些限制在其他生成性机器学习领域并不存在。

本文译自 Alex Carlin,由 BALI 编辑发布。

赞一个 (2)