为什么生物学的生成AI进展缓慢

生物领域的生成性AI因数据获取和验证成本高而进展缓慢。

生成性AI在文本、图像、视频和声音生成方面的进展迅速。只需使用OpenAI的ChatGPT，便能深信不疑。相比之下，生物领域的生成性机器学习进展缓慢，尤其是与人类创造的数据(如文本和图像)处理速度相比。这主要是由于数据验证成本高昂。

与其他生成性机器学习领域不同，生物领域在获取和验证新数据方面面临重大挑战。这种差异主要体现在两个方面。

首先，自然语言处理(NLP)的原始材料是人类创造的文本，数量丰富。我们可以通过网络爬虫获取这些数据。而生物序列数据的收集不仅需要大量的工作来收集和处理物理DNA，还需进行测序。这个过程需要开发新的测序和收集技术，而每项技术都带来了不同的偏差和复杂性。

更重要的是，生物领域没有相当于教科书的高质量、指导性文本可用。最接近的可能是UniProt等数据集，这些数据集是经过精心策划和去重的蛋白质序列数据集，但只有一个。

其次，两个领域的验证过程差异显著。在NLP中，评估计算机生成的文本相对简单；人类可以迅速判断文本是否连贯和有意义。然而，在生物学中，验证DNA或蛋白质字母序列是否“合理”要复杂得多。即使是计算预测一个序列是否会正确折叠并执行所需功能，也需要大量计算，而这只是另一种预测。要真正测试生物序列的“意义”，必须在设计出编码该序列的DNA后，将其插入细胞，在合适的环境中培养，然后提取和测试该分子，使用生化检测，这一过程耗时、成本高且往往需要专门设备。(这可能是博客中最大的轻描淡写。)

本质上，虽然NLP允许几乎立即评估文本输出，因为人类机器非常擅长识别文本或图像的连贯性，但生物机器学习则需要数周的昂贵实验室工作来验证每个输出。

机器学习的进展依赖于数据集和评估，而不仅仅是算法。因此，生物数据的稀缺性和高验证成本使得生物学中的机器学习进展比NLP要慢，后者的数据生成和评估相对便宜。

因此，生物学中的机器学习进展将比NLP更慢。数据的可用性和成本，以及验证的复杂性，显著限制了生物领域的进展，而这些限制在其他生成性机器学习领域并不存在。

本文译自 Alex Carlin，由 BALI 编辑发布。

赞一个 (2)

煎蛋

人工智能

为什么生物学的生成AI进展缓慢

公告栏

广告

广告