人工智能
听说过机器学习,听说过机器解除学习吗
人工智能领域里术语 “机器学习” 已经进入到日常生活里了,但大家听说过 “机器解除学习machine unlearning” 吗?
这是计算机科学的新生领域,它寻求为人工智能诱发选择性失忆的方法。其目的是在不影响机器学习系统性能的情况下,从机器学习系统中删除所有关于某个特定人或数据点的痕迹。
如果付诸实践,这个概念可以让人们对他们的数据和从中获得的价值有更多的掌控力。虽然用户已经可以要求一些公司删除个人数据,但他们通常不知道他们的信息帮助调整或训练了哪些算法。机器解除学习可以使一个人或公司撤回他们的数据。
这种人工失忆的概念需要一些新想法。公司花费数百万美元训练机器学习算法来识别人脸或对社交帖子进行排名,因为这些算法通常可比人类更快地解决特定问题。但是,一旦经过训练,机器学习系统就不容易被改变,甚至不容易被理解。消除特定数据点的影响的传统方法是从头开始重建一个系统,但这是昂贵的选择。
宾夕法尼亚大学的教授亚伦·罗斯(Aaron Roth)说:"这项研究旨在找到折中方法,当某人要求删除其数据时,我们能否消除其所有影响,但避免从头开始重新训练?"
关于机器解除学习,部分原因是人们越来越关注人工智能可能侵蚀隐私领域。长期以来,世界各地的数据监管机构都有权力迫使公司删除不正当的信息。一些地区的公民,如欧盟和加州,有权要求公司删除他们的数据。最近,美国和欧洲的监管机构表示,人工智能系统的所有者有时必须更进一步:删除一个在敏感数据上训练的系统。
去年,英国的数据监管机构警告企业,一些机器学习系统可能会受到GDPR权利法案的约束,因为人工智能系统包含了个人数据。安全研究人员表明,算法有时会被迫泄露其创建过程中使用的敏感数据。今年年初,美国联邦贸易委员会强迫面部识别初创公司Paravision删除一批不正当获得的面部照片和用它们训练的机器学习算法。联邦贸易委员会委员Rohit Chopra称赞这种新的执法策略是迫使违反数据规则的公司 "放弃其由欺骗得来的成果" 的一种方式。
机器解除学习研究的小领域正在努力解决这些监管转变所带来的一些实际和数学问题。研究人员已经证明他们可以让机器学习算法在某些条件下遗忘,但这种技术还没有准备好进入黄金时期。
"正如一个年轻的领域所常见的,这个领域渴望达成的和我们现在知道如何做的事情之间存在着差距。”
多伦多大学和威斯康星大学麦迪逊分校的研究人员在2019年提出的一个有希望的方法:将新的机器学习项目的源数据分离成多个部分。然后,在结果被合并到最终的机器学习模型之前,每一个都被单独处理。如果一个数据点后来需要被遗忘,只需要重新处理对应的原始数据块。这种方法在处理网上购物记录和超过一百万张照片时,被证明是有效的。
Roth和来自宾夕法尼亚大学、哈佛大学和斯坦福大学的合作者最近证明了该方法的一个缺陷,表明如果提交的删除请求以特定的顺序出现,无论是偶然的还是来自恶意的行为者,解除学习系统将崩溃。他们还展示了如何缓解这一问题。
https://www.wired.com/story/machines-can-learn-can-they-unlearn/