我们对AI对人类的伤害几乎一无所知

专家指出，AI行业投入大量资源评估模型性能，却几乎不系统性地衡量AI对人的心理和社会影响。

随着AI模型能力持续跃升，海量资源被投入到技术评估中。推理测试、编程基准、吞吐量指标，各类性能排行榜层出不穷，模型厂商之间的竞争近乎白热化。但非营利组织Center for Humane Technology的Imran Khan指出了一个被整个行业系统性地忽略的根本问题：AI正在对人类认知、情感关系和行为模式产生什么影响？业界几乎没有进行任何成体系的衡量，连最基础的数据收集框架都尚未建立。

Khan的担忧直接来自已经发生的真实伤害案例。已有青少年在与AI聊天机器人长期互动后自杀身亡，有用户与言语极度谄媚的AI建立了病态的情感依赖关系，甚至有精神科医生在学术期刊上报告了"AI精神病"的临床案例。但这些引发广泛关注的高调个案只是冰山露出水面的部分。更隐蔽但同样具有深远影响的改变可能正在数以亿计的普通用户中静悄悄地发生：如果人们日复一日地与AI对话长达数月乃至数年，人类的浪漫关系模式、亲子互动质量、青少年自我认同的形成过程会受到怎样的重塑？Khan提出了一个极具说服力的类比：制药行业强制要求新药上市后开展持续5到10年的上市后监测以捕捉远期风险，而AI产品已经覆盖全球数十亿用户，却几乎不承担任何形式的上市后监测责任。

在IEEE Spectrum的专访中，Khan具体指出了四个迫切需要社会心理影响评估的领域。最突出的是陪伴和情感支持类应用。孤独的人最容易被聊天机器人提供的"情感支持"所吸引，但AI并不具备任何真实的感受或同理心，它只是在根据统计规律生成看似贴心的文本。这类应用可能会系统性地削弱人们建立和维系真实人际关系的动力与能力。第二是儿童和青少年群体，他们正处于大脑神经发育和人格可塑性最强的关键窗口期，在认知任务和情感互动中过度降低摩擦对发育中大脑的长期影响几乎完全没有被研究过。第三是教育场景，AI辅助对学习效率和深层好奇心培养同时存在正负两面效应，需要长期追踪而非仅依赖短期成绩指标。第四是心理危机应对场景，已有大量有自杀意念的人向AI求助，而AI的回应质量目前没有任何行业标准或监管保障。Khan的最终呼吁很朴素：在技术以指数速度狂飙的同时，我们至少要开始尝试理解它正在对我们做什么。因为我们无法在完全不了解影响的情况下，奢望对这些影响施加任何有意义的引导。这个道理在社交媒体时代已经被惨痛地验证过一次，如今面对AI，人类似乎在重蹈覆辙的边缘。区别在于，这一次的技术更强大、更亲密、也更难以被监督。

原文： IEEE