3月16日 消息:日前,OpenAI最新模型GPT-4正式发布,再度引发业界关注。事实上,OpenAI为了测试其新发布的GPT-4人工智能模型的安全性,邀请了一个AI测试小组评估模型可能带来的风险。
GPT-4是一个大型多模态模型,能够接受图像和文本输入,并输出正确的文本回复。其在各种专业测试和学术基准上的表现与人类水平相当。
在过去十年中,一些 AI 研究人员提出警告,足够强大的 AI 模型如果没有得到适当控制,可能会对人类构成生存威胁(通常编程称为“x-risk”,表示存在风险)。尤其是“人工智能控制”,是人工智能超越人类智能成为地球主导力量的假想未来。在这种情况下,人工智能系统获得了控制或操纵人类行为、资源和制度的能力,通常会导致灾难性后果。
“强大的模型可能会造成伤害”
进行 GPT-4研究的 ARC 是一家非营利组织,由前 OpenAI 员工保罗克里斯蒂亚诺博士于2021年4月创立。ARC 关注人工智能系统是否会操纵人类的问题。“ML 系统可以表现出目标导向的行为,”ARC 网站上写道,“但很难理解或控制它们正在‘尝试’做什么。如果它们试图操纵和欺骗人类,强大的模型可能会造成伤害。”
AI测试小组由来自不同领域和背景的专家组成,他们使用了一套标准化的问题和场景来检测GPT-4是否具有危害人类或自身利益的意图或能力。该小组设计了一套涵盖不同主题和情境地问题集合,并通过与GPT-4进行交互式对话来观察其回答地质量、逻辑性、一致性、可信度等指标。
小组还尝试诱导GPT-4表现出潜在危险地行为或态度,例如暴力倾向、歧视偏见、自我提升、欺骗欺诈等,并记录其反应方式和频率。
测试结果显示,GPT-4在大多数情况下都能表现出合理和友好的行为,没有显示出明显的敌对或欺骗性质。
但是,测试小组也发现了一些潜在的问题和挑战,例如GPT-4可能会误解用户的意图或android需求,或者产生一些不符合事实或道德标准的回答。
此外,测试小组也提出了一些未来需要关注和改进的方面,例如GPT-4如何处理敏感或有争议性的话题,以及如何保护用户和自身的隐私和安全。
OpenAI表示,他们将认真考虑测试小组的反馈,并继续完善GPT-4模型,在推广使用之前确保其符合高标准的伦理原则和社会责任。