研究人员发现,学生在会计考试中的表现优于OpenAI的聊天机器人产品ChatGPT。
尽管如此,他们表示,ChatGPT的表现“令人印象深刻”,它是一个“游戏规则改变者,将改变每个人的教学和学习方式——向更好的方向发展”。来自美国杨百翰大学(BYU)和其他186所大学的研究人员想知道OpenAI的技术在会计考试中的表现。他们的研究结果发表在《会计教育问题》杂志上。
在研究人员的会计考试中,学生的总体平均得分为76.7%,而ChatGPT的得分为47.4%。
虽然在11.3%的问题中,ChatGPT的得分高于学生的平均水平,在会计信息系统(AIS)和审计方面做得特别好,但在税务、财务和管理评估方面,人工智能机器人的表现更差。研究人员认为,这可能是因为ChatGPT在后者所需的数学过程中遇到了困难。
使用机器学习生成自然语言文本的人工智能机器人进一步被发现在真假问题(68.7%的正确率)和选择题(59.5%)上做得更好,但在简答题(28.7%至39.1%)上表现不佳。
总的来说,研究人员表示,ChatGPT更难回答高阶问题。事实上,有时ChatGPT被发现为错误的答案提供权威的书面描述,或者以不同的方式回答相同的问题。
他们还发现,ChatGPT经常为其答案提供解释,即使这些答案是错误的。其他时候,尽管提供了准确的描述,它还是选择了错误的多项选择答案。
研究人员重要地指出,ChatGPT有时会编造事实。例如,当提供一个引用时,它会生成一个完全虚构的真实引用。作品,有时甚至作者都不存在。
这个机器人还会犯一些荒谬的数学错误,比如在减法问题中把两个数字相加,或者除法错误。
杨百翰大学(BYU)会计学教授、该研究的主要作者大卫?伍德(David Wood)决定招募尽可能多的教授,以观察人工智能在与真正的大学会计学学生的竞争中表现如何,他希望能增加有关ChatGPT等模型应如何影响教育的激烈辩论。
他的合著者在社交媒体上的招募活动爆发了:来自14个国家186所教育机构的327名合著者参与了这项研究,提供了25181个课堂会计考试问题。
他们还招募了杨百翰大学的本科生,向ChatGPT提供另外2268个教科书题库问题。题目包括AIS、审计、财务会计、管理会计和税务,题目的难度和类型各不相同(真假、多项选择、简答)。