去年11月,一个做大语言模型(LLM)人机交互(HCI)的朋友给我发邮件问我最近怎么样,并给我发了一篇论文,是一篇综述,介绍了一个新的研究方向:用LLM,比如ChatGPT,来评估视频的质量。
也许是我的偏见,但是我所看到的现在大部分LLM相关的论文,除了对LLM本身的研究外,就是类似于“把LLM应用在XXX问题上面”的“研究”,而其中大部分都仅仅是单纯地用LLM来尝试解决X问题,然后对LLM的表现做一些评估和讨论。当然不能否定其价值了,但是以我小人之心度君子之腹,我很难相信所有开展这些工作的人都在真诚地研究问题,他们的目的只是为了发表一篇论文。我很早就看到用LLM来评估视频的质量的论文,但是一直都不好奇他们是如何做这个研究的,我想大概就是给ChatGPT发视频,让ChatGPT打分,然后对ChatGPT的打分能力做一定评估,最后得出诸如“ChatGPT可以用来评估视频质量”、“只要对ChatGPT说XXX提示词,它就能更准确地打分”之类的结论。我和朋友说:“How could you believe the ratings from a black box who itself cannot be believed”?
他给我分享了一篇文章,是一位同样做人机交互的教授(Ian Arawjo)写的,大致内容就是吐槽目前人机交互研究中滥用LLM的乱象。
我觉得写得很好,所以贴出中文翻译在这里,给记性很差的我留一个存档。
大语言模型正在伤害人机交互领域的研究
作者:Ian Arawjo;原文链接:LLM Wrapper Papers are Hurting HCI Research。
自 LLM 时代以降,我们作为人机交互领域的审稿人,看到了一个令人不安的现象:从贬义上讲,有非常多“LLM 包装袋(LLM Wrappers)”论文,即以 LLM 为包装,去解决 X 问题的论文,其实质内容和真正要解决的问题没有关系,只是挂羊头卖狗肉。这些“LLM 包装袋”论文经常引用少量的 HCI 文献,或者只在浅层次上涉及它,这些论文也只对 X 问题进行浅显的接触,并且研究的成果往往只是编辑 LLM 的提示词。他们说服审稿人接收自己论文的理由始终千篇一律————“虽然有相关工作,但还没有人将 LLM 应用于 X 问题。”
举一个例子。最近,一名学生转发给我一个帖子,内容是公开招募学生到实验室里做自然语言处理相关的研究项目。其中列出的研究项目,有几十个可以归结为:“将 LLM 应用于 X 问题。”当然,也许其中一两个项目还行,但所有这几十个项目呢?一位教授的十几个项目都是关于将 LLM 应用于从心理健康到写作领域的不同问题?我很难相信撰写这些论文的人,会深入而真诚地参与到每一个问题或目标用户中:他们的目标仅仅是炮制一篇论文。
这些涌向人机交互学术会议的论文,给本已不堪重负的审稿过程带来了更大的压力。审稿人花了很多时间阅读用 LLM 包装的论文,但是他们的审稿意见往往可以归结为同一点:“很少谈及人机交互的相关文献,系统和用户研究肤浅,系统设计的决策值得怀疑。”我今年担任 UIST 会议的主席,并审稿了许多这样的论文,到最后我的经验是:我大约一半的审稿意见都与这些“LLM 包装袋”论文有关(这个问题变得如此严重,以至于我甚至创建了一个审稿意见的模板来对待这些文章)。我的这些时间和精力,本可以花在其他事情上。
我怀疑这些提交的论文,很大一部分来自于具有机器学习或自然语言处理背景的作者。他们提交到自己领域的会议里(比如NeurIPS 或 EMNLP)的论文被拒了,所以又重新投稿到我们人机交互领域的学术会议里来。这些机器学习或自然语言处理的会议,因为过多论文投稿,而一直饱受严重的审稿负担问题;现在,我们看到同样的问题也因此进入了人机交互会议。其中一些作者可能是具有这些背景的学生,赌博似地提交论文,希望自己的论文能够像中彩票般被接受。
然而,问题并没有随着紧张的审稿而结束。如果这些以 LLM 为包装的论文得到发表或作为预印本,他们就占用了大量不必要的空间:如果新的研究者对 X 问题有足够的专业知识,并且基于过去的研究和用户的实际需求,小心地将 LLM 应用于该问题,并提出实际、有效的设计决策————那么这些新的研究者可能会被审稿人要求将他们的研究与那些以 LLM 为包装的论文做比较,因为这些“LLM 包装袋”论文已经先到先得了,即使它们只是“背景噪声”。我已经可以预见一位没有经验的审稿人会问他们:“Y 篇论文已经将 LLM 应用于这个问题,那么你的工作有什么创新性呢?”这些以 LLM 为包装的论文,已经占据了领地,并用垃圾填充它,新来的研究者需要淌过这摊浑水,才能证明他们的研究是有效的、有创新性的。
说实话,我认为提交这些论文的作者应该承担大部分责任,但不是全部。部分责任还在于奖励这种行为的激励机制,这种激励机制使得这种行为得以蓬勃发展。我们也是五十步笑百步。
是什么让你摆脱了 LLM 包装监狱?
即使你同意我的观点,认为目前的情况确实存在问题,那么你可能也想知道,我们应该如何与这些垃圾论文划清界限。什么算作以 LLM 包装的论文,什么不算?又比如说,我们对“LLM 应用于 X 问题”这个研究主题,进行了一次很好的研究、评估,如果最后的成果仅仅是改变ChatGPT的系统提示词,但是否可以说我们的贡献是无关紧要的呢?
主观上说,我认为有几个决定性因素综合起来,将论文推到了以 LLM 包装的论文之外。对于人机交互的研究而言,这些是:
- 对相关文献的真实讨论(包括领域内和领域外,比如,有关心理健康的论文,需要涉及心理健康文献和之前人机交互在心理健康方面的工作);
- 关于为什么要应用 LLM(而不是“非 AI”方法)的充分理由;
- 在系统设计、架构迭代上所花费的努力;
- 除了隐含的“我们将 LLM 应用于这个问题,以前没有人这样做过”之外,对研究的贡献和创新性进行论证;
- 深入仔细的用户研究,而不仅仅是基本的可用性测试,比如叫几个用户来给系统打分,或者简单的消融研究。
以上只是可以让你摆脱“LLM 包装袋”论文的牢笼的一些要素。我们需要围绕这类论文建立相关标准,并且作为指南和警告传达给投稿的作者。例如,对于即将举行的 CHI 或 UIST 会议,我们可能会考虑以下警告:
- “如果您不讨论过去人机交互会议和期刊中的相关文献,您将被直接拒稿。”
- “如果您的主要贡献是改变 LLM 的系统提示词,然后对其进行研究,您可能会被直接拒稿。”
这些并不是完美的指导方针,但我们需要先说出问题所在,以便一起努力解决。否则,我们将继续被大量的以 LLM 为包装的论文所淹没,这些论文来自那些懒得去研究过去的人机交互文献、不诚实地研究问题、唯一目标就是发表论文、然后重复这个过程的作者。
这也太糟糕了。
- 本文作者: YA
- 本文链接: http://www.yuuuuang.com/2025/01/05/大语言模型正在伤害人机交互领域的研究/
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!