去年11月,一个做大语言模型(LLM)人机交互(HCI)的朋友给我发邮件问我最近怎么样,并给我发了一篇论文,是一篇综述,介绍了一个新的研究方向:用LLM,比如ChatGPT,来评估视频的质量。
也许是我的偏见,但是我所看到的现在大部分LLM相关的论文,除了对LLM本身的研究外,就是类似于“把LLM应用在XXX问题上面”的“研究”,而其中大部分都仅仅是单纯地用LLM来尝试解决X问题,然后对LLM的表现做一些评估和讨论。当然不能否定其价值了,但是以我小人之心度君子之腹,我很难相信所有开展这些工作的人都在真诚地研究问题,他们的目的只是为了发表一篇论文。我很早就看到用LLM来评估视频的质量的论文,但是一直都不好奇他们是如何做这个研究的,我想大概就是给ChatGPT发视频,让ChatGPT打分,然后对ChatGPT的打分能力做一定评估,最后得出诸如“ChatGPT可以用来评估视频质量”、“只要对ChatGPT说XXX提示词,它就能更准确地打分”之类的结论。我和朋友说:“How could you believe the ratings from a black box who itself cannot be believed”?
他给我分享了一篇文章,是一位同样做人机交互的教授(Ian Arawjo)写的,大致内容就是吐槽目前人机交互研究中滥用LLM的乱象。
我觉得写得很好,所以贴出中文翻译在这里,给记性很差的我留一个存档。
more >>