再说一下美国研究诚信办公室(US Office of Research Integrity, ORI)。ORI 有多种工具来协助工作人员进行图片查重,但每年他们也只报告了大约 10 例的学术不端行为;为了这少数的几例报告,不知道他们要查阅多少案例/文件以及对比多少图片。不过需要说明的是,ORI 并不会去主动审查学术不端(成本有点高),除非有匿名检举。
Daniel Acuna 等人发表在 bioRxiv 上的这篇预印文章或许为此提供了一线希望。
总的来说,作者首先分析了 PubMed Open Access Subset(PMOS)数据集(2015)中包含的 200 多万张图片,通过他们开发的自动查重管道能够自动检测出由相同的第一(最末)作者发布的多组论文的图片重用。之所以做出「相同的第一(最末)作者」的限定,是为了降低模型的时间复杂度。由于缺乏相应的测试数据集,作者就制定一个标准,然后让一群人类审阅者手工来检查这些检测到的图片是否真的有重用,以此来评价自动查重管道的有效性。