大理科技成果转化服务平台

别再抄袭论文图片了，机器学习算法能自动检测出来

2018-02-27 17:26:00 1246阅读发布地区：

近期来自纽约雪城大学的 Daniel Acuna 等人在 bioRxiv 上发表了一篇文章，作者在文章提出了一种机器学习算法，该算法能够自动进行论文图片查重，其目的旨在解决文献查重中的一个死角——图片查重。

别再抄袭论文图片了，机器学习算法能自动检测出来

目前许多期刊都会对一些图片进行查重，但只有极少数的期刊有自动化的查重流程。例如《Nature》期刊对收到的稿件一般会进行随机抽样检测，《Journal of Cell Biology》以及《The EMBO Journal》等期刊则对稿件中的大部分图片进行手工查重。显然手工查重费时费力，这也是为什么到目前为止大部分期刊都没有图片查重这一项。

然而这并不意味着图片查重不重要；如果能够及时发现不当的图片抄袭（重用），那么可能会制止许多学术不端行为。

以 2014 年轰动学术圈的小保方晴子（Haruko Obokata）学术造假丑闻为例，当时小保方团队同一天在《Nature》上发表了两篇文章，文章称他们从新生小鼠身上分离的细胞通过 STAP 方法能够获得胚胎干细胞。

别再抄袭论文图片了，机器学习算法能自动检测出来

据后来人们的调查发现，在文章中竟赫然有两张图片使用了她在博士学位论文中的图片，而这些图片当时是用于表示细胞原本就处于胚胎状态的，而非 STAP 之后变为胚胎状态。在这个事件中，如果《Nature》期刊能够在发表之前检测出文章中的图片重用，那么这个让整个学术圈震惊的造假丑闻也许就能扼杀于摇篮之中了。

然而事实是，没有。

再说一下美国研究诚信办公室（US Office of Research Integrity, ORI）。ORI 有多种工具来协助工作人员进行图片查重，但每年他们也只报告了大约 10 例的学术不端行为；为了这少数的几例报告，不知道他们要查阅多少案例/文件以及对比多少图片。不过需要说明的是，ORI 并不会去主动审查学术不端（成本有点高），除非有匿名检举。

显然，他们期待自动图片查重程序的出现。

Daniel Acuna 等人发表在 bioRxiv 上的这篇预印文章或许为此提供了一线希望。

总的来说，作者首先分析了 PubMed Open Access Subset（PMOS）数据集（2015）中包含的 200 多万张图片，通过他们开发的自动查重管道能够自动检测出由相同的第一（最末）作者发布的多组论文的图片重用。之所以做出「相同的第一（最末）作者」的限定，是为了降低模型的时间复杂度。由于缺乏相应的测试数据集，作者就制定一个标准，然后让一群人类审阅者手工来检查这些检测到的图片是否真的有重用，以此来评价自动查重管道的有效性。

下面我们来看这篇论文的详细内容。

数据

作者分析了 PMOS（2015）上来自 4324 个期刊的 760036 篇论文，其中有 2,628,959 张图片。当然并不是所有的图片都会被用到，例如有些是和公式相关；将这些图片从中清除掉。平均来说大约每篇论文包含 4.78 张图片。

方法

文章中使用的方法包括：复制-移动检测算法（Copy-move detection algorithm）、生物医学补丁检测（Biomedical patches detector）、人工评估算法的有效性。

别再抄袭论文图片了，机器学习算法能自动检测出来

复制-移动检测算法

作者在这里使用了和 V. Christlein et al.(2012) 相同的算法：基于关键点的检测方法。这有以下几个流程：

别再抄袭论文图片了，机器学习算法能自动检测出来

（Fig A）使用低阈值 SIFT 关键点检测算法计算关键点。
（Fig B）找到欧氏空间中图片上的所有关键点中两两邻近的点，这些关键点对的间距要小于等于第二近邻距离的 60%。将其他没有匹配或匹配程度小于 40 个像素的关键点移除。
（Fig C）对关键点进行平面聚类，移除聚类面积小于 40x40 平方像素的集群。如果再一个集群中，有超过三个关键点与同一个集群相匹配，那么就将这两个集群定义为匹配集群。
（Fig D）使用 RanSac 算法找到匹配的簇之间的仿射变换。

如我们前面所说，考虑到在数百万张图片上进行最近邻搜索的时间复杂度，作者在这里只分析了第一（最末）作者的数据。雷锋网认为，如果想要将这种算法应用到实际应用中，可能还需要考虑如何降低该算法的时间复杂度。

生物医学补丁检测

在科学文章中，许多图片都有着极为相似的区域，例如许多图片会使用相似的文本和形状来描述图形的某些区域（轴标签、箭头等），因此前面的算法发现的许多匹配可能就是这些内容。于是作者开发了另外一个额外的步骤。

作者首先从上一步「复制-移动检测」结果中抽取 20k 的样本，让随机森林来预测一个匹配是生物医学匹配的概率，然后根据预测的熵对这些匹配进行排序，选择出熵值较高的匹配，然后让一些论文作者来标记（哪些是生物医学匹配）。人工标记后，将这些数据添加到训练数据集中，然后重复这个过程。通过这种方式来清除掉非生物医学的匹配。

这种方法明显有一个很大的不足之处，即需要专业知识才能进行人工标注。这大大限制了本文方法的广泛应用。这个作者在文章中也有提到。

人工评估算法的有效性

论文图片查重研究的一个很大问题是，没有测试集。于是 Daniel Acuna 他们三人就担任了这个人类评估器。他们制作了一个基于网络的工具，这个工具包含了上述匹配结果中的 10000 个可能有问题的案例，并且提供了与 PUBMED 的链接，能够看到相应图片的标题、说明以及文章本身。三个人独立审查了所有这些案例，并按照 No problem、suspicious、potential fraud、fraud 来给这些匹配结果进行评估。

结果

经过以上三个步骤以及相关细节的约束，作者得出如下图所示的结果。

别再抄袭论文图片了，机器学习算法能自动检测出来

其中左侧 A 图为生物医学图被重用的比例。可以看出，在所有这些论文中有大约 1.5%（0.6%+0.9%）的论文是需要考察其论文是否存在欺骗，其中有 0.6% 的论文存在明显的图片重用。

另一方面，从右侧的 B 图，我们可以看出一个有意思的现象：跨论文的图片重用匹配更有可能属于学术不端行为（43.1%）。

讨论

这篇论文的意义一方面指出了 PubMed 开放获取的论文中，有相当多的论文（0.59%）被三位科学家一致认为存在欺诈行为，另一方面它提出了一种大规模分析文献图片重用（抄袭、欺诈）的方法，为各类期刊及研究诚信机构提供了可行的、节省成本的方法。

当然（我们也在上文中部分指出了）这项工作还存在着许多有待改进的地方：

在标记非生物医学补丁时，需要有专业背景知识的专家的参与，这大大限制了这种方法扩展到其他领域。如何改进算法或框架，从而不再需要专家知识，是接下来研究的重点之一。
Daniel Acuna 等人的这项工作为了降低时间复杂度，一方面只选择了少量的生物医学的出版物（4324 个期刊的 760036 篇论文），另一方面只考虑了第一（末位）作者自身论文中的图片重用现象。能否将这种方法应用到亿级规模的出版文献库中，还有待观察。不管怎么来说，降低模型的复杂度，是将这种方法推广到工业级的必由之路。
还有一点，也是这种方法的一个痛点，即没有测试集。如何构建训练-测试集，可能是促进相关研究的一项重要工作。从利益相关的角度来说，可能期刊和研究诚信机构更应该在这些方面做出努力和尝试。

但是不管怎么说，这篇文章所构建的这种方法可能将是实现针对学术文献中图片查重漫长而艰辛的征程中的第一步。

科研人员为什么会在学术文献中造假不得而知，但是无论动机如何，随着机器学习以及人工智能的发展，可能做这种行为之前就需要慎重考虑了。

据《Nature》新闻介绍，Daniel Acuna 他们还没有公开他们的算法，但已经和芝加哥西北大学研究诚信办公室主任、美国研究诚信官员联合会副主席 Lauran Qualkenbush 进行了讨论。后者表示：「这对研究诚信办公室非常有用，我非常希望今年我的办公室可以成为 Daniel 这项工具的试点单位。」

其他文章