立即注册
 找回密码
 立即注册

00852香港网

搜索
热搜: 活动 交友 discuz
发表于: 2021-5-29 22:09:34 | 只看该作者 |倒序浏览



作者:陈彩娴

同行评审还有救吗?昨天,一位担任过国际顶会大会主席的知名学者告诉 AI 科技评论,这种现象确实存在,很多同行都早已察觉," 这些年轻人对科研没有敬畏心,再不整治他们,会把整个行业搞垮。"
近日,Nature 又发表了一篇文章,介绍了法国计算机科学家 Guillaume Cabanac 与 Cyril Labbé 最新一项研究:他们开发了一个叫做 "SciDetect" 的软件,专门搜查已发表的计算机程序自动生成论文,准确率高达 83.6%!


根据 Guillaume Cabanac 与 Cyril Labbé 的研究调查,在计算机科学领域,计算机伪造论文的占比大约是:一百万篇文章中,有 75 篇论文是由计算机程序 SCIgen 自动生成的。
更值得注意的是,在最新发表的 SCIgen 生成论文中,有 64% 是由中国研究人员 " 撰写 ",22% 由印度研究人员 " 撰写 "。
在目前确定有问题的 243 篇论文中,只有 19%被撤回:12 篇文章被正式撤回,34 篇文章被悄悄撤稿。包括 IEEE 在内的一些出版商仍然继续出售 197 篇疑似 SCIgen 生成的文章,甚至没有给出任何警告。
科学是一个循序渐进的过程,新的发现与进步往往是建立在已有科学文献的基础上。也就是说,未来科学成果的质量与可信度取决于以往发表研究的正确性。虚假文章的泛滥,正在影响人们对科学的信任!
研究背景
这个问题始于 2005 年。那一年,就读于麻省理工学院的三名计算机博士生 Jeremy Stribling、Daniel Aguayo 与 Maxwell Krohn 出于娱乐目的,创建了一个叫做 "SCIgen" 的论文生成软件,还合写了一篇名为 "Rooter: a methodology for the typical unification of access points and redundancy" 的学术论文,投到学术会议 WMSCI 上,居然还被接收了!


论文链接:
http://pdos.csail.mit.edu/archive/scigen/rooter.pdf
事实上,这个计算机程序只是将单词进行简单的拼凑,随机生成标题、正文与图表,文章的实验结果也是错误的,人类读者很容易就能发现这些文章的内容是胡说八道。
由计算机程序写的水文居然被举办已超过 10 年的会议接收,暴露了一些学术会议不经同行评审、随意接收毫无学术价值的文章的现象。这个事件在当时引发了全网的曝光与讨论。
七年过后,也就是 2012 年,法国计算机科学家 Cyril Labbé 又在 IEEE 所举办的会议上发现了 85 篇由 SCIgen 生成的论文,之后又在 IEEE 与 Springer 上找到了 120 多篇由 SCIgen 伪造的论文。这些论文有些被撤回,有些被删除。
为了纠正学术界的歪风邪气,Labbé 创立了一个网站,人们可以上传论文、来检查该论文是否疑似为 SCIgen 发明的文章。他还出资赞助了一个博士生项目,开发出一款能够帮助查找疑似 SCIgen 生成论文的软件,叫做 SciDetect。


网站地址:
http://scigendetection.imag.fr/main.php
一开始,Labbé 是通过在论文草稿中搜索 SCIgen 词汇表中的典型单词来判断。后来,他与来自法国图卢兹大学的计算机科学家 Guillaume Cabanac 想到了一个新的方法:查找 SCIgen 输出中的典型短语。
总的来说,Cabanac 与 Labbé 搜索这些计算机程序生成的文章时主要用到了四个方法:1)基于关键词汇;2)基于语法结构的相似性;3)借鉴 Springer 在 2018 年设计的典型短语检测方法;4)基于论文参考文献。
从去年五月开始,他和 Cabanac 在 Dimensions 数据库包含的数百万篇论文中搜索了此类短语。定位到此类短语后,他们又进行手动检查,结果发现了 243 条部分或全部由 SCIgen 创建的废话,并于 5 月 25 日在 ASIS&T 上发表了他们的调查结果。


论文链接:
http://asistdl.onlinelibrary.wiley.com/doi/10.1002/asi.24495
这些 SCIgen 文章发表于 2008 年至 2020 年,出现在不同期刊、会议与预印本网站上,且大部分都属于计算机科学领域。有些论文开放阅读,有些则需要权限。


目前,有 46 篇文章已经从它们首次发表的网站上被撤下或删除。
之后,他们又发现了 20 篇这类论文,包括由 MATHgen(一款生成数学研究论文的软件)与 SBIR(一款生成研究提案的软件)创建的垃圾文章。
调查结果
根据 Labbé 等人对论文作者背景的调查,大部分最新发表的 SCIgen 生成论文都是由中国(64%)与印度(22%)的研究人员撰写。
当然,其中也可能有些论文是由别人杜撰、以他们的名义提交,但难以查究。几篇论文的一作告诉 Labbé 和 Cabanac,他提交 SCIgen 生成的论文,是为了 " 设局 "。
但是,有些论文似乎经过了认真的参考文献书单编辑,这表明:有些 SCIgen 生成的文章可能是为了夸大某位研究者的论文引用次数,从而提高他们的简历含金量。
研究人员发现,目前只有两篇被曝光的 SCIgen 论文没有被 IEEE 撤回(正在审核),以及一篇包含由 MATHgen 生成内容的论文没有被 Springer 论文撤回。
有些出版商面临的情况很糟糕。英国物理学会电子期刊数据库旗下的子公司 IOP Publishing 谈到,在没有明确证据的情况下,他们撤回了 10 篇论文,并正在调查为什么同行评审没有发现这些论文。IOP 的经理 Kim Eggleton 说:" 我们有合理的证据怀疑,这些论文的同行评审没有达到合格标准。"


出版最多 SCIgen 文章的是瑞士出版商 Trans Tech Publications,他们出版了 57 篇 SCIgen 论文。此外,印度的 Blue Eyes Intelligence Engineering and Sciences Publication(BEIESP)出版了 54 篇;法国出版商 Atlantis Press(今年 3 月被 Springer Nature 收购)出版了 39 篇。
Trans Tech Publications 和 Atlantis 的工作人员都对《Nature》表示,他们正在调查中,并正在撤回这些文章,而 BEIESP 的发言人表示,他们只出版经过同行评审与剽窃检查的原创文章。
另外,研究发现,SSRN 上发表了 16 篇 SCIgen 文章。SSRN 是一款预印服务器,文章在分享之前没有经过同行评审。SSRN 的发言人表示,他们正在调查这个问题,并强调,SSRN 对一般的预印论文进行了 " 有限筛选 "(对医疗论文则进行了 " 高级筛选 ")。
Cabanac 担心某些出版商会以不透明的方式处理此类论文。例如,IEEE 已从其网站上删除了一些 SCIgen 论文,但没有下达正式的撤回通知。Cabanac 还指出,研究论文有时候会从 SSRN 中消失,而这些变动不会记录下来。
IEEE 发言人表示,他们删除论文或下达撤回通知,是 " 取决于我们的评估结果 "。SSRN 没有回复有关其撤回或删除论文政策的问题。
SCIgen 生成的论文数量其实相对较少:根据数据显示,Labbé 和 Cabanac 估计,在计算机科学领域,100 万篇论文中才有 75 篇 SCIgen 论文。与 " 论文工厂 " 造成的学术不端问题相比,SCIgen 造成的乱象还不算严重。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
跳转到指定楼层
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题:52820 | 回复:53116





00852香港网X

0511.net镇江网 分享生活 温暖你我

0511.net镇江网|镇江大小事,尽在镇江网! 镇江网由镇江亿速网络科技有限公司组建。镇江网汇集了镇江本地新闻信息,视频专题、国内外新闻、民生资讯、社会新闻、镇江论坛等。镇江网是镇江地区最具影响力的综合性门户网站,是镇江人浏览本地新闻的首选网站。...

点击查看详情 

快速回复 返回顶部 返回列表
友情链接