文献学术不端检测系统原理_学术不端文献检测系统_查重资讯

当前位置: 首页 >> 查重资讯 >> 学术不端文献检测系统 >> 文献学术不端检测系统原理

文献学术不端检测系统原理

发布时间：2017-09-30 点击率：0

（一）计算机对文献学术不端现象的识别

对学术不端现象进行了大量研究的蒋寅先生认为目前学界的文献学术不端现象主要包括：无视学术规范的剽窃、抄袭现象；毫无新创的低水平重复；一稿多投，著作内容重复出版等变相学术欺诈行为。[1]以上各种学术不端现象可以溯源到作者的写作行为：简单抄袭和复杂抄袭；将2种抄袭行为转换为电脑的识别技术为：文本复制识别和意义改写识别。基于对文献学术不端检测系统识别技术原理探析，可以对文献学术不端检测报告结果进行科学解读。

（二）文献学术不端检测系统识别技术

随着范围内的版权保护呼声的高涨，计算机的抄袭识别研究始于20世纪80年代后期。国外的文献识别技术研究者针对某些科研人员运用电脑的“复制粘贴”类抄袭，开发出的识别技术有：数字指纹(fingerprinting)和词频统计(word-frequency)两类。知网查重特定的指纹序列就代表了论文的内容特征，通过比较这些指纹来计算论文间的相似程度。词频统计技术特点是准确率高，但用词频统计方法在速度上没有优势，目前的识别效果也不尽如人意，存在的主要问题有区分度不高，错查、漏查现象严重。

[2]我国研究者根据汉语言文字的特点，专门开发出自适应多阶指纹(AMLFP)特征检测算法、ROSTSEAT算法数字指纹等检测方法。[3]目前计算机能够识别的是文本复制类型的简单抄袭，因为这些方法本质上都是基于对词或标记“统计”和“对比”的方法，而非真正理解了篇章的意义。评价学术不端检测系统的另一个重要因素是后台核心数据库平台的收录情况，好的收录源要能够全面收录中外文书籍、中外学术期刊、中外文网络文献等品类，以便于实现比对的性。

（三）已发论文学术不端检测系统原理

研究者对以“统计”和“文字比对”为基本原理的未发论文检测原理探讨的比较多，为了测试已发论文与未发论文检测系统的差别，笔者曾拿一篇已发论文在未发论文检测系统进行了测试，结果显示论文全篇皆红，系统显示这篇文章和已经发表的文章疑似度为，以此推断未发论文检测系统是不能检测已发论文的，主要原因是系统缺少了一个关于时间判定的功能。在已发论文检测库里进行论文的检测，必须满足3个条件：

，系统要能识别出已经存在的被测文章，并自动过滤；

第二，系统要能够正确识别被测文章发表后，与该文章一致的疑似抄袭部分，并自动过滤。这2种情况分别代表作者自己发的文章和别人抄袭该作者的文章，都不应计入该作者的疑似抄袭率中。

第三，位于该文章发表前的被系统显示疑似抄袭部分，才应视作有抄袭的可能。因此系统需要增加时间判定功能和自动过滤功能，自动删除该文章发表时（含发表时间在同一天）及以后的疑似部分及疑似论文。这种功能既保证了检测出该文章发表之前是否存在抄袭，又保证了不会把文章发表后，别人抄袭该篇文章的内容计入该篇文章的疑似率中，确保了系统检测的公正性。已发论文检测有自己的特殊性，一些检测环节中的主客观因素对检测结果均有影响。

.—— END ——.