fbpx
维基百科

文章相似度檢測

文章相似度檢測內容相似度檢測(content similarity detection)或抄袭检测(plagiarism detection)是在一份文件中找到抄袭侵權詞句所在位置的方法。隨著電腦的普遍使用,網際網路的發明,抄袭其他作品的難度越來越低[1][2]

抄袭检测可以用許多方式來進行。人工檢測是傳統檢測是否有抄袭的方法,相當的耗時間[2],而且可能因為組織內對於抄袭定義的不同,會有不一致的情形[3]。目前已有許多文字匹配軟體(text-matching software、TMS),也稱為反剽竊軟體(anti-plagiarism software)或剽竊檢測軟體(plagiarism detection software),這些軟體可能是商業軟體,也可能是開源軟體。文字比對軟體不會一句一句的檢查是否有抄袭,不過軟體會從一份文件中找到和其他文件相符的特定片段,若相符的特定片段越多,抄袭的可能性也就越高。

軟體輔助的文件抄袭检测

電腦輔助的抄袭检测(computer-assisted plagiarism detection、簡稱CaPD)是由特製的信息檢索系統所進行的信息檢索工作,此系統稱為抄袭检测系統(plagiarism detection system、PDS)或文件相似度檢測系統。2019年的一篇系統綜述 [4]簡單說明了目前正在使用的抄袭检测系統。

文件相似度檢測系統有兩種通用的檢測方式,一種是外在的,一種則和文件的固有特性有關[5]。 外在檢測系統會將待測的文件和一些參考用的文件進行比較,這些參考用的文件是假定原創,沒有抄袭的文件 [6]。 依照給定的文件模型,以及事先定義的相似度準則,檢測工作就是檢索出參考用的文件中,內容和待測文件相似度超過一定比例的比文件[7]。 固有特性的抄袭检测系統會直接用待測的文件進行分析。分析的目的是找出作者獨特的寫作方式變化,作為抄袭可能性的指標[8]。 抄袭检测系統一定要配合人類的判斷,才能可靠的識別文件抄袭。相似度是依事先定義的文件模型來計算,因此可能出現偽陽性[9][10][11][12][13]

檢測方式

下圖繪出目前各種以電腦軟體來輔助檢測文章內容相似性的方式,並依檢測的範圍為全域或局部加以分類。全域(global)相似性評估方式會擷取文章中大部分的特徵文本甚至整篇文章和其他文章進行比對,以計算二者間的相似度;而局部(local)相似性評估方式則僅是事先選擇小部分文本段落,並輸入電腦軟體進行比對。

 
電腦軟體輔助檢測抄襲方式的分類
文章指紋識別

文章指紋識別(fingerprinting)是目前檢測內容相似性的方式中所最為廣泛運用者。此方式是藉由從文章中擇定一組由多個字母所組成的「符串」(n-gram),並定義為該篇文章中具有代表性的摘要。這些符串即如同指紋一般,而構成指紋的元素即稱為「細節」(minutaie)[14] [15]。 文章指紋識別會先針對待確認的文件計算其指紋,並且在所有的參考文件中,查詢是否有出現指紋中一定比例的細節。和其他文件的細節符合表示二份文件中有共同的文字區塊,若相似度超過一定比例,有可能是抄袭的[16]。指紋識別的限制因素是運算資源以及時間,因此此方法多半只會選擇一部份的細節進行比較,一方面加速計算,也可以在大量的文本(例如網際網路)中搜尋[14]

字串匹配

字串匹配是電腦科學中常用的方法。若應用在内容抄袭检测時,會針對文件進行逐字逐字的重疊比較。針對這項任務,已提出了許多不同的方法,其中也有一些已用在外部的抄袭检测上。以此方法檢查待測文件,要有足夠的計算資源以及容量,才能高效的針對所有的參考文件,進行兩兩文件的比較。有些文件模型(例如后缀树或后缀向量)已用在此任務上。無疑的,子字串匹配的運算量相當的大,因此在比較大量參考文件時,不能使用字串匹配進行檢查[17][18][19]

词袋分析

词袋分析(Bag of words analysis)是由傳統信息檢索概念中的向量空間模型,轉換到內容相似度檢測旳技術。文件可以用一個或是多個向量(可能是分別表示文件的不同部份)表示,這些向量會用來進行成對的相似度計算。相似度計算可以用傳統的余弦相似性計算,或是用更複雜的相似性計算方式[20][21][22]

引用文獻分析

引用文獻為基礎的抄袭检测(CbPD)[23]是依引文分析為基礎,是唯一不靠文本相似度(textual similarity)的抄袭检测演算法[24]。CbPD會檢查引用文獻以及文件中用文獻佐證的部份,識別是否有類似的模式。因此,此方式適用於科學論文或是其他一定會引用文獻的學術論文。引用文獻為基礎的抄袭检测是相對而言較晚發展的概念。目前還沒有商用軟體使用此一作法,不過已有使用此一技術的原形系統[25]。待檢查文件中的類似程度以及接近(proximity)文獻的程度是此一技術的判斷準則。

计量文献学

计量文献学英语Stylometry是用統計的方式識別作者獨特寫作風格的方式[26][27],主要用在作者歸屬確認,或是考慮文件固有特性的電腦輔助抄襲檢測(CaPD)。可以針對不同的文字建構其文體模型,並且進行比較,來自不同來源的文字,其文體模型也會不同,因此可以依此偵測到抄袭或是侵權的情形[8]

性能比較

内容抄袭检测的比較性評估[6][28][29][30][31][32]指出,检测系統的性能會因抄袭的方式不同而不同。除了引用文獻分析外,其他的檢測都是以文本相似度為基礎。因此若混合許多文獻抄袭,檢測系統的準確度就會下降。

 
内容抄袭检测的性能會依抄袭的方式不同而不同

若是「複製貼上」(copy and paste)型式的抄袭,公然侵犯版權的抄袭、或是適度掩飾的抄袭,若軟體可以找到來源的文字,目前的内容抄袭系統的精確度很高。特別是子字串比對程序針對「複製貼上」型式的抄袭,其效果非常的好,因為其中會使用無損的文件模型,例如后缀树。利用文章指紋或是詞袋分析的性能會因為文件模型中,資訊的減少程度而受到影響。若文章指紋或是詞袋分析再配合靈活的分塊及選擇策略,檢測變相抄襲的性能會比相較於子字串比對程序要好。

利用Stylometry的固有特性抄袭检测可以用比較語言相似性,克服一些文本相似度的問題。假設原始文件及待確認文件的風格都很明確,而且是用可靠的方式識別,Stylometry可以識別變相抄襲及文字改寫(Paraphrasing)式的抄袭。但若文字重組的非常嚴重,反而產生了不同於來源資料的風格,或是抄袭自數個不同的來源,Stylometry分析可能會失效。2009年至2011年國際抄袭检测比賽的結果[6][31][32],以及Stein的實驗[33]都指出,Stylometry分析若要正常運作,只能針對數千到上萬字之間的文件,這限制了電腦輔助的抄襲檢測的應用性。

越來越多的研究是針對可偵測翻譯抄袭的方式或是系統。目前跨語言的抄袭检测(cross-language plagiarism detection、CLPD)還不是成熟的技術[34],各系統在評估時還無法有令人滿意的結果[30]

和其他方式比較,引用文獻分析的抄袭检测在識別改寫情形較嚴重的抄袭,或是識別翻譯抄袭上的成功率較高,因為和文本相似度沒有關係[24][35]。不過因為引用文獻分析要有足夠的文獻資訊,因此只限制在學術文件。引用文獻分析在檢測較短的抄袭文字(例如「複製貼上」的抄袭或是「複製重組貼上」的抄袭)時,效果不如以文字為基礎的抄袭检测。「複製重組貼上」(shake-and-paste)的抄袭是指用不同的來源,略為混合後再抄袭的作法[36]

使用文字匹配軟體的副作用

若利用文字匹配軟體來進行内容抄袭检测,目前已出現一些副作用。目前最受闗注的問題是被參考文件的智慧財產權問題。文件要可以被文字匹配系統檢查到,就需要加到文字匹配系統的資料庫中,才能有效的匹配,但是將其他人創作,有智慧財產權的文件加入資料庫,有侵權的問題。目前已經有一些相關的訴訟案。

另一個副作用是因為文字匹配軟體只會計算文字精準匹配的結果。若在抄袭後將夠多的單字改為同義字,減少和原文完全相同的文字,有可能可以騙過檢測軟體,此方法稱為rogeting英语rogeting

程式碼抄袭检测

程式碼的抄袭也很常見,程式碼抄袭的检测工具和文件抄袭的檢測工具不同。在程式碼抄袭檢測上,已有許多的學術研究[37]

程式碼抄袭常常出現在程式相關的作業上。大部份的作業都會給學生很明確的需求,要學生寫出符合該需求的程式。不一定可以在網路上找到已有,符合該需求的程式。網路上可找到的程式可能只能符合部份需求,若要滿足作業需求,還需要改寫程式或整合程式,這多半會比學生自己學程式作業要難。大部份的學生若要抄袭程式碼作業,多半會抄袭同學寫的作業。

根據Roy和Cordy的研究[38],程式碼抄袭检测演算法可以分為以下幾種

  • 字串:找文本中完全相同的文字片段,例如連續五個字相同。此演算法速度很快,但若修改變數名稱,即無法識別。
  • 符記(Tokens):也和字串演算法相同,但是由詞法分析將程式先轉換為符記(Token),忽略空白、註解、識別符名稱,因此若只是單純修改變數名稱,此方式仍可以法識別。大部份學術的程式碼抄袭系統會使用此演算法,用不同的演算法來評估二個符記序列的相似度。
  • 分析树(Parse Trees):先建立分析树然後再比較,這可以偵測更高層次的類似性。例如,分析树比較可以正規化條件敘述,再偵測兩者是否有類似的等效結構。
  • 程式相依圖(PDG):程式相依圖可以表示程式中各函式之間彼此呼叫的關係,可以找到更高層次的相似,不過複雜度及運算時間都多很多。
  • 軟體度量:會依照一些準則(例如迴圈及條件判斷的個數,或是變數使用的數量)去算程式碼的分數。軟體度量很容易計算,也很容易比較,不過偽陽性的比例很高。二段不同的程式可能剛好有相同的軟體度量值。
  • 混合法:例如分析树加上后缀树,可以結合分析树的能力以及后缀树(一種用於字串比對的資料結構)的計算效率。

上述的分類一開始是為了代码重构所開發的,不是為了程式碼抄袭。代码重构的一個重要目的是避免程式中重複的程式碼,在文獻中稱為代码重复。上述的作法可以偵測到不同層次的相似性:低層次的相似性是指完全相同的文字,高層次的相似性可能是因為類似的規格所產生。在學術的使用上,因為學生是依相同的規格寫程式作業,其作業的程式在機能上等效(即高層次的相似性)是合理的,因此若用在在程式作業的抄袭檢測上,一般只會考慮低層次的相似性。

相關條目

  • 反剽竊軟體比較英语Comparison of anti-plagiarism software
  • 局部敏感哈希英语Locality sensitive hashing
  • 最邻近搜索
  • 改寫檢測英语Paraphrase detection
  • 柯氏复杂性:用來評估多個系統中,符記序列(token sequences)的類似程度

參考資料

  1. ^ Culwin, F., & Lancaster, T. (2001). "Plagiarism, prevention, deterrence and detection". Higher Education Academy.. [2020-07-27]. (原始内容于2021-04-18). 
  2. ^ 2.0 2.1 Bretag, T., & Mahmud, S. (2009). A model for determining student plagiarism: Electronic detection and academic judgement. Journal of University Teaching & Learning Practice, 6(1). Retrieved from http://ro.uow.edu.au/jutlp/vol6/iss1/6
  3. ^ Macdonald, R., & Carroll, J. (2006). Plagiarism—a complex issue requiring a holistic institutional approach. Assessment & Evaluation in Higher Education, 31(2), 233–245. doi:10.1080/02602930500262536
  4. ^ Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela. Academic Plagiarism Detection: A Systematic Literature Review. ACM Computing Surveys. 2019-10-16, 52 (6): 1–42. doi:10.1145/3345317 (英语). 
  5. ^ Stein, Benno; Koppel, Moshe; Stamatatos, Efstathios, (PDF), SIGIR Forum, 2007-12, 41 (2): 68 [2011-10-07], doi:10.1145/1328964.1328976, (原始内容 (PDF)存档于2012-04-02) 
  6. ^ 6.0 6.1 6.2 Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo, Overview of the 1st International Competition on Plagiarism Detection, (PDF), CEUR Workshop Proceedings 502: 1–9, 2009 [2020-07-27], ISSN 1613-0073, (原始内容 (PDF)存档于2012-04-02) 
  7. ^ Stein, Benno; Meyer zu Eissen, Sven; Potthast, Martin, Strategies for Retrieving Plagiarized Documents, (PDF), ACM: 825–826, 2007 [2011-10-07], ISBN 978-1-59593-597-7, doi:10.1145/1277741.1277928, (原始内容 (PDF)存档于2012-04-02) 
  8. ^ 8.0 8.1 Meyer zu Eissen, Sven; Stein, Benno, Intrinsic Plagiarism Detection, (PDF), Lecture Notes in Computer Science 3936, Springer: 565–569, 2006 [2011-10-07], ISBN 978-3-540-33347-0, doi:10.1007/11735106_66, (原始内容 (PDF)存档于2012-04-02) 
  9. ^ Bao, Jun-Peng; Malcolm, James A., Text similarity in academic conference papers, (PDF), Northumbria University Press, 2006 [2011-10-07], (原始内容 (PDF)存档于2018-09-16) 
  10. ^ Clough, Paul, Plagiarism in natural and programming languages an overview of current tools and technologies (PDF) (Technical Report), Department of Computer Science, University of Sheffield, 2000 [2020-07-27], (原始内容 (PDF)于2011-08-18) 
  11. ^ Culwin, Fintan; Lancaster, Thomas, (PDF), Vine, 2001, 31 (2): 36–41 [2020-07-27], doi:10.1108/03055720010804005, (原始内容 (PDF)存档于2012-04-05) 
  12. ^ Lancaster, Thomas, Effective and Efficient Plagiarism Detection (PhD Thesis), School of Computing, Information Systems and Mathematics South Bank University, 2003 
  13. ^ Maurer, Hermann; Zaka, Bilal, Plagiarism - A Problem And How To Fight It, Proceedings of World Conference on Educational Multimedia, Hypermedia and Telecommunications 2007, AACE: 4451–4458, 2007 [2020-07-27], (原始内容于2016-08-15) 
  14. ^ 14.0 14.1 Hoad, Timothy; Zobel, Justin, (PDF), Journal of the American Society for Information Science and Technology, 2003, 54 (3): 203–215 [2014-10-14], doi:10.1002/asi.10170, (原始内容 (PDF)存档于2015-04-30) 
  15. ^ Stein, Benno, Fuzzy-Fingerprints for Text-Based Information Retrieval, (PDF), Springer, Know-Center: 572–579, 2005-07 [2011-10-07], (原始内容 (PDF)存档于2012-04-02) 
  16. ^ Brin, Sergey; Davis, James; Garcia-Molina, Hector, Copy Detection Mechanisms for Digital Documents, Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data (PDF), ACM: 398–409, 1995 [2020-07-28], ISBN 978-1-59593-060-6, doi:10.1145/223784.223855, (原始内容 (PDF)于2016-08-18) 
  17. ^ Monostori, Krisztián; Zaslavsky, Arkady; Schmidt, Heinz, Document Overlap Detection System for Distributed Digital Libraries, (PDF), ACM: 226–227, 2000 [2011-10-07], ISBN 978-1-58113-231-1, doi:10.1145/336597.336667, (原始内容 (PDF)存档于2012-04-15) 
  18. ^ Baker, Brenda S., (Technical Report), AT&T Bell Laboratories, NJ, 1993-02 [2020-07-28], (原始内容 (gs)存档于2007-10-30) 
  19. ^ Khmelev, Dmitry V.; Teahan, William J., A Repetition Based Measure for Verification of Text Collections and for Text Categorization, SIGIR'03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval, ACM: 104–110, 2003, ISBN 978-1581136463, doi:10.1145/860435.860456 
  20. ^ Si, Antonio; Leong, Hong Va; Lau, Rynson W. H., CHECK: A Document Plagiarism Detection System, SAC '97: Proceedings of the 1997 ACM symposium on Applied computing (PDF), ACM: 70–77, 1997 [2020-08-10], ISBN 978-0-89791-850-3, doi:10.1145/331697.335176, (原始内容 (PDF)于2019-08-19) 
  21. ^ Dreher, Heinz, Automatic Conceptual Analysis for Plagiarism Detection (PDF), Information and Beyond: The Journal of Issues in Informing Science and Information Technology, 2007, 4: 601–614 [2020-08-10], doi:10.28945/974, (原始内容 (PDF)于2019-08-19) 
  22. ^ Muhr, Markus; Zechner, Mario; Kern, Roman; Granitzer, Michael, External and Intrinsic Plagiarism Detection Using Vector Space Models, (PDF), CEUR Workshop Proceedings 502: 47–55, 2009 [2020-08-10], ISSN 1613-0073, (原始内容 (PDF)存档于2012-04-02) 
  23. ^ Gipp, Bela, Citation-based Plagiarism Detection, Springer Vieweg Research, 2014 [2020-08-10], ISBN 978-3-658-06393-1, (原始内容于2014-10-04) 
  24. ^ 24.0 24.1 Gipp, Bela; Beel, Jöran, Citation Based Plagiarism Detection - A New Approach to Identifying Plagiarized Work Language Independently, (PDF), ACM: 273–274, 2010-06 [2011-10-21], ISBN 978-1-4503-0041-4, doi:10.1145/1810617.1810671, (原始内容 (PDF)存档于2012-04-25) 
  25. ^ Gipp, Bela; Meuschke, Norman; Breitinger, Corinna; Lipinski, Mario; Nürnberger, Andreas, Demonstration of Citation Pattern Analysis for Plagiarism Detection, Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval (PDF), ACM: 1119, 2013-07-28 [2020-08-10], ISBN 9781450320344, doi:10.1145/2484028.2484214, (原始内容 (PDF)于2018-04-10) 
  26. ^ Holmes, David I., The Evolution of Stylometry in Humanities Scholarship, Literary and Linguistic Computing, 1998, 13 (3): 111–117, doi:10.1093/llc/13.3.111 
  27. ^ Juola, Patrick, Authorship Attribution (PDF), Foundations and Trends in Information Retrieval, 2006, 1 (3): 233–334 [2020-08-10], ISSN 1554-0669, doi:10.1561/1500000005, (原始内容 (PDF)于2020-10-24) 
  28. ^ , HTW University of Applied Sciences Berlin, [2011-10-06], (原始内容存档于2011-10-25) (德语) 
  29. ^ Portal Plagiat - Softwaretest 2008, HTW University of Applied Sciences Berlin, [2011-10-06], (原始内容于2019-03-27) (德语) 
  30. ^ 30.0 30.1 Portal Plagiat - Softwaretest 2010, HTW University of Applied Sciences Berlin, [2011-10-06], (原始内容于2019-04-26) (德语) 
  31. ^ 31.0 31.1 Potthast, Martin; Barrón-Cedeño, Alberto; Eiselt, Andreas; Stein, Benno; Rosso, Paolo, Overview of the 2nd International Competition on Plagiarism Detection, (PDF), 2010 [2011-10-07], (原始内容 (PDF)存档于2012-04-03) 
  32. ^ 32.0 32.1 Potthast, Martin; Eiselt, Andreas; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo, Overview of the 3rd International Competition on Plagiarism Detection, (PDF), 2011 [2011-10-07], (原始内容 (PDF)存档于2012-04-02) 
  33. ^ Stein, Benno; Lipka, Nedim; Prettenhofer, Peter, (PDF), Language Resources and Evaluation, 2011, 45 (1): 63–82 [2011-10-07], ISSN 1574-020X, doi:10.1007/s10579-010-9115-y, (原始内容 (PDF)存档于2012-04-02) 
  34. ^ Potthast, Martin; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo, (PDF), Language Resources and Evaluation, 2011, 45 (1): 45–62 [2011-10-07], ISSN 1574-020X, doi:10.1007/s10579-009-9114-z, hdl:10251/37479, (原始内容 (PDF)存档于2013-11-26) 
  35. ^ Gipp, Bela; Meuschke, Norman; Beel, Jöran, Comparative Evaluation of Text- and Citation-based Plagiarism Detection Approaches using GuttenPlag, (PDF), ACM: 255–258, 2011-06 [2011-10-07], ISBN 978-1-4503-0744-4, doi:10.1145/1998076.1998124, (原始内容 (PDF)存档于2012-04-25) 
  36. ^ Weber-Wulff, Debora, On the Utility of Plagiarism Detection Software, In Proceedings of the 3rd International Plagiarism Conference, Newcastle Upon Tyne (PDF), 2008-06 [2020-08-10], (原始内容 (PDF)于2013-10-01) 
  37. ^ "Plagiarism Prevention and Detection - On-line Resources on Source Code Plagiarism" (页面存档备份,存于互联网档案馆). Higher Education Academy University of Ulster
  38. ^ Roy, Chanchal Kumar;Cordy, James R. (2007-09-26)."A Survey on Software Clone Detection Research" (页面存档备份,存于互联网档案馆). School of Computing, Queen's University, Canada

文獻

  • Carroll, J. (2002). A handbook for deterring plagiarism in higher education. Oxford: The Oxford Centre for Staff and Learning Development, Oxford Brookes University. (96 p.), ISBN 1873576560
  • Zeidman, B. (2011). The Software IP Detective’s Handbook. Prentice Hall. (480 p.), ISBN 0137035330

文章相似度檢測, 內容相似度檢測, content, similarity, detection, 或抄袭检测, plagiarism, detection, 是在一份文件中找到抄袭或侵權詞句所在位置的方法, 隨著電腦的普遍使用, 網際網路的發明, 抄袭其他作品的難度越來越低, 抄袭检测可以用許多方式來進行, 人工檢測是傳統檢測是否有抄袭的方法, 相當的耗時間, 而且可能因為組織內對於抄袭定義的不同, 會有不一致的情形, 目前已有許多文字匹配軟體, text, matching, software, 也稱為反剽竊軟. 文章相似度檢測 內容相似度檢測 content similarity detection 或抄袭检测 plagiarism detection 是在一份文件中找到抄袭或侵權詞句所在位置的方法 隨著電腦的普遍使用 網際網路的發明 抄袭其他作品的難度越來越低 1 2 抄袭检测可以用許多方式來進行 人工檢測是傳統檢測是否有抄袭的方法 相當的耗時間 2 而且可能因為組織內對於抄袭定義的不同 會有不一致的情形 3 目前已有許多文字匹配軟體 text matching software TMS 也稱為反剽竊軟體 anti plagiarism software 或剽竊檢測軟體 plagiarism detection software 這些軟體可能是商業軟體 也可能是開源軟體 文字比對軟體不會一句一句的檢查是否有抄袭 不過軟體會從一份文件中找到和其他文件相符的特定片段 若相符的特定片段越多 抄袭的可能性也就越高 目录 1 軟體輔助的文件抄袭检测 1 1 檢測方式 1 1 1 文章指紋識別 1 1 2 字串匹配 1 1 3 词袋分析 1 1 4 引用文獻分析 1 1 5 计量文献学 1 2 性能比較 1 3 使用文字匹配軟體的副作用 2 程式碼抄袭检测 3 相關條目 4 參考資料 5 文獻軟體輔助的文件抄袭检测 编辑電腦輔助的抄袭检测 computer assisted plagiarism detection 簡稱CaPD 是由特製的信息檢索系統所進行的信息檢索工作 此系統稱為抄袭检测系統 plagiarism detection system PDS 或文件相似度檢測系統 2019年的一篇系統綜述 4 簡單說明了目前正在使用的抄袭检测系統 文件相似度檢測系統有兩種通用的檢測方式 一種是外在的 一種則和文件的固有特性有關 5 外在檢測系統會將待測的文件和一些參考用的文件進行比較 這些參考用的文件是假定原創 沒有抄袭的文件 6 依照給定的文件模型 以及事先定義的相似度準則 檢測工作就是檢索出參考用的文件中 內容和待測文件相似度超過一定比例的比文件 7 固有特性的抄袭检测系統會直接用待測的文件進行分析 分析的目的是找出作者獨特的寫作方式變化 作為抄袭可能性的指標 8 抄袭检测系統一定要配合人類的判斷 才能可靠的識別文件抄袭 相似度是依事先定義的文件模型來計算 因此可能出現偽陽性 9 10 11 12 13 檢測方式 编辑 下圖繪出目前各種以電腦軟體來輔助檢測文章內容相似性的方式 並依檢測的範圍為全域或局部加以分類 全域 global 相似性評估方式會擷取文章中大部分的特徵文本甚至整篇文章和其他文章進行比對 以計算二者間的相似度 而局部 local 相似性評估方式則僅是事先選擇小部分文本段落 並輸入電腦軟體進行比對 電腦軟體輔助檢測抄襲方式的分類 文章指紋識別 编辑 文章指紋識別 fingerprinting 是目前檢測內容相似性的方式中所最為廣泛運用者 此方式是藉由從文章中擇定一組由多個字母所組成的 符串 n gram 並定義為該篇文章中具有代表性的摘要 這些符串即如同指紋一般 而構成指紋的元素即稱為 細節 minutaie 14 15 文章指紋識別會先針對待確認的文件計算其指紋 並且在所有的參考文件中 查詢是否有出現指紋中一定比例的細節 和其他文件的細節符合表示二份文件中有共同的文字區塊 若相似度超過一定比例 有可能是抄袭的 16 指紋識別的限制因素是運算資源以及時間 因此此方法多半只會選擇一部份的細節進行比較 一方面加速計算 也可以在大量的文本 例如網際網路 中搜尋 14 字串匹配 编辑 字串匹配是電腦科學中常用的方法 若應用在内容抄袭检测時 會針對文件進行逐字逐字的重疊比較 針對這項任務 已提出了許多不同的方法 其中也有一些已用在外部的抄袭检测上 以此方法檢查待測文件 要有足夠的計算資源以及容量 才能高效的針對所有的參考文件 進行兩兩文件的比較 有些文件模型 例如后缀树或后缀向量 已用在此任務上 無疑的 子字串匹配的運算量相當的大 因此在比較大量參考文件時 不能使用字串匹配進行檢查 17 18 19 词袋分析 编辑 词袋分析 Bag of words analysis 是由傳統信息檢索概念中的向量空間模型 轉換到內容相似度檢測旳技術 文件可以用一個或是多個向量 可能是分別表示文件的不同部份 表示 這些向量會用來進行成對的相似度計算 相似度計算可以用傳統的余弦相似性計算 或是用更複雜的相似性計算方式 20 21 22 引用文獻分析 编辑 引用文獻為基礎的抄袭检测 CbPD 23 是依引文分析為基礎 是唯一不靠文本相似度 textual similarity 的抄袭检测演算法 24 CbPD會檢查引用文獻以及文件中用文獻佐證的部份 識別是否有類似的模式 因此 此方式適用於科學論文或是其他一定會引用文獻的學術論文 引用文獻為基礎的抄袭检测是相對而言較晚發展的概念 目前還沒有商用軟體使用此一作法 不過已有使用此一技術的原形系統 25 待檢查文件中的類似程度以及接近 proximity 文獻的程度是此一技術的判斷準則 计量文献学 编辑 计量文献学 英语 Stylometry 是用統計的方式識別作者獨特寫作風格的方式 26 27 主要用在作者歸屬確認 或是考慮文件固有特性的電腦輔助抄襲檢測 CaPD 可以針對不同的文字建構其文體模型 並且進行比較 來自不同來源的文字 其文體模型也會不同 因此可以依此偵測到抄袭或是侵權的情形 8 性能比較 编辑 内容抄袭检测的比較性評估 6 28 29 30 31 32 指出 检测系統的性能會因抄袭的方式不同而不同 除了引用文獻分析外 其他的檢測都是以文本相似度為基礎 因此若混合許多文獻抄袭 檢測系統的準確度就會下降 内容抄袭检测的性能會依抄袭的方式不同而不同 若是 複製貼上 copy and paste 型式的抄袭 公然侵犯版權的抄袭 或是適度掩飾的抄袭 若軟體可以找到來源的文字 目前的内容抄袭系統的精確度很高 特別是子字串比對程序針對 複製貼上 型式的抄袭 其效果非常的好 因為其中會使用無損的文件模型 例如后缀树 利用文章指紋或是詞袋分析的性能會因為文件模型中 資訊的減少程度而受到影響 若文章指紋或是詞袋分析再配合靈活的分塊及選擇策略 檢測變相抄襲的性能會比相較於子字串比對程序要好 利用Stylometry的固有特性抄袭检测可以用比較語言相似性 克服一些文本相似度的問題 假設原始文件及待確認文件的風格都很明確 而且是用可靠的方式識別 Stylometry可以識別變相抄襲及文字改寫 Paraphrasing 式的抄袭 但若文字重組的非常嚴重 反而產生了不同於來源資料的風格 或是抄袭自數個不同的來源 Stylometry分析可能會失效 2009年至2011年國際抄袭检测比賽的結果 6 31 32 以及Stein的實驗 33 都指出 Stylometry分析若要正常運作 只能針對數千到上萬字之間的文件 這限制了電腦輔助的抄襲檢測的應用性 越來越多的研究是針對可偵測翻譯抄袭的方式或是系統 目前跨語言的抄袭检测 cross language plagiarism detection CLPD 還不是成熟的技術 34 各系統在評估時還無法有令人滿意的結果 30 和其他方式比較 引用文獻分析的抄袭检测在識別改寫情形較嚴重的抄袭 或是識別翻譯抄袭上的成功率較高 因為和文本相似度沒有關係 24 35 不過因為引用文獻分析要有足夠的文獻資訊 因此只限制在學術文件 引用文獻分析在檢測較短的抄袭文字 例如 複製貼上 的抄袭或是 複製重組貼上 的抄袭 時 效果不如以文字為基礎的抄袭检测 複製重組貼上 shake and paste 的抄袭是指用不同的來源 略為混合後再抄袭的作法 36 使用文字匹配軟體的副作用 编辑 若利用文字匹配軟體來進行内容抄袭检测 目前已出現一些副作用 目前最受闗注的問題是被參考文件的智慧財產權問題 文件要可以被文字匹配系統檢查到 就需要加到文字匹配系統的資料庫中 才能有效的匹配 但是將其他人創作 有智慧財產權的文件加入資料庫 有侵權的問題 目前已經有一些相關的訴訟案 另一個副作用是因為文字匹配軟體只會計算文字精準匹配的結果 若在抄袭後將夠多的單字改為同義字 減少和原文完全相同的文字 有可能可以騙過檢測軟體 此方法稱為rogeting 英语 rogeting 程式碼抄袭检测 编辑程式碼的抄袭也很常見 程式碼抄袭的检测工具和文件抄袭的檢測工具不同 在程式碼抄袭檢測上 已有許多的學術研究 37 程式碼抄袭常常出現在程式相關的作業上 大部份的作業都會給學生很明確的需求 要學生寫出符合該需求的程式 不一定可以在網路上找到已有 符合該需求的程式 網路上可找到的程式可能只能符合部份需求 若要滿足作業需求 還需要改寫程式或整合程式 這多半會比學生自己學程式作業要難 大部份的學生若要抄袭程式碼作業 多半會抄袭同學寫的作業 根據Roy和Cordy的研究 38 程式碼抄袭检测演算法可以分為以下幾種 字串 找文本中完全相同的文字片段 例如連續五個字相同 此演算法速度很快 但若修改變數名稱 即無法識別 符記 Tokens 也和字串演算法相同 但是由詞法分析將程式先轉換為符記 Token 忽略空白 註解 識別符名稱 因此若只是單純修改變數名稱 此方式仍可以法識別 大部份學術的程式碼抄袭系統會使用此演算法 用不同的演算法來評估二個符記序列的相似度 分析树 Parse Trees 先建立分析树然後再比較 這可以偵測更高層次的類似性 例如 分析树比較可以正規化條件敘述 再偵測兩者是否有類似的等效結構 程式相依圖 PDG 程式相依圖可以表示程式中各函式之間彼此呼叫的關係 可以找到更高層次的相似 不過複雜度及運算時間都多很多 軟體度量 會依照一些準則 例如迴圈及條件判斷的個數 或是變數使用的數量 去算程式碼的分數 軟體度量很容易計算 也很容易比較 不過偽陽性的比例很高 二段不同的程式可能剛好有相同的軟體度量值 混合法 例如分析树加上后缀树 可以結合分析树的能力以及后缀树 一種用於字串比對的資料結構 的計算效率 上述的分類一開始是為了代码重构所開發的 不是為了程式碼抄袭 代码重构的一個重要目的是避免程式中重複的程式碼 在文獻中稱為代码重复 上述的作法可以偵測到不同層次的相似性 低層次的相似性是指完全相同的文字 高層次的相似性可能是因為類似的規格所產生 在學術的使用上 因為學生是依相同的規格寫程式作業 其作業的程式在機能上等效 即高層次的相似性 是合理的 因此若用在在程式作業的抄袭檢測上 一般只會考慮低層次的相似性 相關條目 编辑反剽竊軟體比較 英语 Comparison of anti plagiarism software 局部敏感哈希 英语 Locality sensitive hashing 最邻近搜索 改寫檢測 英语 Paraphrase detection 柯氏复杂性 用來評估多個系統中 符記序列 token sequences 的類似程度參考資料 编辑 Culwin F amp Lancaster T 2001 Plagiarism prevention deterrence and detection Higher Education Academy 2020 07 27 原始内容存档于2021 04 18 2 0 2 1 Bretag T amp Mahmud S 2009 A model for determining student plagiarism Electronic detection and academic judgement Journal of University Teaching amp Learning Practice 6 1 Retrieved from http ro uow edu au jutlp vol6 iss1 6 Macdonald R amp Carroll J 2006 Plagiarism a complex issue requiring a holistic institutional approach Assessment amp Evaluation in Higher Education 31 2 233 245 doi 10 1080 02602930500262536 Foltynek Tomas Meuschke Norman Gipp Bela Academic Plagiarism Detection A Systematic Literature Review ACM Computing Surveys 2019 10 16 52 6 1 42 doi 10 1145 3345317 英语 Stein Benno Koppel Moshe Stamatatos Efstathios Plagiarism Analysis Authorship Identification and Near Duplicate Detection PAN 07 PDF SIGIR Forum 2007 12 41 2 68 2011 10 07 doi 10 1145 1328964 1328976 原始内容 PDF 存档于2012 04 02 6 0 6 1 6 2 Potthast Martin Stein Benno Eiselt Andreas Barron Cedeno Alberto Rosso Paolo Overview of the 1st International Competition on Plagiarism Detection PAN09 3rd Workshop on Uncovering Plagiarism Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection PDF CEUR Workshop Proceedings 502 1 9 2009 2020 07 27 ISSN 1613 0073 原始内容 PDF 存档于2012 04 02 Stein Benno Meyer zu Eissen Sven Potthast Martin Strategies for Retrieving Plagiarized Documents Proceedings 30th Annual International ACM SIGIR Conference PDF ACM 825 826 2007 2011 10 07 ISBN 978 1 59593 597 7 doi 10 1145 1277741 1277928 原始内容 PDF 存档于2012 04 02 8 0 8 1 Meyer zu Eissen Sven Stein Benno Intrinsic Plagiarism Detection Advances in Information Retrieval 28th European Conference on IR Research ECIR 2006 London UK April 10 12 2006 Proceedings PDF Lecture Notes in Computer Science 3936 Springer 565 569 2006 2011 10 07 ISBN 978 3 540 33347 0 doi 10 1007 11735106 66 原始内容 PDF 存档于2012 04 02 Bao Jun Peng Malcolm James A Text similarity in academic conference papers 2nd International Plagiarism Conference Proceedings PDF Northumbria University Press 2006 2011 10 07 原始内容 PDF 存档于2018 09 16 Clough Paul Plagiarism in natural and programming languages an overview of current tools and technologies PDF Technical Report Department of Computer Science University of Sheffield 2000 2020 07 27 原始内容存档 PDF 于2011 08 18 Culwin Fintan Lancaster Thomas Plagiarism issues for higher education PDF Vine 2001 31 2 36 41 2020 07 27 doi 10 1108 03055720010804005 原始内容 PDF 存档于2012 04 05 Lancaster Thomas Effective and Efficient Plagiarism Detection PhD Thesis School of Computing Information Systems and Mathematics South Bank University 2003 Maurer Hermann Zaka Bilal Plagiarism A Problem And How To Fight It Proceedings of World Conference on Educational Multimedia Hypermedia and Telecommunications 2007 AACE 4451 4458 2007 2020 07 27 原始内容存档于2016 08 15 14 0 14 1 Hoad Timothy Zobel Justin Methods for Identifying Versioned and Plagiarised Documents PDF Journal of the American Society for Information Science and Technology 2003 54 3 203 215 2014 10 14 doi 10 1002 asi 10170 原始内容 PDF 存档于2015 04 30 Stein Benno Fuzzy Fingerprints for Text Based Information Retrieval Proceedings of the I KNOW 05 5th International Conference on Knowledge Management Graz Austria PDF Springer Know Center 572 579 2005 07 2011 10 07 原始内容 PDF 存档于2012 04 02 Brin Sergey Davis James Garcia Molina Hector Copy Detection Mechanisms for Digital Documents Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data PDF ACM 398 409 1995 2020 07 28 ISBN 978 1 59593 060 6 doi 10 1145 223784 223855 原始内容存档 PDF 于2016 08 18 Monostori Krisztian Zaslavsky Arkady Schmidt Heinz Document Overlap Detection System for Distributed Digital Libraries Proceedings of the fifth ACM conference on Digital libraries PDF ACM 226 227 2000 2011 10 07 ISBN 978 1 58113 231 1 doi 10 1145 336597 336667 原始内容 PDF 存档于2012 04 15 Baker Brenda S On Finding Duplication in Strings and Software Technical Report AT amp T Bell Laboratories NJ 1993 02 2020 07 28 原始内容 gs 存档于2007 10 30 Khmelev Dmitry V Teahan William J A Repetition Based Measure for Verification of Text Collections and for Text Categorization SIGIR 03 Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval ACM 104 110 2003 ISBN 978 1581136463 doi 10 1145 860435 860456 Si Antonio Leong Hong Va Lau Rynson W H CHECK A Document Plagiarism Detection System SAC 97 Proceedings of the 1997 ACM symposium on Applied computing PDF ACM 70 77 1997 2020 08 10 ISBN 978 0 89791 850 3 doi 10 1145 331697 335176 原始内容存档 PDF 于2019 08 19 Dreher Heinz Automatic Conceptual Analysis for Plagiarism Detection PDF Information and Beyond The Journal of Issues in Informing Science and Information Technology 2007 4 601 614 2020 08 10 doi 10 28945 974 原始内容存档 PDF 于2019 08 19 Muhr Markus Zechner Mario Kern Roman Granitzer Michael External and Intrinsic Plagiarism Detection Using Vector Space Models PAN09 3rd Workshop on Uncovering Plagiarism Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection PDF CEUR Workshop Proceedings 502 47 55 2009 2020 08 10 ISSN 1613 0073 原始内容 PDF 存档于2012 04 02 Gipp Bela Citation based Plagiarism Detection Springer Vieweg Research 2014 2020 08 10 ISBN 978 3 658 06393 1 原始内容存档于2014 10 04 24 0 24 1 Gipp Bela Beel Joran Citation Based Plagiarism Detection A New Approach to Identifying Plagiarized Work Language Independently Proceedings of the 21st ACM Conference on Hypertext and Hypermedia HT 10 PDF ACM 273 274 2010 06 2011 10 21 ISBN 978 1 4503 0041 4 doi 10 1145 1810617 1810671 原始内容 PDF 存档于2012 04 25 Gipp Bela Meuschke Norman Breitinger Corinna Lipinski Mario Nurnberger Andreas Demonstration of Citation Pattern Analysis for Plagiarism Detection Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval PDF ACM 1119 2013 07 28 2020 08 10 ISBN 9781450320344 doi 10 1145 2484028 2484214 原始内容存档 PDF 于2018 04 10 Holmes David I The Evolution of Stylometry in Humanities Scholarship Literary and Linguistic Computing 1998 13 3 111 117 doi 10 1093 llc 13 3 111 Juola Patrick Authorship Attribution PDF Foundations and Trends in Information Retrieval 2006 1 3 233 334 2020 08 10 ISSN 1554 0669 doi 10 1561 1500000005 原始内容存档 PDF 于2020 10 24 Portal Plagiat Softwaretest 2004 HTW University of Applied Sciences Berlin 2011 10 06 原始内容存档于2011 10 25 德语 Portal Plagiat Softwaretest 2008 HTW University of Applied Sciences Berlin 2011 10 06 原始内容存档于2019 03 27 德语 30 0 30 1 Portal Plagiat Softwaretest 2010 HTW University of Applied Sciences Berlin 2011 10 06 原始内容存档于2019 04 26 德语 31 0 31 1 Potthast Martin Barron Cedeno Alberto Eiselt Andreas Stein Benno Rosso Paolo Overview of the 2nd International Competition on Plagiarism Detection Notebook Papers of CLEF 2010 LABs and Workshops 22 23 September Padua Italy PDF 2010 2011 10 07 原始内容 PDF 存档于2012 04 03 32 0 32 1 Potthast Martin Eiselt Andreas Barron Cedeno Alberto Stein Benno Rosso Paolo Overview of the 3rd International Competition on Plagiarism Detection Notebook Papers of CLEF 2011 LABs and Workshops 19 22 September Amsterdam Netherlands PDF 2011 2011 10 07 原始内容 PDF 存档于2012 04 02 Stein Benno Lipka Nedim Prettenhofer Peter Intrinsic Plagiarism Analysis PDF Language Resources and Evaluation 2011 45 1 63 82 2011 10 07 ISSN 1574 020X doi 10 1007 s10579 010 9115 y 原始内容 PDF 存档于2012 04 02 Potthast Martin Barron Cedeno Alberto Stein Benno Rosso Paolo Cross Language Plagiarism Detection PDF Language Resources and Evaluation 2011 45 1 45 62 2011 10 07 ISSN 1574 020X doi 10 1007 s10579 009 9114 z hdl 10251 37479 原始内容 PDF 存档于2013 11 26 Gipp Bela Meuschke Norman Beel Joran Comparative Evaluation of Text and Citation based Plagiarism Detection Approaches using GuttenPlag Proceedings of 11th ACM IEEE CS Joint Conference on Digital Libraries JCDL 11 PDF ACM 255 258 2011 06 2011 10 07 ISBN 978 1 4503 0744 4 doi 10 1145 1998076 1998124 原始内容 PDF 存档于2012 04 25 Weber Wulff Debora On the Utility of Plagiarism Detection Software In Proceedings of the 3rd International Plagiarism Conference Newcastle Upon Tyne PDF 2008 06 2020 08 10 原始内容存档 PDF 于2013 10 01 Plagiarism Prevention and Detection On line Resources on Source Code Plagiarism 页面存档备份 存于互联网档案馆 Higher Education Academy University of Ulster Roy Chanchal Kumar Cordy James R 2007 09 26 A Survey on Software Clone Detection Research 页面存档备份 存于互联网档案馆 School of Computing Queen s University Canada文獻 编辑Carroll J 2002 Ahandbook for deterring plagiarism in higher education Oxford The Oxford Centre for Staff and Learning Development Oxford Brookes University 96 p ISBN 1873576560 Zeidman B 2011 The Software IP Detective s Handbook Prentice Hall 480 p ISBN 0137035330 取自 https zh wikipedia org w index php title 文章相似度檢測 amp oldid 72662248, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。