fbpx
维基百科

斯肯索普问题

斯肯索普问题(Scunthorpe problem)是指在電子邮件过滤搜索引擎中,由于文本包含一个或多个看似有亵渎或非法含义字符串(或子串),导致网站、电子邮件、论坛帖子或搜索结果被无意间阻拦的现象。受此问题影响最多的是名称、缩写和技术术语等。

维基百科中的斯肯索普问题示例,无法注册的原因是用户名中识别到cunt

这个问题的产生源于电脑虽然能轻易识别文件内的文本字符,但是没有相当的能力来解释这些文字的含义;對此电脑需要能理解广泛的语境,甚至跨越多个文化,而这是一项极其困难的任务。因此,广泛的阻挡规则可能会导致对无辜短语的误判,出现错误拦截的情况。

词义和起源 编辑

该问题源于1996年的一次网络事件,当时美国在线(AOL)的脏话过滤器阻止了英格兰北林肯郡斯肯索普市(Scunthorpe)的居民在AOL上创建账户,因为该市名中包含了字符串“cunt(,阴道)”。[1]在2000年代初,谷歌安全搜索过滤器也犯了同样的错误,阻止了人们搜索包含斯卡恩索普市名称的本地企业或网站,故这一问题由此得名。[2]

解决措施 编辑

由于创建一个能够理解上下文中的词组的过滤器非常困难,因此斯肯索普问题很难完全解决。[3][4]一种常见的解决方案是创建一个白名单,其中包含已知的容易产生斯肯索普问题的词组,任何出现在白名单上的单词都将被过滤器忽略,即使它们包含的文本在其他情况下可能是不允许的。[5]另一种常见的解决方案是通过贝叶斯公式来计算单个词组成为敏感词的概率,进而组合分析一段话中包含敏感词的概率,但这一方法需要对大量语料数据的分析作为支持。[6]

事例 编辑

敏感词过滤器引發的錯誤包括:

中国大陆以外的斯肯索普问题 编辑

  • 1998 年 4 月,杰夫-戈德(Jeff Gold)试图注册域名 shitakemushrooms.com,但由于其中包含敏感词,他被互联网络信息中心(InterNIC)的过滤器阻止。[7]
  • 2000 年,一则关于网络过滤软件的加拿大电视新闻报道发现,蒙特利尔城市社区(Communauté Urbaine de Montréal,法文)的网站被完全屏蔽,因为其域名是法文缩写CUM (www.cum.qc.ca ),而“cum”(除其他含义外)是精液的英语俚语。[8]
  • 2008年,新西兰华卡塔尼镇(Whakatane)的免费无线网络服务过滤器由于其语音分析认为“whak”听起来像脏话,因此屏蔽了涉及该镇名称的搜索;该镇名称为毛利语,在毛利语中,“whak”读音近似“fuck(操)”。随后,该镇将镇名加入了过滤器的白名单中。[9]
  • 2010年6月,推特在一个卢森堡用户开通账户并发布他的第一条推文29分钟后,就将其封锁了。该推文写道:“终于!一对美丽的蓝脖山雀已经搬进了我的鸟屋!(Finally! A pair of great tits (Parus major) has moved into my birdhouse!)”虽然该用户在推文中使用了拉丁学名来表明他是在谈论鸟类,但推特并没有为他解封账户。[10]
  • 2020年10月,在一次古生物学会议上,推特的敏感词过滤器屏蔽了“骨头(bone)”、“阴毛(pubic)”和“溪流(stream)”等词语。[11]
  • 2021年1月,由于错误地将德文郡普利茅斯(Plymouth Hoe)标记为厌恶女性,Facebook向被禁言和封号的用户道歉。[12]

中国大陆的斯肯索普问题 编辑

参考来源 编辑

  1. ^ Neumann, Peter G. The RISKS Digest, Volume 18 Issue 07. The RISKS Digest, Volume 18 Issue 07. 1996-04-25, 18 (07) [2023-02-18]. (原始内容于2022-04-11) (英语). 
  2. ^ McCullagh, Declan. Google's chastity belt too tight. CNET. [2023-02-18]. (原始内容于2023-02-18) (英语). 
  3. ^ Fri, Aug 31st 2018 12:09pm-Cathy Gellis. The Scunthorpe Problem, And Why AI Is Not A Silver Bullet For Moderating Platform Content At Scale. Techdirt. 2018-08-31 [2023-02-18]. (原始内容于2023-02-18) (美国英语). 
  4. ^ Life on the Internet Is Hard When Your Last Name is 'Butts'. www.vice.com. [2023-02-18]. (原始内容于2023-02-18) (英语). 
  5. ^ Veale, Tony. Your Wit Is My Command: Building AIs with a Sense of Humor. MIT Press. 2021-09-07. ISBN 978-0-262-04599-5 (英语). 
  6. ^ 6.0 6.1 Vol.014 如何科学地消灭敏感词|回形针, [2023-02-18], (原始内容于2023-02-18) (中文(中国大陆)) 
  7. ^ Festa, Paul. Food domain found "obscene". CNET. [2023-02-18]. (原始内容于2023-02-18) (英语). 
  8. ^ . web.archive.org. 2012-10-21 [2023-02-18]. 原始内容存档于2012-10-21. 
  9. ^ . web.archive.org. 2008-12-01 [2023-02-18]. 原始内容存档于2008-12-01. 
  10. ^ Luxembourg new Twitter user blocked after 29 minutes. 22 June 2010. Retrieved 12 June 2010.  [失效連結]
  11. ^ A Profanity Filter Banned the Word 'Bone' at a Paleontology Conference. www.vice.com. [2023-02-18]. (原始内容于2021-02-23) (英语). 
  12. ^ Morris, Steven. Facebook apologises for flagging Plymouth Hoe as offensive term. The Guardian. 2021-01-27 [2023-02-18]. ISSN 0261-3077. (原始内容于2021-01-29) (英国英语). 
  13. ^ Chin, Josh. Following Jiang Zemin Death Rumors, China's Rivers Go Missing Online. WSJ. [2023-02-18]. (原始内容于2023-02-18) (美国英语). 

斯肯索普问题, scunthorpe, problem, 是指在電子邮件过滤或搜索引擎中, 由于文本包含一个或多个看似有亵渎或非法含义的字符串, 或子串, 导致网站, 电子邮件, 论坛帖子或搜索结果被无意间阻拦的现象, 受此问题影响最多的是名称, 缩写和技术术语等, 维基百科中的示例, 无法注册的原因是用户名中识别到cunt这个问题的产生源于电脑虽然能轻易识别文件内的文本字符, 但是没有相当的能力来解释这些文字的含义, 對此电脑需要能理解广泛的语境, 甚至跨越多个文化, 而这是一项极其困难的任务, 因此, 广泛的阻. 斯肯索普问题 Scunthorpe problem 是指在電子邮件过滤或搜索引擎中 由于文本包含一个或多个看似有亵渎或非法含义的字符串 或子串 导致网站 电子邮件 论坛帖子或搜索结果被无意间阻拦的现象 受此问题影响最多的是名称 缩写和技术术语等 维基百科中的斯肯索普问题示例 无法注册的原因是用户名中识别到cunt这个问题的产生源于电脑虽然能轻易识别文件内的文本字符 但是没有相当的能力来解释这些文字的含义 對此电脑需要能理解广泛的语境 甚至跨越多个文化 而这是一项极其困难的任务 因此 广泛的阻挡规则可能会导致对无辜短语的误判 出现错误拦截的情况 目录 1 词义和起源 2 解决措施 3 事例 3 1 中国大陆以外的斯肯索普问题 3 2 中国大陆的斯肯索普问题 4 参考来源词义和起源 编辑该问题源于1996年的一次网络事件 当时美国在线 AOL 的脏话过滤器阻止了英格兰北林肯郡斯肯索普市 Scunthorpe 的居民在AOL上创建账户 因为该市名中包含了字符串 cunt 屄 阴道 1 在2000年代初 谷歌的安全搜索过滤器也犯了同样的错误 阻止了人们搜索包含斯卡恩索普市名称的本地企业或网站 故这一问题由此得名 2 解决措施 编辑由于创建一个能够理解上下文中的词组的过滤器非常困难 因此斯肯索普问题很难完全解决 3 4 一种常见的解决方案是创建一个白名单 其中包含已知的容易产生斯肯索普问题的词组 任何出现在白名单上的单词都将被过滤器忽略 即使它们包含的文本在其他情况下可能是不允许的 5 另一种常见的解决方案是通过贝叶斯公式来计算单个词组成为敏感词的概率 进而组合分析一段话中包含敏感词的概率 但这一方法需要对大量语料数据的分析作为支持 6 事例 编辑敏感词过滤器引發的錯誤包括 中国大陆以外的斯肯索普问题 编辑 1998 年 4 月 杰夫 戈德 Jeff Gold 试图注册域名 shitakemushrooms com 但由于其中包含敏感词 他被互联网络信息中心 InterNIC 的过滤器阻止 7 2000 年 一则关于网络过滤软件的加拿大电视新闻报道发现 蒙特利尔城市社区 Communaute Urbaine de Montreal 法文 的网站被完全屏蔽 因为其域名是法文缩写CUM www cum qc ca 而 cum 除其他含义外 是精液的英语俚语 8 2008年 新西兰华卡塔尼镇 Whakatane 的免费无线网络服务过滤器由于其语音分析认为 whak 听起来像脏话 因此屏蔽了涉及该镇名称的搜索 该镇名称为毛利语 在毛利语中 whak 读音近似 fuck 操 随后 该镇将镇名加入了过滤器的白名单中 9 2010年6月 推特在一个卢森堡用户开通账户并发布他的第一条推文29分钟后 就将其封锁了 该推文写道 终于 一对美丽的蓝脖山雀已经搬进了我的鸟屋 Finally A pair of great tits Parus major has moved into my birdhouse 虽然该用户在推文中使用了拉丁学名来表明他是在谈论鸟类 但推特并没有为他解封账户 10 2020年10月 在一次古生物学会议上 推特的敏感词过滤器屏蔽了 骨头 bone 阴毛 pubic 和 溪流 stream 等词语 11 2021年1月 由于错误地将德文郡的普利茅斯 Plymouth Hoe 标记为厌恶女性 Facebook向被禁言和封号的用户道歉 12 中国大陆的斯肯索普问题 编辑 2011年7月 在新浪微博上有人声称前中共总书记江泽民已去世后 中国互联网上与 江 这个姓氏相关的搜索被封锁 由于 江 这个字也表示 河流 因此导致包括长江等河流的搜索结果均显示 根据相关法律法规和政策 无法显示搜索结果 13 2022年 当江泽民真正去世后 这个问题再次出现 來源請求 2019年 回形针PaperClip发布视频指出不少容易在中国大陆被误封锁的词句 如 一台独立服务器 台独为中国大陆敏感词 6 2022年10月 中国ACGN在线百科全书萌娘百科的母公司因页面内容违反 中华人民共和国网络安全法 被当地公安机关当场训诫 随后萌娘百科进行了整改 整改后的萌娘百科将包括 习 维尼 天朝 6月4日 等敏感词汇显示上被替换成 号 一度引发了严重的误伤问题 如 学习 被替换成 学 目前有所改善 参考来源 编辑 Neumann Peter G The RISKS Digest Volume 18 Issue 07 The RISKS Digest Volume 18 Issue 07 1996 04 25 18 07 2023 02 18 原始内容存档于2022 04 11 英语 McCullagh Declan Google s chastity belt too tight CNET 2023 02 18 原始内容存档于2023 02 18 英语 Fri Aug 31st 2018 12 09pm Cathy Gellis The Scunthorpe Problem And Why AI Is Not A Silver Bullet For Moderating Platform Content At Scale Techdirt 2018 08 31 2023 02 18 原始内容存档于2023 02 18 美国英语 Life on the Internet Is Hard When Your Last Name is Butts www vice com 2023 02 18 原始内容存档于2023 02 18 英语 Veale Tony Your Wit Is My Command Building AIs with a Sense of Humor MIT Press 2021 09 07 ISBN 978 0 262 04599 5 英语 6 0 6 1 Vol 014 如何科学地消灭敏感词 回形针 2023 02 18 原始内容存档于2023 02 18 中文 中国大陆 Festa Paul Food domain found obscene CNET 2023 02 18 原始内容存档于2023 02 18 英语 Foire aux questions web archive org 2012 10 21 2023 02 18 原始内容存档于2012 10 21 F Word Town s Name Gets Censored By Internet Filter Switched web archive org 2008 12 01 2023 02 18 原始内容存档于2008 12 01 Luxembourg new Twitter user blocked after 29 minutes 22 June 2010 Retrieved 12 June 2010 请检查 date 中的日期值 帮助 失效連結 A Profanity Filter Banned the Word Bone at a Paleontology Conference www vice com 2023 02 18 原始内容存档于2021 02 23 英语 Morris Steven Facebook apologises for flagging Plymouth Hoe as offensive term The Guardian 2021 01 27 2023 02 18 ISSN 0261 3077 原始内容存档于2021 01 29 英国英语 Chin Josh Following Jiang Zemin Death Rumors China s Rivers Go Missing Online WSJ 2023 02 18 原始内容存档于2023 02 18 美国英语 取自 https zh wikipedia org w index php title 斯肯索普问题 amp oldid 82127451, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。