fbpx
维基百科

Dice系数

戴斯系数(Dice coefficient),也称索倫森-戴斯系数(Sørensen–Dice coefficient),取名於Thorvald Sørensen英语托瓦爾·索倫森Lee Raymond Dice英语李·雷蒙德·戴斯[1],是一种集合相似度度量函数,通常用于计算两个样本的相似度:

它在形式上和Jaccard指数没多大区别,但是有些不同的性质。

和Jaccard类似,它的范围为0到1。 与Jaccard不同的是,相应的差异函数

不是一个合适的距离度量措施,因为它没有三角形不等性的性质。例如给定 {a}, {b}, 和 {a,b}, 前两个集合的距离为1,而第三个集合和其他任意两个集合的距离为三分之一。

与Jaccard类似, 集合操作可以用两个向量 AB的操作来表示:

上式给出了两个向量的距离输出,也给出了更一般情况下向量之间的相似度度量措施。 戴斯系数可以计算两个字符串的相似度:Dice(s1,s2)=2*comm(s1,s2)/(leng(s1)+leng(s2))。 其中,comm (s1,s2)是s1、s2 中相同字符的个数leng(s1),leng(s2)是字符串s1、s2 的长度。

信息检索中, 给定关键词集合XY ,相似度定义为两倍的共同信息(重叠部分)除以基数的总和 :[2]

当作为字符串之间的相似度度量时, 计算两个字符串之间的系数, xy,使用 bigrams 公式如下:[3]

其中nt 是两个字符串共有的bigrams的个数, nxx中bigrams的个数 ,nyy中bigrams的个数。例如要计算下面两个字符串之间的相似度:

night
nacht

我们可以在各个单词中得出如下bigrams集合:

{ni,ig,gh,ht}
{na,ac,ch,ht}

每个集合有4个元素, 这个两个集合只有一个相同的元素: ht.

代入公式我们可以计算出, s = (2 · 1) / (4 + 4) = 0.25.

同见

  • 雅卡爾指數(Jaccard index), 等同于:   and  
  • Tversky index
  • Levenshtein distance
  • Sørensen similarity index

参考文献

  1. ^ Dice, Lee R. Measures of the Amount of Ecologic Association Between Species. Ecology. 1945, 26 (3): 297–302. JSTOR 1932409. doi:10.2307/1932409. 
  2. ^ van Rijsbergen, Cornelis Joost. Information Retrieval. London: Butterworths. 1979 [2012-05-26]. ISBN 3-642-12274-4. (原始内容于2005-04-06). 
  3. ^ Kondrak, Grzegorz; Marcu, Daniel; and Knight, Kevin. Cognates Can Improve Statistical Translation Models (PDF). Proceedings of HLT-NAACL 2003: Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics: 46–48. 2003 [2012-05-26]. (原始内容 (PDF)于2016-03-04). 

参考资料

dice系数, 关于与, 標題相近或相同的条目, 請見, dice, 戴斯系数, dice, coefficient, 也称索倫森, 戴斯系数, sørensen, dice, coefficient, 取名於thorvald, sørensen, 英语, 托瓦爾, 索倫森, 和lee, raymond, dice, 英语, 雷蒙德, 戴斯, 是一种集合相似度度量函数, 通常用于计算两个样本的相似度, displaystyle, frac, 它在形式上和jaccard指数没多大区别, 但是有些不同的性质, 和jac. 关于与 Dice系数 標題相近或相同的条目 請見 Dice 戴斯系数 Dice coefficient 也称索倫森 戴斯系数 Sorensen Dice coefficient 取名於Thorvald Sorensen 英语 托瓦爾 索倫森 和Lee Raymond Dice 英语 李 雷蒙德 戴斯 1 是一种集合相似度度量函数 通常用于计算两个样本的相似度 s 2 X Y X Y displaystyle s frac 2 X cap Y X Y 它在形式上和Jaccard指数没多大区别 但是有些不同的性质 和Jaccard类似 它的范围为0到1 与Jaccard不同的是 相应的差异函数 d 1 2 X Y X Y displaystyle d 1 frac 2 X cap Y X Y 不是一个合适的距离度量措施 因为它没有三角形不等性的性质 例如给定 a b 和 a b 前两个集合的距离为1 而第三个集合和其他任意两个集合的距离为三分之一 与Jaccard类似 集合操作可以用两个向量 A 和B的操作来表示 s v 2 A B A 2 B 2 displaystyle s v frac 2 A cdot B A 2 B 2 上式给出了两个向量的距离输出 也给出了更一般情况下向量之间的相似度度量措施 戴斯系数可以计算两个字符串的相似度 Dice s1 s2 2 comm s1 s2 leng s1 leng s2 其中 comm s1 s2 是s1 s2 中相同字符的个数leng s1 leng s2 是字符串s1 s2 的长度 在信息检索中 给定关键词集合X 和Y 相似度定义为两倍的共同信息 重叠部分 除以基数的总和 2 当作为字符串之间的相似度度量时 计算两个字符串之间的系数 x 和y 使用 bigrams 公式如下 3 s 2 n t n x n y displaystyle s frac 2n t n x n y 其中nt 是两个字符串共有的bigrams的个数 nx 是 x中bigrams的个数 ny 是 y中bigrams的个数 例如要计算下面两个字符串之间的相似度 night nacht我们可以在各个单词中得出如下bigrams集合 ni ig gh ht na ac ch ht 每个集合有4个元素 这个两个集合只有一个相同的元素 ht 代入公式我们可以计算出 s 2 1 4 4 0 25 同见 编辑雅卡爾指數 Jaccard index 等同于 D 2 J 1 J displaystyle D 2J 1 J and J D 2 D displaystyle J D 2 D Tversky index Levenshtein distance Sorensen similarity index参考文献 编辑 Dice Lee R Measures of the Amount of Ecologic Association Between Species Ecology 1945 26 3 297 302 JSTOR 1932409 doi 10 2307 1932409 van Rijsbergen Cornelis Joost Information Retrieval London Butterworths 1979 2012 05 26 ISBN 3 642 12274 4 原始内容存档于2005 04 06 Kondrak Grzegorz Marcu Daniel and Knight Kevin Cognates Can Improve Statistical Translation Models PDF Proceedings of HLT NAACL 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics 46 48 2003 2012 05 26 原始内容存档 PDF 于2016 03 04 引文使用过时参数coauthors 帮助 参考资料 编辑 取自 https zh wikipedia org w index php title Dice系数 amp oldid 75247366, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。