fbpx
维基百科

余弦相似性

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。這結果是與向量的長度無關的,仅仅與向量的指向方向相關。余弦相似度通常用于正空間,因此給出的值为0到1之间。

注意這上下界对任何维度的向量空間中都適用,而且余弦相似性最常用於高维正空间。例如在信息检索中,每个词項被賦予不同的維度,而一个文档由一个向量表示,其各個維度上的值對應于該词項在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。

另外,它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,會用到它来度量集群内部的凝聚力。[1]

定义 编辑

两个向量间的余弦值可以通过使用欧几里得点积公式求出:

 

給定两个属性向量, AB,其余弦相似性θ由点积和向量長度給出,如下所示:

 ,這裡的  分別代表向量  的各分量

給出的相似性范围从-1到1。-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中間的相似性或相异性。

对于文本匹配,属性向量AB 通常是文档中的词频向量。余弦相似性,可以被看作是在比较過程中把文件长度正規化的方法。

信息检索的情况下,由于一个词的频率(TF-IDF权)不能为负数,所以这两个文档的余弦相似性范围从0到1。并且,两个词的频率向量之间的角度不能大于90°。

角相似性 编辑

「余弦相似性」一詞有时也被用来表示另一個系数,儘管最常见的是像上述定义那样的。透過使用相同計算方式得到的相似性,向量之间的规范化角度可以作为一个范围在[0,1]上的有界相似性函数,從上述定义的相似性计算如下:

 

這式子適用於向量系数可以為正或負的情況。

或者,用以下式子計算

 

这式子適用於向量系数总為正的情況。

虽然「余弦相似性」一词有時會用來表示這個角距离,但實際上很少這樣說,因為角度的餘弦值只是作为一种计算角度的简便方法而被用到,本身并不是意思的一部分。角相似系数的优点是,当作为一个差异系数(从1减去它)时,产生的函數是一个嚴格距离度量,而對於第一種意義的「余弦相似性」則不然。然而,对于大多数的用途,这不是一个重要的性質。若对于某些情況下,只有一组向量之間的相似性或距离的相对顺序是重要的,那么不管是使用哪個函数,所得出的顺序都是一樣的。

與「Tanimoto」系数的混淆 编辑

有时,余弦相似性會跟一種特殊形式的、有著类似代数形式的相似系数相混淆:

 

事实上,这个代数形式是首先被Tanimoto定义,作為在所比較集合由位元向量表示時计算其Jaccard系数的方法。虽然這公式也可以扩展到向量,它具有和余弦相似性頗為不同的性质,并且除了形式相似外便沒有什麼關係。

Ochiai系数 编辑

这个系数在生物学中也叫Ochiai系数,或Ochiai-Barkman系数[2][3]

 

這裡  是集合,  的元素個數。如果集合由位元向量所代表,那麼可看到Ochiai系数跟餘弦相似性是等同的。

另见 编辑

外部链接 编辑

参考文献 编辑

  1. ^ P.-N. Tan, M. Steinbach & V. Kumar, "Introduction to Data Mining", , Addison-Wesley (2005), ISBN 0-321-32136-7, chapter 8; page 500.
  2. ^ Ochiai A. Zoogeographical studies on the soleoid fishes found Japan and its neighboring regions. II // Bull. Jap. Soc. sci. Fish. 1957. V. 22. № 9. P. 526-530.
  3. ^ Barkman J.J. Phytosociology and ecology of cryptogamic epiphytes, including a taxonomic survey and description of their vegetation units in Europe. – Assen. Van Gorcum. 1958. 628 p.

余弦相似性, 通过测量两个向量的夹角的余弦值来度量它们之间的相似性, 0度角的余弦值是1, 而其他任何角度的余弦值都不大于1, 并且其最小值是, 从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向, 两个向量有相同的指向时, 余弦相似度的值为1, 两个向量夹角为90, 余弦相似度的值为0, 两个向量指向完全相反的方向时, 余弦相似度的值为, 這結果是與向量的長度無關的, 仅仅與向量的指向方向相關, 余弦相似度通常用于正空間, 因此給出的值为0到1之间, 注意這上下界对任何维度的向量空間中都適用, 而且. 余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性 0度角的余弦值是1 而其他任何角度的余弦值都不大于1 并且其最小值是 1 从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向 两个向量有相同的指向时 余弦相似度的值为1 两个向量夹角为90 时 余弦相似度的值为0 两个向量指向完全相反的方向时 余弦相似度的值为 1 這結果是與向量的長度無關的 仅仅與向量的指向方向相關 余弦相似度通常用于正空間 因此給出的值为0到1之间 注意這上下界对任何维度的向量空間中都適用 而且余弦相似性最常用於高维正空间 例如在信息检索中 每个词項被賦予不同的維度 而一个文档由一个向量表示 其各個維度上的值對應于該词項在文档中出现的频率 余弦相似度因此可以给出两篇文档在其主题方面的相似度 另外 它通常用于文本挖掘中的文件比较 此外 在数据挖掘领域中 會用到它来度量集群内部的凝聚力 1 目录 1 定义 1 1 角相似性 1 2 與 Tanimoto 系数的混淆 1 3 Ochiai系数 2 另见 3 外部链接 4 参考文献定义 编辑两个向量间的余弦值可以通过使用欧几里得点积公式求出 a b a b cos 8 displaystyle mathbf a cdot mathbf b left mathbf a right left mathbf b right cos theta nbsp 給定两个属性向量 A 和B 其余弦相似性8由点积和向量長度給出 如下所示 similarity cos 8 A B A B i 1 n A i B i i 1 n A i 2 i 1 n B i 2 displaystyle text similarity cos theta A cdot B over A B frac sum limits i 1 n A i times B i sqrt sum limits i 1 n A i 2 times sqrt sum limits i 1 n B i 2 nbsp 這裡的A i displaystyle A i nbsp 和B i displaystyle B i nbsp 分別代表向量A displaystyle A nbsp 和B displaystyle B nbsp 的各分量 給出的相似性范围从 1到1 1意味着两个向量指向的方向正好截然相反 1表示它们的指向是完全相同的 0通常表示它们之间是独立的 而在这之间的值则表示中間的相似性或相异性 对于文本匹配 属性向量A 和B 通常是文档中的词频向量 余弦相似性 可以被看作是在比较過程中把文件长度正規化的方法 在信息检索的情况下 由于一个词的频率 TF IDF权 不能为负数 所以这两个文档的余弦相似性范围从0到1 并且 两个词的频率向量之间的角度不能大于90 角相似性 编辑 余弦相似性 一詞有时也被用来表示另一個系数 儘管最常见的是像上述定义那样的 透過使用相同計算方式得到的相似性 向量之间的规范化角度可以作为一个范围在 0 1 上的有界相似性函数 從上述定义的相似性计算如下 1 cos 1 similarity p displaystyle 1 left frac cos 1 text similarity pi right nbsp 這式子適用於向量系数可以為正或負的情況 或者 用以下式子計算 1 2 cos 1 similarity p displaystyle 1 left frac 2 cdot cos 1 text similarity pi right nbsp 这式子適用於向量系数总為正的情況 虽然 余弦相似性 一词有時會用來表示這個角距离 但實際上很少這樣說 因為角度的餘弦值只是作为一种计算角度的简便方法而被用到 本身并不是意思的一部分 角相似系数的优点是 当作为一个差异系数 从1减去它 时 产生的函數是一个嚴格距离度量 而對於第一種意義的 余弦相似性 則不然 然而 对于大多数的用途 这不是一个重要的性質 若对于某些情況下 只有一组向量之間的相似性或距离的相对顺序是重要的 那么不管是使用哪個函数 所得出的顺序都是一樣的 與 Tanimoto 系数的混淆 编辑 有时 余弦相似性會跟一種特殊形式的 有著类似代数形式的相似系数相混淆 T A B A B A 2 B 2 A B displaystyle T A B A cdot B over A 2 B 2 A cdot B nbsp 事实上 这个代数形式是首先被Tanimoto定义 作為在所比較集合由位元向量表示時计算其Jaccard系数的方法 虽然這公式也可以扩展到向量 它具有和余弦相似性頗為不同的性质 并且除了形式相似外便沒有什麼關係 Ochiai系数 编辑 这个系数在生物学中也叫Ochiai系数 或Ochiai Barkman系数 2 3 K n A B n A n B displaystyle K frac n A cap B sqrt n A times n B nbsp 這裡A displaystyle A nbsp 和B displaystyle B nbsp 是集合 n A displaystyle n A nbsp 是A displaystyle A nbsp 的元素個數 如果集合由位元向量所代表 那麼可看到Ochiai系数跟餘弦相似性是等同的 另见 编辑Sorensen相似性指數 汉明距离 相關 Dice系数 Jaccard指数 SimRank 信息检索外部链接 编辑加权的余弦措施 页面存档备份 存于互联网档案馆 http www miislita com information retrieval tutorial cosine similarity tutorial html Cosim 页面存档备份 存于互联网档案馆 参考文献 编辑 P N Tan M Steinbach amp V Kumar Introduction to Data Mining Addison Wesley 2005 ISBN 0 321 32136 7 chapter 8 page 500 Ochiai A Zoogeographical studies on the soleoid fishes found Japan and its neighboring regions II Bull Jap Soc sci Fish 1957 V 22 9 P 526 530 Barkman J J Phytosociology and ecology of cryptogamic epiphytes including a taxonomic survey and description of their vegetation units in Europe Assen Van Gorcum 1958 628 p 取自 https zh wikipedia org w index php title 余弦相似性 amp oldid 69158102, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。