fbpx
维基百科

齊夫定律

齐夫定律(英語:Zipf's lawIPA/ˈzɪf/)是由哈佛大學語言學家喬治·金斯利·齊夫英语George Kingsley Zipf于1949年发表的实验定律。它可以表述为:在自然语言語料庫裡,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与冪定律概率分布有关的事物的参考。

齐夫定律
概率质量函數

横纵坐标均为对数比例下,齐夫定律的概率质量函数的图像,其中N = 10。横坐标是指数k 。(注意,函数仅在k为整数时有定义,图上的连线不代表函数连续。)
累積分布函數

横纵坐标均为对数比例下,齐夫定律的累计分布函数的图像,其中N = 10。横坐标是指数k 。(注意,函数仅在k为整数时有定义,图上的连线不代表函数连续。)
参数 (实数)
(正整数)
值域
概率质量函数
累積分布函數
期望值
眾數
矩生成函数
特徵函数

例子 编辑

最简单的齐夫定律的例子是“1/f function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

布朗语料库英语Brown Corpus中,“the”、“of”、“and”是出現頻率最前的三個單詞,其出現的頻數分別為69971次、36411次、28852次,大約佔整個語料庫100萬個單詞中的7%、3.6%、2.9%,其比例約為6:3:2。大約佔整個語料庫的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135個字彙就佔了Brown語料庫的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

遵循该定律的现象 编辑

  • 英文单词或中文汉字的出现频率:不仅适用于语料全体,也适用于单独的一篇文章
  • 网页访问频率
  • 城镇人口城镇等级的关系
  • 收入前3%的人的收入
  • 地震震级
  • 固体破碎时的碎片大小

參見 编辑

延伸閱讀 编辑

主要:

次要:

  • Lada Adamic. Zipf, Power-laws, and Pareto - a ranking tutorial. http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html(页面存档备份,存于互联网档案馆
  • Alexander Gelbukh and Grigori Sidorov (2001) "Zipf and Heaps Laws’ Coefficients Depend on Language" (页面存档备份,存于互联网档案馆). Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18–24, 2001, Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, ISBN 3-540-41687-0, Springer-Verlag: 332–335.
  • Damián H. Zanette (2006) "Zipf's law and the creation of musical context," Musicae Scientiae 10: 3-18.
  • Kali R. (2003) "The city as a giant component: a random graph approach to Zipf's law," Applied Economics Letters 10: 717-720(4)
  • Gabaix, Xavier. Zipf's Law for Cities: An Explanation (PDF). Quarterly Journal of Economics. August 1999, 114 (3): 739–67 [2014-02-05]. ISSN 0033-5533. doi:10.1162/003355399556133. (原始内容 (PDF)于2021-02-24). 
  • Axtell, Robert L; Zipf distribution of US firm sizes (页面存档备份,存于互联网档案馆), Science, 293, 5536, 1818, 2001, American Association for the Advancement of Science

外部連結 编辑

  • Steven, Strogatz. Guest Column: Math and the City. The New York Times. 2009-05-29 [2009-05-29]. (原始内容于2015-09-27). —An article on Zipf's law applied to city populations
  • Seeing Around Corners (Artificial societies turn up Zipf's law) (页面存档备份,存于互联网档案馆
  • PlanetMath article on Zipf's law(页面存档备份,存于互联网档案馆
  • Distributions de type "fractal parabolique" dans la Nature (French, with English summary)(页面存档备份,存于互联网档案馆
  • An analysis of income distribution (页面存档备份,存于互联网档案馆
  • Citations and the Zipf–Mandelbrot's law (页面存档备份,存于互联网档案馆
  • Zipf's Law for U.S. Cities (页面存档备份,存于互联网档案馆) by Fiona Maclachlan, Wolfram Demonstrations Project.
  • 埃里克·韦斯坦因. Zipf's Law. MathWorld. 
  • Zipf's Law examples and modelling (1985)
  • Complex systems: Unzipping Zipf's law (2011) (页面存档备份,存于互联网档案馆
  • Benford’s law, Zipf’s law, and the Pareto distribution (页面存档备份,存于互联网档案馆) by Terence Tao.

齊夫定律, 齐夫定律, 英語, zipf, 是由哈佛大學的語言學家喬治, 金斯利, 齊夫, 英语, george, kingsley, zipf, 于1949年发表的实验定律, 它可以表述为, 在自然语言的語料庫裡, 一个单词出现的频率与它在频率表里的排名成反比, 所以, 频率最高的单词出现的频率大约是出现频率第二位的单词的2倍, 而出现频率第二位的单词则是出现频率第四位的单词的2倍, 这个定律被作为任何与冪定律概率分布有关的事物的参考, 齐夫定律概率质量函數, 横纵坐标均为对数比例下, 齐夫定律的概率质量函数的图. 齐夫定律 英語 Zipf s law IPA ˈ z ɪ f 是由哈佛大學的語言學家喬治 金斯利 齊夫 英语 George Kingsley Zipf 于1949年发表的实验定律 它可以表述为 在自然语言的語料庫裡 一个单词出现的频率与它在频率表里的排名成反比 所以 频率最高的单词出现的频率大约是出现频率第二位的单词的2倍 而出现频率第二位的单词则是出现频率第四位的单词的2倍 这个定律被作为任何与冪定律概率分布有关的事物的参考 齐夫定律概率质量函數 横纵坐标均为对数比例下 齐夫定律的概率质量函数的图像 其中N 10 横坐标是指数k 注意 函数仅在k为整数时有定义 图上的连线不代表函数连续 累積分布函數 横纵坐标均为对数比例下 齐夫定律的累计分布函数的图像 其中N 10 横坐标是指数k 注意 函数仅在k为整数时有定义 图上的连线不代表函数连续 参数s gt 0 displaystyle s gt 0 实数 N 1 2 3 displaystyle N in 1 2 3 ldots 正整数 值域k 1 2 N displaystyle k in 1 2 ldots N 概率质量函数1 k s H N s displaystyle frac 1 k s H N s 累積分布函數H k s H N s displaystyle frac H k s H N s 期望值H N s 1 H N s displaystyle frac H N s 1 H N s 眾數1 displaystyle 1 熵s H N s k 1 N ln k k s ln H N s displaystyle frac s H N s sum k 1 N frac ln k k s ln H N s 矩生成函数1 H N s n 1 N e n t n s displaystyle frac 1 H N s sum n 1 N frac e nt n s 特徵函数1 H N s n 1 N e i n t n s displaystyle frac 1 H N s sum n 1 N frac e int n s 目录 1 例子 2 遵循该定律的现象 3 參見 4 延伸閱讀 5 外部連結例子 编辑最简单的齐夫定律的例子是 1 f function 给出一组齐夫分布的频率 按照从最常见到非常见排列 第二常见的频率是最常见频率的出现次数的 第三常见的频率是最常见的频率的1 3 第n常见的频率是最常见频率出现次数的1 n 然而 这并不精确 因为所有的项必须出现一个整数次数 一个单词不可能出现2 5次 在布朗语料库 英语 Brown Corpus 中 the of and 是出現頻率最前的三個單詞 其出現的頻數分別為69971次 36411次 28852次 大約佔整個語料庫100萬個單詞中的7 3 6 2 9 其比例約為6 3 2 大約佔整個語料庫的7 100万单词中出现69971次 满足齐夫定律中的描述 仅仅前135個字彙就佔了Brown語料庫的一半 齐夫定律是一个实验定律 而非理论定律 可以在很多非语言学排名中被观察到 例如不同国家中城市的数量 公司的规模 收入排名等 但它的起因是一个争论的焦点 齐夫定律很容易用点阵图观察 坐标分别为排名和频率的对数 log 比如 the 用上述表述可以描述为x log 1 y log 69971 的点 如果所有的点接近一条直线 那么它就遵循齐夫定律 遵循该定律的现象 编辑英文单词或中文汉字的出现频率 不仅适用于语料全体 也适用于单独的一篇文章 网页访问频率 城镇人口与城镇等级的关系 收入前3 的人的收入 地震震级 固体破碎时的碎片大小參見 编辑經驗公式 词频效应延伸閱讀 编辑主要 George K Zipf 1949 Human Behavior and the Principle of Least Effort Addison Wesley George K Zipf 1935 The Psychobiology of Language Houghton Mifflin see citations at http citeseer ist psu edu context 64879 0 次要 Lada Adamic Zipf Power laws and Pareto a ranking tutorial http www hpl hp com research idl papers ranking ranking html 页面存档备份 存于互联网档案馆 Alexander Gelbukh and Grigori Sidorov 2001 Zipf and Heaps Laws Coefficients Depend on Language 页面存档备份 存于互联网档案馆 Proc CICLing 2001 Conference on Intelligent Text Processing and Computational Linguistics February 18 24 2001 Mexico City Lecture Notes in Computer Science N 2004 ISSN 0302 9743 ISBN 3 540 41687 0 Springer Verlag 332 335 Damian H Zanette 2006 Zipf s law and the creation of musical context Musicae Scientiae 10 3 18 Kali R 2003 The city as a giant component a random graph approach to Zipf s law Applied Economics Letters 10 717 720 4 Gabaix Xavier Zipf s Law for Cities An Explanation PDF Quarterly Journal of Economics August 1999 114 3 739 67 2014 02 05 ISSN 0033 5533 doi 10 1162 003355399556133 原始内容存档 PDF 于2021 02 24 Axtell Robert L Zipf distribution of US firm sizes 页面存档备份 存于互联网档案馆 Science 293 5536 1818 2001 American Association for the Advancement of Science外部連結 编辑维基共享资源中相关的多媒体资源 齊夫定律Steven Strogatz Guest Column Math and the City The New York Times 2009 05 29 2009 05 29 原始内容存档于2015 09 27 An article on Zipf s law applied to city populations Seeing Around Corners Artificial societies turn up Zipf s law 页面存档备份 存于互联网档案馆 PlanetMath article on Zipf s law 页面存档备份 存于互联网档案馆 Distributions de type fractal parabolique dans la Nature French with English summary 页面存档备份 存于互联网档案馆 An analysis of income distribution 页面存档备份 存于互联网档案馆 Zipf List of French words Zipf list for English French Spanish Italian Swedish Icelandic Latin Portuguese and Finnish from Gutenberg Project and online calculator to rank words in texts Citations and the Zipf Mandelbrot s law 页面存档备份 存于互联网档案馆 Zipf s Law for U S Cities 页面存档备份 存于互联网档案馆 by Fiona Maclachlan Wolfram Demonstrations Project 埃里克 韦斯坦因 Zipf s Law MathWorld Zipf s Law examples and modelling 1985 Complex systems Unzipping Zipf s law 2011 页面存档备份 存于互联网档案馆 Benford s law Zipf s law and the Pareto distribution 页面存档备份 存于互联网档案馆 by Terence Tao 取自 https zh wikipedia org w index php title 齊夫定律 amp oldid 78672392, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。