fbpx
维基百科

分詞書寫

中文分詞書寫(Chinese word-segmented writing),也稱分詞連寫詞式書寫,是指像英文拼音文字一樣,按書寫,在詞與詞之間留出空格[1]。例如以下的句子在和詞之間加上空格,就是中文分詞書寫的句子。

乒乓 球拍 賣完了。

分詞書寫可提高漢語閱讀和信息處理的效率。例如:傳統寫法“乒乓球拍賣完了。”有歧義,用分詞書寫可根據需要明確表達爲“乒乓 球拍 賣完了。”或“乒乓球 拍賣 完了。”[2]

歷史 编辑

中文和英文都曾經沒有標點沒有分詞書寫。現在英文等拉丁文字兩者都用上了。中文在1900年代初五四新文化运动前后引入了標點符號,但是單詞之間仍然沒有邊界記號,沒有分開來寫。[3]

在1950年代,中國語言學家曾討論過採用分詞書寫的建議,但沒有獲得通過。 [3]

1987年,陳立為在國際中文信息處理會議上再次提出中文分詞書寫的想法。 [4]

第一篇分詞書寫的中文文章的出現不晚於1998年,當時在中國的〈中文信息學報〉中發表了題為《也谈汉语书面语的分词问题——分词连写十大好处》的論文。[5] 全文(共七頁)分詞連寫,其摘要如下:

摘要: 单词 的 切分 对 现代 汉语 的 运用、研究 和 计算机 信息 处理 等 都 具有 相当 重要 的 意义。本文 阐述 书面 汉语 分词 连写 的 十 大 好处 , 并 讨论 一些 实施 方面 的 问题。文章 全文 分词 连写。 

2018年,英文維基學院發表了一篇題為"Word segmentation of Hanzi" (漢字分詞)的短文,其中文版全文分詞如下:[6]

历史上,中国古文 是 没有 标点符号的。读者 需要 付出 额外的 精力 专注于 断句,而且 稍有差池 便会 造成 误读。所谓 差之毫厘 失之千里。引入 标点符号 是 一次 重大的 文字改革,使得 汉字文本的 阅读效率 有了 很大的 提高。但 中文的 改革 才 刚刚 起步, 远未达到 尽善尽美的 程度。至少 在 阅读效率 方面 仍然 存在着 一个 显而易见的 障碍 - 断词 (汉字的 分词连写)。 

第一本分詞書寫的書籍是2000年出版的《語言 理論》。 [7]

漢字分詞書寫 编辑

中文通常是用漢字書寫的,所以中文分詞書寫主要是指漢字文本的分詞書寫。以下介紹分詞書寫的一些方法或依據。

以表意為主導 编辑

分詞書寫的主要目的是準確、清楚地表達作者的意思。 例如,傳統的非分詞句子 「美國會反對。」 有兩種可能的含意,分詞書寫可根據需要清楚表達爲 「 美國 會 反對。」(The US will oppose.) 或 「 美 國會 反對。」 (The US Congress opposed)。又如,「昨天我應用鋼筆簽名。」也有歧義,用分詞書寫可以表達為「昨天 我 應用 鋼筆 簽名。(做了) 」和「昨天 我 應 用 鋼筆 簽名。 (可能沒做)」。這種區別對法庭來說可能很重要。 作者應該根據自己的意思選擇正確的分詞方式,消除歧義。 [3]

使用詞典和語言知識 编辑

如果不能確定某個字串是否為合法單詞,作者可以在可靠的漢語词典或分詞語料庫中檢查其是否存在,例如現代漢語辭典重編國語辭典修訂本[8]和平衡語料庫[9]等。 或根據詞彙、詞法和句法知識檢查它是否是語言學上合格的單詞。 [10]

參考口語規則 编辑

在口語中,兩個單詞之間通常有或者可以有停頓,而單詞內音節之間一般不允許停頓。[11][12]

空格的寬度 编辑

兩個詞之間的間距設定為漢字寬度的一半比較合適,小於兩行之間的距離。 由於漢語詞的平均長度約為2個字,如果詞間空格是一個漢字的寬度,且大於行間距離,則頁面上的文字行會顯得分散,不緊湊。 更理想的做法是由電腦根據上下文環境做智能的動態調整,類似於MS Word的排版功能。[13]

專有名詞的標記 编辑

英文是用大寫字母來標記。漢字文本的專有名詞也應該有標記,例如用底線。[3] 事實上,某些中文聖經(例如現代標點和合本)已經這樣做了。例如:

7. 耶和華神用地上的塵土造人,將生氣吹在他鼻孔裏,他就成了有靈的活人,名叫亞當。8. 耶和華神在東方的伊甸立了一個園子,把所造的人安置在那裏。(創世記 2:7-8) [14]

拼音分詞书写 编辑

拼音通常用来给漢字注音,但是在初级汉语教学或对外汉语教学中有时也用拼音直接表达汉语,所以拼音的书写也是一种中文书写,同时还可以是汉字分词书写的重要参考。[15] 《漢語拼音正字法基本規則》是漢語拼音書寫和分詞的中國國家標準。其主要内容《5. 總則》摘錄如下:[16]

拼音正字法總則摘錄 编辑

5.1 拼寫普通話基本上以詞為書寫單位。例如: rén (人), pǎo (跑), hǎo (好), fúróng (芙蓉), māma (媽媽), diànshìjī (電視機), túshūguǎn (圖書館)。

5.2 表示一個整體概念的雙音節和三音節結構,連寫。例如: quánguó (全國), zǒulái (走來), dǎnxiǎo (膽小), duìbuqǐ (對不起), chīdexiāo (吃得消)。

5.3 四音節及四音節以上表示一個整體概念的名稱,按詞或語節(詞語內部由語音停頓而劃分成的片段)分寫,不能按詞或語節劃分的,全都連寫。例如: wúfèng gāngguǎn (無縫 鋼管), huánjìng bǎohù gūihuà (環境 保護 規劃), jīngtǐguǎn gōnglǜ fàngdàqì (晶體管 功率 放大器), yánjiūshēngyuàn (研究生院), hóngshízìhuì (紅十字會)。

5.4 單音節詞重疊,連寫;雙音節詞重疊,分寫。例如: rénrén (人人), niánnián (年年), yánjiū yánjiū (研究 研究), xuěbái xuěbái (雪白 雪白), tōnghóng tōnghóng (通紅 通紅)。

重疊並列即AABB式結構,連寫。例如: láilaiwǎngwǎng (來來往往), qīngqīngchǔchǔ (清清楚楚), fāngfāngmiànmiàn (方方面面)。

5.5 單音節前附成分(副、總、非、反、超、老、阿、可、無、半等)或單音節後附成分(子、兒、頭、性、者、員、家、手、化、們等)與其他詞語,連寫。例如: fùbùzhǎng (副部長), zǒnggōngchéngshī (總工程師), fùzǒnggōngchéngshī (副總工程師), zhuōzi (桌子), háizimen (孩子們)。

5.6 為了便於閱讀和理解,某些並列的詞、語素之間或某些縮略語當中可用連接號。例如: bā-jiǔ tiān (八-九 天), rén-jī duìhuà (人-機 對話), Jīng-Zàng Gāosù Gōnglù (京-藏 高速 公路)。

此外,還有一些其他方面的規則,請見該規範的原文。[17]

分词实例 编辑

下面是一個較長的分词书写例子。聯合國《世界人權宣言》中文版第一條 :[18]

人人生而自由,在尊严和权利上一律平等。他们赋有理性和良心,并应以兄弟关系的精神相对待。 

其拼音可分詞連寫為

Rénrén shēng ér zìyóu, zài zūnyán hé quánlì shàng yīlǜ píngděng. Tāmen fùyǒu lǐxìng hé liángxīn, bìng yīng yǐ xiōngdì guānxì de jīngshén xiāng duìdài. 

相應的,其漢字文本分詞書寫形式是

人人 生 而 自由,在 尊严 和 权利 上 一律 平等。 他们 赋有 理性 和 良心, 并 应 以 兄弟 关系 的 精神 相 对待。 

英文原文:[19]

All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood. 

評論 编辑

優點 编辑

中文分詞書寫的優點包括:[20]

  1. 有利於語言表達和理解。
  2. 有利於漢語教學。
  3. 有利於語言學研究。
  4. 有利於漢語詞彙的定義和應用。
  5. 有利於電腦自然語言處理。
  6. 有利於拼音與漢字的自動轉換。
  7. 有利於簡繁體漢字轉換。
  8. 有利於校對文章、防止錯字。
  9. 有利於文件排版。
  10. 有利於軟體的漢化或西化。
  11. 將分詞書寫的文本自動正確轉換爲非分詞形式容易,反之則難。
  12. 等等。

缺點 编辑

中文分詞書寫的缺點包括:[21]

  1. 需要(大約1/4)更多的(紙面)空間。
  2. 人們還不習慣這種書寫方式。
  3. 需要辨識每個單詞。
  4. 句子看起來不像沒有空格的傳統格式那麼整齊。
  5. 大多數中文單詞都是一兩個字長,即使不使用邊界標記,辨識也不困難。

計算機自動分詞 编辑

在分詞書寫普及之前,可用計算機技術來進行漢語文本自動分詞。 目前自動分詞的準確度已達到百分之九十几, 但仍需要人工校對, 而且永遠不會像作者親自分詞那麼可靠。 [22][23]

參見 编辑

參考資料 编辑

  1. ^ 陈, 力为 (陈力为). 汉语书面语的分词问题- - 一个有关全民的信息化问题. (中文信息学报). 1996,. 10 (1996) (1): 11–13. 
  2. ^ 张, 小衡 (张小衡). 也谈汉语书面语的分词问题——分词连写十大好处. 中文信息学报. 1998,. 12 (1998) (3): 57–63. 
  3. ^ 3.0 3.1 3.2 3.3 陈 1996,第12頁.
  4. ^ 陈, 力为 (陈力为). 当前中文信息处理 中的几个问题及其发展前景. 计算机世界(Chinese Computer World ). 1987, 21 (34). 
  5. ^ 张 1998,第57-63頁.
  6. ^ English-Chinese/Word segmentation of Hanzi - Wikiversity. 
  7. ^ 彭, 泽润 (彭泽润、李葆嘉 eds). 语言理论. 长沙: 中南大学出版社. 2000. ISBN 978-7-810-61342-2 (中文). 
  8. ^ 教育部《重編國語辭典修訂本》. 2021. 
  9. ^ http://asbc.iis.sinica.edu.tw/index_readme.htm
  10. ^ 张 1998,第61頁.
  11. ^ Haspelmath, Martin. The indeterminacy of word segmentation and the nature of morphology and syntax. Folia Linguistica. 2011, 45 (1). ISSN 0165-4004. S2CID 62789916. doi:10.1515/flin.2011.002. 
  12. ^ https://en.wikipedia.org/wiki/Word#Word_boundaries
  13. ^ 张 1998,第62頁.
  14. ^ 聯合聖經公會. 聖經(現代標點和合本). 香港: 浸信會出版社. 1998. ISBN 962-933-101-2 (中文). 
  15. ^ Arcodia, Giorgio (and Basciano, Bianca). Chinese Linguistics. Oxford: Oxford University Press. 2021: 84–85. ISBN 978-0-19-884784-7. 
  16. ^ 国家语委. 漢語拼音正字法基本規則 (PDF). 2012. 
  17. ^ 国家语委 2012.
  18. ^ Universal Declaration of Human Rights - Chinese, Mandarin (Simplified). unicode.org. 
  19. ^ https://www.un.org/en/about-us/universal-declaration-of-human-rights
  20. ^ 張 1998,第57-61頁.
  21. ^ 陳 1996,第12頁.
  22. ^ 张 1998,第57頁.
  23. ^ 劉, 開瑛 (劉開瑛). 中文文本自動分詞和標注. 北京: 商務印書館. 2021. ISBN 7-100-03068-4. 

外部連結 编辑

  • Chinese word-segmented writing (https://en.wikipedia.org/wiki/Chinese_word-segmented_writing#See_also)
  • Word boundaries (https://en.wikipedia.org/wiki/Word#Word_boundaries)
  • Text segmentation (https://en.wikipedia.org/wiki/Text_segmentation)
  • Chinese Word Segmentation. 

分詞書寫, 此條目包含指南或教學內容, 請藉由移除或重寫指南段落來改善條目, 或在討論頁提出討論, 此條目需要精通或熟悉相关主题的编者参与及协助编辑, 2023年12月9日, 請邀請適合的人士改善本条目, 更多的細節與詳情請參见討論頁, 中文, chinese, word, segmented, writing, 也稱分詞連寫或詞式書寫, 是指像英文等拼音文字一樣, 按詞書寫, 在詞與詞之間留出空格, 例如以下的句子在詞和詞之間加上空格, 就是中文的句子, 乒乓, 球拍, 賣完了, 可提高漢語閱讀和信息處理的效率,. 此條目包含指南或教學內容 請藉由移除或重寫指南段落來改善條目 或在討論頁提出討論 此條目需要精通或熟悉相关主题的编者参与及协助编辑 2023年12月9日 請邀請適合的人士改善本条目 更多的細節與詳情請參见討論頁 中文分詞書寫 Chinese word segmented writing 也稱分詞連寫或詞式書寫 是指像英文等拼音文字一樣 按詞書寫 在詞與詞之間留出空格 1 例如以下的句子在詞和詞之間加上空格 就是中文分詞書寫的句子 乒乓 球拍 賣完了 分詞書寫可提高漢語閱讀和信息處理的效率 例如 傳統寫法 乒乓球拍賣完了 有歧義 用分詞書寫可根據需要明確表達爲 乒乓 球拍 賣完了 或 乒乓球 拍賣 完了 2 目录 1 歷史 2 漢字分詞書寫 2 1 以表意為主導 2 2 使用詞典和語言知識 2 3 參考口語規則 2 4 空格的寬度 2 5 專有名詞的標記 3 拼音分詞书写 3 1 拼音正字法總則摘錄 3 2 分词实例 4 評論 4 1 優點 4 2 缺點 5 計算機自動分詞 6 參見 7 參考資料 8 外部連結歷史 编辑中文和英文都曾經沒有標點沒有分詞書寫 現在英文等拉丁文字兩者都用上了 中文在1900年代初五四新文化运动前后引入了標點符號 但是單詞之間仍然沒有邊界記號 沒有分開來寫 3 在1950年代 中國語言學家曾討論過採用分詞書寫的建議 但沒有獲得通過 3 1987年 陳立為在國際中文信息處理會議上再次提出中文分詞書寫的想法 4 第一篇分詞書寫的中文文章的出現不晚於1998年 當時在中國的 中文信息學報 中發表了題為 也谈汉语书面语的分词问题 分词连写十大好处 的論文 5 全文 共七頁 分詞連寫 其摘要如下 摘要 单词 的 切分 对 现代 汉语 的 运用 研究 和 计算机 信息 处理 等 都 具有 相当 重要 的 意义 本文 阐述 书面 汉语 分词 连写 的 十 大 好处 并 讨论 一些 实施 方面 的 问题 文章 全文 分词 连写 2018年 英文維基學院發表了一篇題為 Word segmentation of Hanzi 漢字分詞 的短文 其中文版全文分詞如下 6 历史上 中国古文 是 没有 标点符号的 读者 需要 付出 额外的 精力 专注于 断句 而且 稍有差池 便会 造成 误读 所谓 差之毫厘 失之千里 引入 标点符号 是 一次 重大的 文字改革 使得 汉字文本的 阅读效率 有了 很大的 提高 但 中文的 改革 才 刚刚 起步 远未达到 尽善尽美的 程度 至少 在 阅读效率 方面 仍然 存在着 一个 显而易见的 障碍 断词 汉字的 分词连写 第一本分詞書寫的書籍是2000年出版的 語言 理論 7 漢字分詞書寫 编辑中文通常是用漢字書寫的 所以中文分詞書寫主要是指漢字文本的分詞書寫 以下介紹分詞書寫的一些方法或依據 以表意為主導 编辑 分詞書寫的主要目的是準確 清楚地表達作者的意思 例如 傳統的非分詞句子 美國會反對 有兩種可能的含意 分詞書寫可根據需要清楚表達爲 美國 會 反對 The US will oppose 或 美 國會 反對 The US Congress opposed 又如 昨天我應用鋼筆簽名 也有歧義 用分詞書寫可以表達為 昨天 我 應用 鋼筆 簽名 做了 和 昨天 我 應 用 鋼筆 簽名 可能沒做 這種區別對法庭來說可能很重要 作者應該根據自己的意思選擇正確的分詞方式 消除歧義 3 使用詞典和語言知識 编辑 如果不能確定某個字串是否為合法單詞 作者可以在可靠的漢語词典或分詞語料庫中檢查其是否存在 例如現代漢語辭典 重編國語辭典修訂本 8 和平衡語料庫 9 等 或根據詞彙 詞法和句法知識檢查它是否是語言學上合格的單詞 10 參考口語規則 编辑 在口語中 兩個單詞之間通常有或者可以有停頓 而單詞內音節之間一般不允許停頓 11 12 空格的寬度 编辑 兩個詞之間的間距設定為漢字寬度的一半比較合適 小於兩行之間的距離 由於漢語詞的平均長度約為2個字 如果詞間空格是一個漢字的寬度 且大於行間距離 則頁面上的文字行會顯得分散 不緊湊 更理想的做法是由電腦根據上下文環境做智能的動態調整 類似於MS Word的排版功能 13 專有名詞的標記 编辑 英文是用大寫字母來標記 漢字文本的專有名詞也應該有標記 例如用底線 3 事實上 某些中文聖經 例如現代標點和合本 已經這樣做了 例如 7 耶和華神用地上的塵土造人 將生氣吹在他鼻孔裏 他就成了有靈的活人 名叫亞當 8 耶和華神在東方的伊甸立了一個園子 把所造的人安置在那裏 創世記 2 7 8 14 拼音分詞书写 编辑拼音通常用来给漢字注音 但是在初级汉语教学或对外汉语教学中有时也用拼音直接表达汉语 所以拼音的书写也是一种中文书写 同时还可以是汉字分词书写的重要参考 15 漢語拼音正字法基本規則 是漢語拼音書寫和分詞的中國國家標準 其主要内容 5 總則 摘錄如下 16 拼音正字法總則摘錄 编辑 5 1 拼寫普通話基本上以詞為書寫單位 例如 ren 人 pǎo 跑 hǎo 好 furong 芙蓉 mama 媽媽 dianshiji 電視機 tushuguǎn 圖書館 5 2 表示一個整體概念的雙音節和三音節結構 連寫 例如 quanguo 全國 zǒulai 走來 dǎnxiǎo 膽小 duibuqǐ 對不起 chidexiao 吃得消 5 3 四音節及四音節以上表示一個整體概念的名稱 按詞或語節 詞語內部由語音停頓而劃分成的片段 分寫 不能按詞或語節劃分的 全都連寫 例如 wufeng gangguǎn 無縫 鋼管 huanjing bǎohu guihua 環境 保護 規劃 jingtǐguǎn gōnglǜ fangdaqi 晶體管 功率 放大器 yanjiushengyuan 研究生院 hongshizihui 紅十字會 5 4 單音節詞重疊 連寫 雙音節詞重疊 分寫 例如 renren 人人 niannian 年年 yanjiu yanjiu 研究 研究 xuebai xuebai 雪白 雪白 tōnghong tōnghong 通紅 通紅 重疊並列即AABB式結構 連寫 例如 lailaiwǎngwǎng 來來往往 qingqingchǔchǔ 清清楚楚 fangfangmianmian 方方面面 5 5 單音節前附成分 副 總 非 反 超 老 阿 可 無 半等 或單音節後附成分 子 兒 頭 性 者 員 家 手 化 們等 與其他詞語 連寫 例如 fubuzhǎng 副部長 zǒnggōngchengshi 總工程師 fuzǒnggōngchengshi 副總工程師 zhuōzi 桌子 haizimen 孩子們 5 6 為了便於閱讀和理解 某些並列的詞 語素之間或某些縮略語當中可用連接號 例如 ba jiǔ tian 八 九 天 ren ji duihua 人 機 對話 Jing Zang Gaosu Gōnglu 京 藏 高速 公路 此外 還有一些其他方面的規則 請見該規範的原文 17 分词实例 编辑 下面是一個較長的分词书写例子 聯合國 世界人權宣言 中文版第一條 18 人人生而自由 在尊严和权利上一律平等 他们赋有理性和良心 并应以兄弟关系的精神相对待 其拼音可分詞連寫為 Renren sheng er ziyou zai zunyan he quanli shang yilǜ pingdeng Tamen fuyǒu lǐxing he liangxin bing ying yǐ xiōngdi guanxi de jingshen xiang duidai 相應的 其漢字文本分詞書寫形式是 人人 生 而 自由 在 尊严 和 权利 上 一律 平等 他们 赋有 理性 和 良心 并 应 以 兄弟 关系 的 精神 相 对待 英文原文 19 All human beings are born free and equal in dignity and rights They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood 評論 编辑優點 编辑 中文分詞書寫的優點包括 20 有利於語言表達和理解 有利於漢語教學 有利於語言學研究 有利於漢語詞彙的定義和應用 有利於電腦自然語言處理 有利於拼音與漢字的自動轉換 有利於簡繁體漢字轉換 有利於校對文章 防止錯字 有利於文件排版 有利於軟體的漢化或西化 將分詞書寫的文本自動正確轉換爲非分詞形式容易 反之則難 等等 缺點 编辑 中文分詞書寫的缺點包括 21 需要 大約1 4 更多的 紙面 空間 人們還不習慣這種書寫方式 需要辨識每個單詞 句子看起來不像沒有空格的傳統格式那麼整齊 大多數中文單詞都是一兩個字長 即使不使用邊界標記 辨識也不困難 計算機自動分詞 编辑在分詞書寫普及之前 可用計算機技術來進行漢語文本自動分詞 目前自動分詞的準確度已達到百分之九十几 但仍需要人工校對 而且永遠不會像作者親自分詞那麼可靠 22 23 參見 编辑中文書面語 漢語拼音參考資料 编辑 陈 力为 陈力为 汉语书面语的分词问题 一个有关全民的信息化问题 中文信息学报 1996 10 1996 1 11 13 张 小衡 张小衡 也谈汉语书面语的分词问题 分词连写十大好处 中文信息学报 1998 12 1998 3 57 63 3 0 3 1 3 2 3 3 陈 1996 第12頁 陈 力为 陈力为 当前中文信息处理 中的几个问题及其发展前景 计算机世界 Chinese Computer World 1987 21 34 张 1998 第57 63頁 English Chinese Word segmentation of Hanzi Wikiversity 彭 泽润 彭泽润 李葆嘉 eds 语言理论 长沙 中南大学出版社 2000 ISBN 978 7 810 61342 2 中文 教育部 重編國語辭典修訂本 2021 http asbc iis sinica edu tw index readme htm 张 1998 第61頁 Haspelmath Martin The indeterminacy of word segmentation and the nature of morphology and syntax Folia Linguistica 2011 45 1 ISSN 0165 4004 S2CID 62789916 doi 10 1515 flin 2011 002 https en wikipedia org wiki Word Word boundaries 张 1998 第62頁 聯合聖經公會 聖經 現代標點和合本 香港 浸信會出版社 1998 ISBN 962 933 101 2 中文 Arcodia Giorgio and Basciano Bianca Chinese Linguistics Oxford Oxford University Press 2021 84 85 ISBN 978 0 19 884784 7 国家语委 漢語拼音正字法基本規則 PDF 2012 国家语委 2012 Universal Declaration of Human Rights Chinese Mandarin Simplified unicode org https www un org en about us universal declaration of human rights 張 1998 第57 61頁 sfn error no target CITEREF張1998 help 陳 1996 第12頁 sfn error no target CITEREF陳1996 help 张 1998 第57頁 劉 開瑛 劉開瑛 中文文本自動分詞和標注 北京 商務印書館 2021 ISBN 7 100 03068 4 外部連結 编辑Chinese word segmented writing https en wikipedia org wiki Chinese word segmented writing See also Word boundaries https en wikipedia org wiki Word Word boundaries Text segmentation https en wikipedia org wiki Text segmentation Chinese Word Segmentation 取自 https zh wikipedia org w index php title 分詞書寫 amp oldid 80231545, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。