fbpx
维基百科

独热

二進制 格雷碼 独热码
000 000 00000001
001 001 00000010
010 011 00000100
011 010 00001000
100 110 00010000
101 111 00100000
110 101 01000000
111 100 10000000

独热[1](英語:one-hot)在數位電路機器學習中被用來表示一種特殊的位元組或向量,該位元組或向量裏僅容許其中一位爲1,其他位都必須爲0[2]。其被稱爲独热因爲其中只能有一個1,若情況相反,只有一個0,其餘爲1,則稱爲独冷one-cold[3]。在統計學中,虚拟变量代表了類似的概念。

應用

有限狀態機

独热碼常常被用來表示一個有限狀態機狀態英语State (computer science)。如果使用二進制格雷碼來代表狀態,則需要用到解碼器才能得知該碼代表的狀態。使用独热码來代表狀態的話,則不需要解碼器,因爲若第 個位元爲1,就代表機器目前在第 個狀態。

一個有限狀態機的例子是由15個狀態構成的環狀計數器英语Ring counter。使用独热編碼來實現此狀態機的話,可以將15個正反器串聯在一起,每個正反器的Q輸出接到下一個正反器的D輸入,而第一個正反器的D輸入則是接到第15個的Q輸出,形成一個環狀。第一個正反器代表機器的第一個狀態,第二個正反器代表第二個狀態,依此類推。當機器被歸零重設時,第一個正反器的值爲1,其餘爲0。當一個時脈邊緣抵達正反器時,會將1推進到下一個正反器。依照這種方式,1可一步步推進到第15個正反器,亦即第15個狀態,再之後則重新回到第一個狀態。

位址解碼器英语Address decoder可以將二進制或格雷碼轉換成独热码,而優先編碼器則是作用相反。

與其他編碼的差異

優點
  • 決定狀態機目前狀態的時間成本低,因爲讀取一個正反器的時間成本固定。
  • 改變機器的狀態所需時間成本也是固定,因爲每次只需要改變兩個正反器的值。
  • 設計及設計變更容易。
  • 容易偵測出非法狀態。
  • 可以有效率地使用FPGA的大量正反器[4]

相較於其他編碼,使用独热码來實現狀態機通常可以達到更高的時脈頻率[4][5]

缺點
  • 比起其他編碼,需要更多的正反器,使得其在PAL裝置上不切實際。
  • 會有很多非法狀態存在[6]。這是由於 個正反器構成的計數器總共有 個狀態(每個正反器可以是0或1,所以總共 種可能狀態),但是合法狀態卻只有 個(即同一時間只允許一個正反器是1,其他必須爲0),所以總共會有 個可能的非法狀態。

自然語言處理

自然語言處理中,若有個字典或字庫裏有 個單字,則每個單字可以被一個 維的独热向量代表[7]。譬如若字庫裏僅有apple(蘋果)、banana(香蕉)以及pineapple(鳳梨)這三個單字,則他們各自的独热向量可以爲:

 

由於電腦無法理解非數字類的數據,独热編碼可以將類別性數據轉換成統一的數字格式,方便機器學習的演算法進行處理及計算。而轉換成固定維度的向量則方便機器學習演算法進行線性代數上的計算。另外由於一個独热向量中,絕大部分的數字都是0,所以若使用稀疏矩陣的資料結構,則可以節省電腦記憶體的使用量。

參見

參考文獻

  1. ^ 梁, 杰; 陈, 嘉豪; 张, 雪芹; 周, 悦; 林, 家骏. . 清华大学学报 (自然科学版). 2019, 59 (07): 523–529 [2022-05-22]. doi:10.16511/j.cnki.qhdxxb.2018.25.061. (原始内容存档于2022-05-31). 
  2. ^ Harris, David and Harris, Sarah. Digital design and computer architecture 2nd. San Francisco, Calif.: Morgan Kaufmann. : p.129. ISBN 978-0-12-394424-5. 
  3. ^ Event Extraction Based on Deep Learning in Food Hazard Arabic Texts. arXiv:2008.05014 . 
  4. ^ 4.0 4.1 Xilinx Inc. Appendix A Accelerate FPGA Macros with One-Hot Approach. HDL Synthesis for FPGAs Design Guide (PDF). 1995 [2019-09-09]. (原始内容 (PDF)于2020-05-15) (英语). 
  5. ^ Xilinx Inc. Section 3-13. Encoding State Machines. HDL Synthesis for FPGAs Design Guide (PDF). 1995 [2019-09-09]. (原始内容 (PDF)于2020-05-15) (英语). 
  6. ^ Cohen, Ben. Real Chip Design and Verification Using Verilog and VHDL. Palos Verdes Peninsula, CA, US: VhdlCohen Publishing. 2002: p.48. ISBN 0-9705394-2-8. 
  7. ^ Arnaud, Émilien; Elbattah, Mahmoud; Gignon, Maxime; Dequen, Gilles. . 2021 IEEE 9th International Conference on Healthcare Informatics (ICHI). Victoria, British Columbia: 548–553. 2021-08 [2022-05-22]. doi:10.1109/ICHI52183.2021.00103. (原始内容存档于2022-06-04). 

独热, 二進制, 格雷碼, 码000, 00000001001, 00000010010, 00000100011, 00001000100, 00010000101, 00100000110, 01000000111, 10000000, 英語, 在數位電路和機器學習中被用來表示一種特殊的位元組或向量, 該位元組或向量裏僅容許其中一位爲1, 其他位都必須爲0, 其被稱爲因爲其中只能有一個1, 若情況相反, 只有一個0, 其餘爲1, 則稱爲独冷, cold, 在統計學中, 虚拟变量代表了類似的概念, 目录, 應用,. 二進制 格雷碼 独热码000 000 00000001001 001 00000010010 011 00000100011 010 00001000100 110 00010000101 111 00100000110 101 01000000111 100 10000000独热 1 英語 one hot 在數位電路和機器學習中被用來表示一種特殊的位元組或向量 該位元組或向量裏僅容許其中一位爲1 其他位都必須爲0 2 其被稱爲独热因爲其中只能有一個1 若情況相反 只有一個0 其餘爲1 則稱爲独冷 one cold 3 在統計學中 虚拟变量代表了類似的概念 目录 1 應用 1 1 有限狀態機 1 1 1 與其他編碼的差異 1 1 1 1 優點 1 1 1 2 缺點 1 2 自然語言處理 2 參見 3 參考文獻應用 编辑有限狀態機 编辑 独热碼常常被用來表示一個有限狀態機的狀態 英语 State computer science 如果使用二進制或格雷碼來代表狀態 則需要用到解碼器才能得知該碼代表的狀態 使用独热码來代表狀態的話 則不需要解碼器 因爲若第n displaystyle n 個位元爲1 就代表機器目前在第n displaystyle n 個狀態 一個有限狀態機的例子是由15個狀態構成的環狀計數器 英语 Ring counter 使用独热編碼來實現此狀態機的話 可以將15個正反器串聯在一起 每個正反器的Q輸出接到下一個正反器的D輸入 而第一個正反器的D輸入則是接到第15個的Q輸出 形成一個環狀 第一個正反器代表機器的第一個狀態 第二個正反器代表第二個狀態 依此類推 當機器被歸零重設時 第一個正反器的值爲1 其餘爲0 當一個時脈邊緣抵達正反器時 會將1推進到下一個正反器 依照這種方式 1可一步步推進到第15個正反器 亦即第15個狀態 再之後則重新回到第一個狀態 位址解碼器 英语 Address decoder 可以將二進制或格雷碼轉換成独热码 而優先編碼器則是作用相反 與其他編碼的差異 编辑 優點 编辑 決定狀態機目前狀態的時間成本低 因爲讀取一個正反器的時間成本固定 改變機器的狀態所需時間成本也是固定 因爲每次只需要改變兩個正反器的值 設計及設計變更容易 容易偵測出非法狀態 可以有效率地使用FPGA的大量正反器 4 相較於其他編碼 使用独热码來實現狀態機通常可以達到更高的時脈頻率 4 5 缺點 编辑 比起其他編碼 需要更多的正反器 使得其在PAL裝置上不切實際 會有很多非法狀態存在 6 這是由於N displaystyle N 個正反器構成的計數器總共有2 N displaystyle 2 N 個狀態 每個正反器可以是0或1 所以總共2 N displaystyle 2 N 種可能狀態 但是合法狀態卻只有N displaystyle N 個 即同一時間只允許一個正反器是1 其他必須爲0 所以總共會有2 N N displaystyle 2 N N 個可能的非法狀態 自然語言處理 编辑 在自然語言處理中 若有個字典或字庫裏有N displaystyle N 個單字 則每個單字可以被一個N displaystyle N 維的独热向量代表 7 譬如若字庫裏僅有apple 蘋果 banana 香蕉 以及pineapple 鳳梨 這三個單字 則他們各自的独热向量可以爲 a p p l e 1 0 0 b a n a n a 0 1 0 p i n e a p p l e 0 0 1 displaystyle begin array ll apple amp 1 0 0 banana amp 0 1 0 pineapple amp 0 0 1 end array 由於電腦無法理解非數字類的數據 独热編碼可以將類別性數據轉換成統一的數字格式 方便機器學習的演算法進行處理及計算 而轉換成固定維度的向量則方便機器學習演算法進行線性代數上的計算 另外由於一個独热向量中 絕大部分的數字都是0 所以若使用稀疏矩陣的資料結構 則可以節省電腦記憶體的使用量 參見 编辑D正反器 一进制 唯一量化 异或门 译码器參考文獻 编辑 梁 杰 陈 嘉豪 张 雪芹 周 悦 林 家骏 基于独热编码和卷积神经网络的异常检测 清华大学学报 自然科学版 2019 59 07 523 529 2022 05 22 doi 10 16511 j cnki qhdxxb 2018 25 061 原始内容存档于2022 05 31 Harris David and Harris Sarah Digital design and computer architecture 2nd San Francisco Calif Morgan Kaufmann p 129 ISBN 978 0 12 394424 5 引文格式1维护 冗余文本 link Event Extraction Based on Deep Learning in Food Hazard Arabic Texts arXiv 2008 05014 4 0 4 1 Xilinx Inc Appendix A Accelerate FPGA Macros with One Hot Approach HDL Synthesis for FPGAs Design Guide PDF 1995 2019 09 09 原始内容存档 PDF 于2020 05 15 英语 Xilinx Inc Section 3 13 Encoding State Machines HDL Synthesis for FPGAs Design Guide PDF 1995 2019 09 09 原始内容存档 PDF 于2020 05 15 英语 Cohen Ben Real Chip Design and Verification Using Verilog and VHDL Palos Verdes Peninsula CA US VhdlCohen Publishing 2002 p 48 ISBN 0 9705394 2 8 引文格式1维护 冗余文本 link Arnaud Emilien Elbattah Mahmoud Gignon Maxime Dequen Gilles NLP Based Prediction of Medical Specialties at Hospital Admission Using Triage Notes 2021 IEEE 9th International Conference on Healthcare Informatics ICHI Victoria British Columbia 548 553 2021 08 2022 05 22 doi 10 1109 ICHI52183 2021 00103 原始内容存档于2022 06 04 取自 https zh wikipedia org w index php title 独热 amp oldid 72844767, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。