斷詞(Word Segmentation)

閩南語辭典 = 型音辭典(2)
閩南語辭典.加詞(拆文分析器.對齊詞物件('阿媠', 'a1-sui2'))
閩南語辭典.加詞(拆文分析器.對齊詞物件('愛 ', 'ai3'))
閩南語辭典.加詞(拆文分析器.對齊詞物件('我', 'gua2'))
閩南語辭典.加詞(拆文分析器.對齊詞物件('我', 'ngoo2'))
閩南語語言模型 = KenLM語言模型('我愛阿媠.arpa')

閩南語語句 = '我愛阿媠'

處理減號 = 文章粗胚.建立物件語句前處理減號(臺灣閩南語羅馬字拼音, 閩南語語句)
斷詞的章物件 = (
    拆文分析器.建立章物件(處理減號)
    .轉音(臺灣閩南語羅馬字拼音)
    .揣詞(拄好長度辭典揣詞, 閩南語辭典)
    .(語言模型揀集內組, 閩南語語言模型)
)

漢語有漢字佮音標兩種表示法,而且漢字袂親像南島語、英語會用空白共詞分開。所以斷詞是針對漢語處理的技術

  • 做法

    • 南島語

      • 沒斷詞問題,本來就斷好了

    • 閩南語和客語

      • 長詞優先

      • 用語言模型選

    • 華語

      • 中研院斷詞系統

  • 需要語料

    • 閩南語/客語辭典

母語斷詞

部份漢語語料是漢字佮羅馬字混雜,為了讓語料能更一致,斷詞有兩種方法

兩步斷詞

先用辭典切出對應的斷點,才閣揀出其中一個當結果

a='11'

函式定義

    def 揣詞(self, 揣詞方法, *參數陣列, **參數物件):
    def (self, 揀集內組方法, *參數陣列, **參數物件):

直接斷詞

仝款用辭典佮語言模型,辭典語言模型斷詞會試逐種組合,毋過速度較慢