斷詞（Word Segmentation）¶

閩南語辭典 = 型音辭典(2)
閩南語辭典.加詞(拆文分析器.對齊詞物件('阿媠', 'a1-sui2'))
閩南語辭典.加詞(拆文分析器.對齊詞物件('愛 ', 'ai3'))
閩南語辭典.加詞(拆文分析器.對齊詞物件('我', 'gua2'))
閩南語辭典.加詞(拆文分析器.對齊詞物件('我', 'ngoo2'))
閩南語語言模型 = KenLM語言模型('我愛阿媠.arpa')

閩南語語句 = '我愛阿媠'

處理減號 = 文章粗胚.建立物件語句前處理減號(臺灣閩南語羅馬字拼音, 閩南語語句)
斷詞的章物件 = (
    拆文分析器.建立章物件(處理減號)
    .轉音(臺灣閩南語羅馬字拼音)
    .揣詞(拄好長度辭典揣詞, 閩南語辭典)
    .揀(語言模型揀集內組, 閩南語語言模型)
)

漢語有漢字佮音標兩種表示法，而且漢字袂親像南島語、英語會用空白共詞分開。所以斷詞是針對漢語處理的技術

做法
- 南島語
  - 沒斷詞問題，本來就斷好了
- 閩南語和客語
  - 長詞優先
  - 用語言模型選
- 華語
  - 中研院斷詞系統
需要語料
- 閩南語/客語辭典

母語斷詞¶

部份漢語語料是漢字佮羅馬字混雜，為了讓語料能更一致，斷詞有兩種方法

兩步斷詞¶

先用辭典切出對應的斷點，才閣揀出其中一個當結果

a='11'

函式定義¶

    def 揣詞(self, 揣詞方法, *參數陣列, **參數物件):
    def 揀(self, 揀集內組方法, *參數陣列, **參數物件):

直接斷詞¶

仝款用辭典佮語言模型，辭典語言模型斷詞會試逐種組合，毋過速度較慢