# 斷詞（Word Segmentation）
```python3
閩南語辭典 = 型音辭典(2)
閩南語辭典.加詞(拆文分析器.對齊詞物件('阿媠', 'a1-sui2'))
閩南語辭典.加詞(拆文分析器.對齊詞物件('愛 ', 'ai3'))
閩南語辭典.加詞(拆文分析器.對齊詞物件('我', 'gua2'))
閩南語辭典.加詞(拆文分析器.對齊詞物件('我', 'ngoo2'))
閩南語語言模型 = KenLM語言模型('我愛阿媠.arpa')

閩南語語句 = '我愛阿媠'

處理減號 = 文章粗胚.建立物件語句前處理減號(臺灣閩南語羅馬字拼音, 閩南語語句)
斷詞的章物件 = (
    拆文分析器.建立章物件(處理減號)
    .轉音(臺灣閩南語羅馬字拼音)
    .揣詞(拄好長度辭典揣詞, 閩南語辭典)
    .揀(語言模型揀集內組, 閩南語語言模型)
)
```

漢語有漢字佮音標兩種表示法，而且漢字袂親像南島語、英語會用空白共詞分開。所以斷詞是針對漢語處理的技術

* 做法
  * 南島語
    *  沒斷詞問題，本來就斷好了
  * 閩南語和客語
    *  長詞優先
    *  用語言模型選
  * 華語
    *  中研院斷詞系統
* 需要語料
  * 閩南語/客語辭典
  

## 母語斷詞
部份漢語語料是漢字佮羅馬字混雜，為了讓語料能更一致，斷詞有兩種方法

### 兩步斷詞
先用辭典切出對應的斷點，才閣揀出其中一個當結果
```python3
a='11'
```

#### 函式定義
```python3
    def 揣詞(self, 揣詞方法, *參數陣列, **參數物件):
    def 揀(self, 揀集內組方法, *參數陣列, **參數物件):
```

### 直接斷詞
仝款用辭典佮語言模型，`辭典語言模型斷詞`會試逐種組合，毋過速度較慢