斷詞(Word Segmentation)¶
閩南語辭典 = 型音辭典(2)
閩南語辭典.加詞(拆文分析器.對齊詞物件('阿媠', 'a1-sui2'))
閩南語辭典.加詞(拆文分析器.對齊詞物件('愛 ', 'ai3'))
閩南語辭典.加詞(拆文分析器.對齊詞物件('我', 'gua2'))
閩南語辭典.加詞(拆文分析器.對齊詞物件('我', 'ngoo2'))
閩南語語言模型 = KenLM語言模型('我愛阿媠.arpa')
閩南語語句 = '我愛阿媠'
處理減號 = 文章粗胚.建立物件語句前處理減號(臺灣閩南語羅馬字拼音, 閩南語語句)
斷詞的章物件 = (
拆文分析器.建立章物件(處理減號)
.轉音(臺灣閩南語羅馬字拼音)
.揣詞(拄好長度辭典揣詞, 閩南語辭典)
.揀(語言模型揀集內組, 閩南語語言模型)
)
漢語有漢字佮音標兩種表示法,而且漢字袂親像南島語、英語會用空白共詞分開。所以斷詞是針對漢語處理的技術
做法
南島語
沒斷詞問題,本來就斷好了
閩南語和客語
長詞優先
用語言模型選
華語
中研院斷詞系統
需要語料
閩南語/客語辭典
母語斷詞¶
部份漢語語料是漢字佮羅馬字混雜,為了讓語料能更一致,斷詞有兩種方法
兩步斷詞¶
先用辭典切出對應的斷點,才閣揀出其中一個當結果
a='11'
函式定義¶
def 揣詞(self, 揣詞方法, *參數陣列, **參數物件):
def 揀(self, 揀集內組方法, *參數陣列, **參數物件):
直接斷詞¶
仝款用辭典佮語言模型,辭典語言模型斷詞
會試逐種組合,毋過速度較慢