常見情境

白話字臺羅轉換

>>> from 臺灣言語工具.解析整理.拆文分析器 import 拆文分析器
>>> from 臺灣言語工具.音標系統.閩南語.臺灣閩南語羅馬字拼音相容教會羅馬字音標 import 臺灣閩南語羅馬字拼音相容教會羅馬字音標
>>> from 臺灣言語工具.音標系統.閩南語.臺灣閩南語羅馬字拼音 import 臺灣閩南語羅馬字拼音
>>> from 臺灣言語工具.基本物件.公用變數 import 分字符號
>>> from 臺灣言語工具.基本物件.公用變數 import 分詞符號
>>> 
>>> 臺羅 = 'Pe̍h-uē-jī tī tsia'
>>> 白話字物件 = (
...     拆文分析器.建立句物件(臺羅)
...     .轉音(臺灣閩南語羅馬字拼音, '轉白話字')
... )
>>> print(白話字物件.看語句())
Pe̍h-oē-jī tī chia
>>>
>>> 白話字 = 'Pe̍h-oē-jī tī chia'
>>> 臺羅物件 = (
...     拆文分析器.建立句物件(白話字)
...     .轉音(臺灣閩南語羅馬字拼音相容教會羅馬字音標)  # 先全部轉做臺羅數字調
...     .轉音(臺灣閩南語羅馬字拼音, '轉閏號調')  # 才閣轉做臺羅閏號調,調號佇韻面頂
... )
>>> print(臺羅物件.看語句())
pe̍h-uē-jī tī tsia

台羅調號數字調轉換

>>> from 臺灣言語工具.解析整理.拆文分析器 import 拆文分析器
>>> from 臺灣言語工具.音標系統.閩南語.臺灣閩南語羅馬字拼音 import 臺灣閩南語羅馬字拼音
>>> 
>>> 台羅 = 'Tiān-náu mā ē kóng Tâi-gí!'
>>> 台羅物件 = 拆文分析器.建立句物件(台羅)
>>> 
>>> 台羅物件.轉音(臺灣閩南語羅馬字拼音).看語句()
tian7-nau2 ma7 e7 kong2 tai5-gi2!
>>> 
>>> 數字調 = 'tian7-nau2 ma7 e7 kong2 tai5-gi2!'
>>> 數字調物件 = 拆文分析器.建立句物件(數字調)
>>> 數字調物件.轉音(臺灣閩南語羅馬字拼音, '轉調符').看語句()
'tiān-náu mā ē kóng tâi-gí!'

通用拼音轉臺羅

from 臺灣言語工具.解析整理.拆文分析器 import 拆文分析器
from 臺灣言語工具.音標系統.閩南語.通用拼音音標 import 通用拼音音標

通用組物件 = 拆文分析器.建立句物件('臺語語言來講古', 'dai5-qi4 qi4-qen5 lai5 gong2-go4')
臺羅組物件 = 通用組物件.轉音(通用拼音音標)  # 會轉成臺羅數字調音標
print(臺羅組物件.看型())  # 臺語語言來講古
print(臺羅組物件.看音())  # tai5-gi2 gi2-gian5 lai5 kong7-koo2

照羅馬字來斷詞、斷字

>>> from 臺灣言語工具.解析整理.拆文分析器 import 拆文分析器
>>> from 臺灣言語工具.音標系統.閩南語.臺灣閩南語羅馬字拼音 import 臺灣閩南語羅馬字拼音
>>> 
>>> 台羅 = 'Tiān-náu mā ē kóng Tâi-gí!'
>>> 漢字 = '電腦mā會講台語!'
>>> 台羅物件 = 拆文分析器.建立句物件(漢字, 台羅)
>>> 
>>> for  in 台羅物件.網出詞物件():
...     print(.看語句(), '|', .看音())
... 
電腦 | Tiān-náu
mā | mā
會 | ē
講 | kóng
台語 | Tâi-gí
! | !
>>>
>>> for  in 台羅物件.篩出字物件():
...     print(.看語句(), '|', .看音())
... 
電 | Tiān
腦 | náu
mā | mā
會 | ē
講 | kóng
台 | Tâi
語 | gí
! | !

# 漢字羅馬字字數bô-kâng會擲錯誤
>>> 漢字 = '電腦mā會曉講台語!' 
>>> 台羅 = 'Tiān-náu mā ē kóng Tâi-gí!'  # 漢字比羅馬字加一字
>>> 台羅物件 = 拆文分析器.建立句物件(漢字, 台羅)
Traceback (most recent call last):
臺灣言語工具.解析整理.解析錯誤.解析錯誤: 詞組內底的型「電腦mā會曉講台語!」比音「Tiān-náu mā ē kóng Tâi-gí!」濟!
配對結果:[詞:[字:電 Tiān, 字:腦 náu], 詞:[字:mā mā], 詞:[字:會 ē], 詞:[字:曉 kóng], 詞:[字:講 Tâi, 字:台 gí], 詞:[字:語 !]]

查辭典、斷詞、補漢字、補羅馬字

from 臺灣言語工具.解析整理.拆文分析器 import 拆文分析器
from 臺灣言語工具.辭典.型音辭典 import 型音辭典
from 臺灣言語工具.語言模型.實際語言模型 import 實際語言模型
from 臺灣言語工具.斷詞.拄好長度辭典揣詞 import 拄好長度辭典揣詞
from 臺灣言語工具.斷詞.語言模型揀集內組 import 語言模型揀集內組

辭典 = 型音辭典(4)  # 一个詞上濟四个字,為著長詞演算法
辭典.加詞(拆文分析器.建立詞物件('我', 'gua2'))
辭典.加詞(拆文分析器.建立詞物件('我', 'ngoo2'))
辭典.加詞(拆文分析器.建立詞物件('的', 'e5'))
辭典.加詞(拆文分析器.建立詞物件('豬仔', 'ti1-a2'))

語言模型 = 實際語言模型(2)  # 參考前後文,連紲2个詞為單位(bi-grams)
語言模型.(拆文分析器.建立句物件('我的', 'gua2 e5'))  # 予`gua2`的機率比`ngoo2`的機率懸

# from 臺灣言語工具.語言模型.KenLM語言模型 import KenLM語言模型
# 語言模型 = KenLM語言模型('我的.arpa')

揣詞結果物件 = (
    拆文分析器.建立句物件('我e5豬仔')
    .揣詞(拄好長度辭典揣詞, 辭典)  # 斷詞的演算法
    .(語言模型揀集內組, 語言模型)  # 揀詞的演算法
)
print(揣詞結果物件.看型())  # 我的豬仔
print(揣詞結果物件.看音())  # gua2 e5 ti1-a2

檢查音標有合法無

from 臺灣言語工具.解析整理.拆文分析器 import 拆文分析器
from 臺灣言語工具.音標系統.閩南語.臺灣閩南語羅馬字拼音 import 臺灣閩南語羅馬字拼音

音標 = 臺灣閩南語羅馬字拼音相容教會羅馬字音標('pe̍h')
拆文分析器.建立句物件('peh8', 'peh8').音標敢著(臺灣閩南語羅馬字拼音)  # True
拆文分析器.建立句物件('XXX', 'XXX').音標敢著(臺灣閩南語羅馬字拼音)  # False

目前支援的音標系統

  • 台語/閩南語

    • 臺灣閩南語羅馬字拼音(臺羅)

    • 教會羅馬字音標(白話字)

    • 臺灣閩南語羅馬字拼音相容教會羅馬字音標

    • 通用拼音音標

    • 方音符號吳守禮改良式

    • 臺灣語言音標(TLPA)

  • 客家話

    • 臺灣客家話拼音

  • 官話

    • 官話注音符號