首页> 外文会议>Conference on Computational Linguistics and Speech Processing >中文轉客文文轉音系統中的客語斷詞處理之硏究
【24h】

中文轉客文文轉音系統中的客語斷詞處理之硏究

机译:中文转客文文转音系统中的客语断词处理之硏究

获取原文

摘要

語言(Language)是文化傳承與推廣的首要工具,尤其是少數族群的語言,如:台灣的客語或原住民語言。臺灣的客家族群約佔總人口七分之一,為閩南語語系外之第二大族群。根據近年來相關臺灣客語使用狀況調査報告指出,阻礙客語傳承之主因是:不太會講。由於台灣學習環境使然,導致連客籍家庭的學童亦少能以客語說話、交談,具有聽、說客語能力者逐年下降,能說客語的人口大量減少,台灣出現客語失聲,客家文化失傳之危機。我們為了建置線上客語的數位學習系統,已開發出以大量合成單元為基礎的客語四縣腔及海陸腔的中文轉客文的文轉音系統(Hakka Text-to-Speech, HTTS),以及相關的應用系統,如:線上國客雙語有聲詞典、國客雙語有聲地圖社群系統等。我們的系統,主要是提供不太會講客語或不會講客語的使用者來使用、學習客語。因此系統的輸入為「中文文句」,輸出為「客語語音」。這樣的操作設計,學習者或使用者能不需額外再學習客語輸入法、客語拼音,只需使用最熟悉的中文,即可透過本系統來學習客語。為了更進一步改善與提升文轉音的效果,本論著重在改善系統中的客語文句分析模組的客語斷詞處理。在系統中,使用者輸入中文文句後,透過我們提出的客語斷詞方法,能將「中文文句」轉換為「客語文句及斷詞和詞性標記結果」。透過這個提升後的斷詞與詞性標記結果,來得到更佳的文句分析結果、提升文轉音中的文意正確性,如:韻律階層的求取、停頓類型的求取及讀音的求取。本論文提出混合型的N-Gram序列分數算法,搭配中文斷詞模組及動態規劃演算法的客語斷詞方法。在嚴重資料稀疏的客語語料下,對中文轉客語斷詞結果的精確率有80.78%。相較於傳統中文詞直翻客語詞的方法,已提升不少。
机译:语言(Language)是文化传承与推广的首要工具,尤其是少数族群的语言,如:台湾的客语或原住民语言。台湾的客家族群约占总人口七分之一,为闽南语语系外之第二大族群。根据近年来相关台湾客语使用状况调查报告指出,阻碍客语传承之主因是:不太会讲。由于台湾学习环境使然,导致连客籍家庭的学童亦少能以客语说话、交谈,具有听、说客语能力者逐年下降,能说客语的人口大量减少,台湾出现客语失声,客家文化失传之危机。我们为了建置线上客语的数位学习系统,已开发出以大量合成单元为基础的客语四县腔及海陆腔的中文转客文的文转音系统(Hakka Text-to-Speech, HTTS) ,以及相关的应用系统,如:线上国客双语有声词典、国客双语有声地图社群系统等。我们的系统,主要是提供不太会讲客语或不会讲客语的使用者来使用、学习客语。因此系统的输入为「中文文句」,输出为「客语语音」。这样的操作设计,学习者或使用者能不需额外再学习客语输入法、客语拼音,只需使用最熟悉的中文,即可透过本系统来学习客语。为了更进一步改善与提升文转音的效果,本论著重在改善系统中的客语文句分析模组的客语断词处理。在系统中,使用者输入中文文句后,透过我们提出的客语断词方法,能将「中文文句」转换为「客语文句及断词和词性标记结果」。透过这个提升后的断词与词性标记结果,来得到更佳的文句分析结果、提升文转音中的文意正确性,如:韵律阶层的求取、停顿类型的求取及读音的求取。本论文提出混合型的N-Gram序列分数算法,搭配中文断词模组及动态规划演算法的客语断词方法。在严重资料稀疏的客语语料下,对中文转客语断词结果的精确率有80.78%。相较于传统中文词直翻客语词的方法,已提升不少。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号