您现在的位置: 首页> 研究主题> 藏文信息处理

藏文信息处理

藏文信息处理的相关文献在1995年到2022年内共计68篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、体育 等领域,其中期刊论文57篇、会议论文11篇、专利文献1326852篇;相关期刊26种,包括图书与情报、西藏大学学报(自然科学版)、青海师范大学学报(自然科学版)等; 相关会议6种,包括第十三届中国少数民族语言文字信息处理学术研讨会、第五届全国青年计算语言学研讨会(YWCL 2010)、第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会等;藏文信息处理的相关文献由89位作者贡献,包括吴健、刘汇丹、诺明花等。

藏文信息处理—发文量

期刊论文>

论文:57 占比:0.00%

会议论文>

论文:11 占比:0.00%

专利文献>

论文:1326852 占比:99.99%

总计:1326920篇

藏文信息处理—发文趋势图

藏文信息处理

-研究学者

  • 吴健
  • 刘汇丹
  • 诺明花
  • 丁治明
  • 于洪志
  • 于新
  • 才华
  • 才智杰
  • 才让卓玛
  • 欧珠
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 高原科学研究编辑部
    • 摘要: 《高原科学研究》立足高原特色和西藏地区特色,关注高原极端环境下的生物多样性研究、高原河湖湿地生态学研究、高原地质研究、高原气象研究、高原低氧环境对人体影响研究、藏医药传承与创新研究、高原交通研究、藏文信息处理研究等科学研究成果。主要设置高原生态、高原医学、高原交通与信息三大栏目。竭诚邀请广大专家、学者为本刊提供高质量的科研成果,与我们共同建设高原科学研究领域学术交流与成果展示平台。
    • 摘要: 青海省藏文信息处理与机器翻译重点实验室成立于2013年,隶属青海师范大学。其前身为"藏文智能信息处理与机器翻译"省级重点实验室,于2012年获批为省部共建教育部重点实验室。实验室以语言学、信息科学、语料库语言学、统计学、计算机应用技术、物理学多学科交叉融合为依托,以计算语言学与机器翻译、藏文信息处理技术和社会计算与信息安全为研究方向,研发藏文信息处理、机器翻译、模式识别、社会计算为特色的应用系统。
    • 多杰卓玛1
    • 摘要: 藏语词汇和短语的研究是藏文信息处理中藏语语义知识库系统建立和实现的基础。为探寻藏语中的“名词+虚词+名词”型(“N1+G+N2”型)名词短语所蕴含的形式上的特性和语义上的功能,文章以举例分析的方法对“N1+G+N2”型短语的组成成分、句法结构、语义关系等方面进行解析,指出了“N1+G+N2”中N1和N2之间的语法规律和依存关系。
    • 头旦才让
    • 摘要: 藏文信息处理是一门关于藏文现代化建设的新型学科。文章通过阐述藏文信息处理的重要性,分析了藏文信息处理在字、词、句子层面的已有重要研究成果,提出了藏文输入法、藏文词类划分、藏文句子分类等存在的问题及其解决方法。
    • 摘要: 1994年依托国家“863”计划项目青海省教育厅在青海师范大学成立了“藏文智能信息处理与机器翻译”省级重点实验室,2009年以本实验室为基础成立了“青海省藏文信息研究中心”,2012年获批为省部共建教育部重点实验室,2012和2014年研究团队2次获得教育部“长江学者与创新团队”发展计划的支持,2013年获批为青海省科技厅省级重点实验室;经过20余年的发展形成了计算语言学与机器翻译、藏文信息处理技术方向和复杂网络与藏文信息安全等具有鲜明特色的研究方向。
    • 官却多杰; 关白
    • 摘要: 藏文音节构件识别是藏文信息处理应当特别关注的一个问题,要实现藏文排序、藏文拉丁转写、藏文文本校对等工作就必须先识别出构成藏文音节的7大构件.针对符合藏文字性组织法构件组合规则的藏文音节,依据藏文字性组织法规定的音节组合规则和组合结构,提出先确定藏文音节中作为核心构件的基字,再依据基字判断出其他构件的算法,结合此算法对藏文中出现的其他特殊音节进行了特殊的构件识别处理.通过测试验证算法的可行性,测试结果表明,该算法能够正确识别符合组合规则和结构的藏文音节,对特殊音节也有较好的识别能力.%Tibetan syllable component recognition should be one of the particular concerns in Tibetan information processing. To achieve the works of Tibetan sorting,Tibetan Latin transliteration and Tibetan text proofreading,the seven components form-ing the Tibetan syllables must be recognized first. Aiming at the Tibetan syllables conforming to the component combination rules in the Tibetan grammatical work,a method to determine the root as a core component in the Tibetan syllable is proposed in accordance with syllable composition rules and combined structures specified in the Tibetan grammatical work. The algorithm of the other components is judged according to the root. In combination with this algorithm,the specified component recognition processing is conducted for other special syllables occurring in Tibetan. The feasibility of the specified was verified in tests. The test results show that the algorithm can correctly recognize the Tibetan syllable conforming to combination rules and structures, and has good recognition capacity for special syllables.
    • 拉巴顿珠; 欧珠; 赵栋材
    • 摘要: 在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究.根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上.%By analyzing a literature review of present Tibetan Auto-Segmentation solutions,we study on the difficult points of Tibetan function words recognition.According to the traditional Tibetan grammar,we described the forms of Tibetan function words in different texts.A holistic function word dictionary and rules set had been created by a rulesstatistics-combined method,and the function words segmentation algorithm had been implemented.We tested the algorithm on a sample corpus which contains 3 200 typical Tibetan sentences from different fields.The results show that the correct recognition rate of our system reaches up to 98%.
    • 刘汇丹; 洪锦玲; 诺明花; 吴健
    • 摘要: A large scale Tibetan text corpus is built,which includes 4.27 million sentences in 190 thousand documents,totaling 93 million syllables.Some predefined rules are applied to check whether there are spelling errors,detecting altogether 9 700 misspelt syllable types out of the 20 743 types of Tibetan syllables occurred in the corpus (covering 46.762 8%).But at the token level,the corpus has a very high quality,with only 27 427 misspelt syllables,roughly 0.030 8% of the total 93 million syllable tokens.Further analysis shows that there are mainly four causes leading to those spell errors:extra vowel sign(s);absence of syllable delimiter or sentence delimiter;characters which can be written in different forms;similar characters.%针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析.数据显示,在语料中出现的共计20 743个藏文音节中,合有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的.文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符.
    • 徐涛; 蓝传锜
    • 摘要: 藏文文本关键词在文本聚类/分类、自动摘要、信息检索等领域具有重要地位,然而当前互联网上的藏文新闻网页几乎没有提供关键词.并且许多已有的关键词自动提取算法都需要建立在人工标注的训练集之上,扩展性不强.关键词是文本中主题关联度凝聚度较高的词,因此该文将卡方统计量进行改进,运用词与词推荐的思想进行关键词抽取.通过藏文新闻网页实验结果表明,该文的方法优于融入位置信息的TF/IDF.
    • 高定国
    • 摘要: 随着语言信息处理数据规模和自动分析处理需求的增长,以及国内外学术交流的不断增加,自然语言信息处理技术的公共评测对研究的促进作用已在业界形成共识。词法分析是语言信息处理的基础与关键。文章针对MLWS2017中有关藏文的情况介绍了藏文分词评测语料的收集、整理情况,分析了藏文新闻类语料计算机分词的难度;对藏文分词评测分析软件设计思想进行研究基础上,设计了藏文评测分析软件,对软件进行了各项测试;分析藏文分词评测的结果,并验证了评测结果的正确性。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号