藏文
藏文的相关文献在1954年到2022年内共计1377篇,主要集中在自动化技术、计算机技术、中国史、中国少数民族语言
等领域,其中期刊论文1088篇、会议论文33篇、专利文献256篇;相关期刊366种,包括青海社会科学、西藏研究、中国藏学等;
相关会议15种,包括2013中国历代碑刻及碑刻文献研讨会、第四届全国少数民族青年自然语言信息处理学术研讨会、第十三届中国少数民族语言文字信息处理学术研讨会等;藏文的相关文献由1471位作者贡献,包括于洪志、尼玛扎西、王维兰等。
藏文
-研究学者
- 于洪志
- 尼玛扎西
- 王维兰
- 吴健
- 高定国
- 黄鹤鸣
- 群诺
- 拥措
- 卢亚军
- 何向真
- 刘汇丹
- 向超
- 多杰卓玛
- 安见才让
- 戴玉刚
- 才智杰
- 欧珠
- 王海南
- 裘宏波
- 裴文龙
- 陈伟
- 才让
- 才让加
- 普顿
- 格桑多吉
- 王尧
- 王沂暖
- 赵小兵
- 才让卓玛
- 珠杰
- 马龙龙
- 刘文香
- 孙琦龙
- 李永宏
- 洛桑嘎登
- 祁坤钰
- 陈庆英
- 土旦西绕
- 多拉
- 孙媛
- 扎西加
- 李亚超
- 柔特
- 武强
- 王筱娟
- 石硕
- 胡鹏飞
- 胥桂仙
- 赵康
- 边巴旺堆
-
-
三毛措;
才智杰;
才让卓玛;
道吉扎西;
华旦扎西
-
-
摘要:
拼写错误分析是一项具有挑战性的研究课题,在文本编辑、字处理、拼写检查等诸多方面具有广阔的应用前景.藏文是一种拼音文字,其拼写错误类型包括非真字型、真字型和标点符号等.文章以藏文文法中的字、词构造规则和语义作为切入点,总结归纳了藏文文本拼写错误类型,为藏文文本拼写检查技术提供参考依据.
-
-
朱亚军;
拥措
-
-
摘要:
藏文人名地名识别主要是从藏文文本中识别出人名、地名等专有名词。藏文文本语法较为复杂,使用传统机器学习方法人工构建特征难度大。深度学习(DeepLearning,DL)可以对任务数据自动构建特征,使用BiLSTM提取藏文文本特征,采用CRF对标签序列准确解码。实验证明基于BiLSTM-CRF的藏文人名地名识别模型能够有效识别藏文文本中的人名、地名,并且F1值达82.1%。
-
-
-
袁斐洋;
普尺;
倪胜巧;
扎西多吉
-
-
摘要:
谷歌浏览器目前是全球使用最多的浏览器,其扩展程序可以极大地优化用户的体验。扩展程序在信息拦截上同样有着极大的作用,但其在地域特点比较明显的地区,语言、格式以及表述等的影响下,拦截效果折扣。针对这类问题,重点对拦截藏文敏感信息的浏览器扩展程序进行研究开发,根据藏文敏感词权重值对网页进行等级划分,对含有敏感信息的网页进行拦截,避免不法言论和信息的传播,以优化藏区网络环境。
-
-
闫晓东;
王羿钦;
黄硕;
杨金朋;
赵小兵
-
-
摘要:
自动文本摘要是自然语言处理中的一个关键任务,高质量的数据集能有效推动摘要的研究。深度学习算法模型在中英开源数据集上都取得了显著的成绩,甚至超过了人类的表现。然而,公开的、高质量的大规模摘要数据集仍然非常稀少,且不容易人工构建。目前在藏文文本摘要任务中,由于公开数据集较少,藏文文本摘要任务还处于起步阶段。为了推动藏文信息化发展,本文人工构建了一个小型藏文多文本摘要数据集Ti-SUM,由1000篇真实藏文新闻组成,每一篇新闻都给出了简短的摘要。此外我们还针对每篇新闻构建了超过3500个文章关键词,用以辅助文本摘要任务。
-
-
孙媛;
旦正错;
刘思思;
赵小兵
-
-
摘要:
机器阅读理解是自然语言处理的关键任务,旨在考察机器是否具有理解自然语言的能力。目前,中英文领域的机器阅读理解取得了很大的进展,模型的性能已经超过了人类的水平,其中公开数据集起到了非常重要的作用,如斯坦福大学的SQuAD数据集。而对于低资源语言,如藏文,由于缺乏大规模公开的数据集,机器阅读理解的相关研究还处于起步阶段。因此,本文构建了面向藏文机器阅读理解的数据集,数据集包含631篇文章,903个段落,形式为excel文件。其中,第一列为当前文章ID,第二列为文本标题,第三列为段落,第四列为问题,第五列为问题对应的答案。其文本数据来自云藏网,问题和答案是由20位藏语专业人员进行人工录入和标注,类型涉及自然、文化、教育等12个领域。本数据集的发布,对于促进藏文信息处理的发展具有重要的价值。
-
-
取次;
高定国
-
-
摘要:
藏文文本质量是影响藏文信息处理的重要因素,纠正藏文文本中复杂多样的音节错误是提高藏文文本质量的重要工作。本文以1.5亿多音节的真实藏文文本为统计源,并从中查找出2 333 617个错误音节(约占总语料库文本的5.6%),并根据上下文信息和藏文文法规则对错误音节进行人工纠错和分类,把藏文音节错误归为11种类型,并统计每一种错误类型的出现频度、高频错误音节等,分析错误原因,为藏文文本校对系统等软件的设计和实现提供参考。
-
-
张九玲
-
-
摘要:
西夏本《八千颂般若经》译自藏文原本,与其内容相近的汉文本则有宋施护所译《佛说佛母出生三法藏般若波罗蜜多经》和唐玄奘所译《大般若经·第四会》。目前所知,西夏本《八千颂般若经》有5个编号:инв.№2727、инв.№102、инв.№896、инв.№103、инв.№4754,内容依次为卷四、卷十、卷十五、卷二十、卷十。инв.№103卷二十包括“学品”和“增上慢品”,论文对“学品”进行了西夏文录文、汉译、校注,并对经文中佛教词汇的夏、藏、汉对应关系作了总结,旨在为西夏语言、佛教以及文献研究提供一份新的基础资料。
-
-
达娃央金
-
-
摘要:
在藏族地区,藏文课是一门基础性的课程,也是重要的课程,是对藏族文化的一种传播和继承。小学藏文这门学科和其它学科不同,该学科在西藏是所有学科学习的基础,其占据了教育的重要地位。写作教学作为小学藏文教学的一个重要组成部分,是对孩子们认字识字,措辞造句、理论构思、写作逻辑等方面的综合训练,它最能集中地反映出孩子们的藏文素养。但是就目前西藏地区藏文写作教学情况来看,仍然存在着很多的问题。鉴于此,本文对小学藏文写作教学的有效策略进行了探索。
-
-
朱亚军;
次曲;
拥措
-
-
摘要:
微博是非常流行的用户交流及信息传播的轻量级自媒体平台,对微博情感的研究有着重要的价值。受到藏文信息处理的限制,藏文微博情感分析效果仍然不是很好。使用从新浪微博上收集的藏文微博数据进行实验,并对分词后的藏文微博进行实义词语的抽取,利用SVM分类算法对藏文微博进行情感分析,将藏文微博分为积极、客观和消极三类。实验表明对实义词语进行抽取后,模型的训练效率提高15%-20%,分类精确率达到59.7%。
-
-
Congjun LONG;
龙从军;
Huidan LIU;
刘汇丹;
Maoke ZHOU;
周毛克
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
词向量在自然语言处理研究的各个领域发挥着重要作用.该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库.作者以哈尔滨工业大学的中文《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词.作者分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词;自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,说明词向量计算结果与人的语言直觉具有较高的一致性.因此本文所采用的方法有助于提高藏文语义相似词知识库构建效率.
-
-
-
-
Tianci Xia;
夏天赐;
Yuan Sun;
孙媛
- 《第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL 2018)》
| 2018年
-
摘要:
从无结构文本中抽取实体与实体之间的关系是自然语言处理领域的重要研究内容,同时也为构建知识图谱、问答系统等应用提供重要支撑.基于联合模型的实体关系抽取任务将实体识别和关系抽取同时进行,克服了传统实体关系抽取任务中先识别句子中的实体,然后在进行实体关系判断这两次任务中的错误累加.该文针对藏文语料匮乏,实体识别准确率不高等问题,提出了基于联合模型抽取藏文实体关系的方法.该文基于藏文实体关系抽取任务,提出以下方案:针对藏文分词准确率不高的问题,对藏文进行字级和词级两种方式进行预处理,并给出对比实验,结果表明采用字级处理方式较词级处理方式效果有所提高.藏语是一种语法规则比较强的语言,名词、格助词等能明确指示句子各组块之间的语法和语义结构关系,因此该文将藏文的词性标注特征加入到藏文的字词向量中,实验结果表明方法的有效性.该文借鉴了联合模型处理的优势,提出基于联合模型处理方式,采用端到端的BiLSTM框架将藏文实体关系抽取任务转变为藏文序列标注的问题,实验结果表明,该文的方法较传统的基于藏文处理方式如SVM算法和LR算法,准确率提高了30%-40%.
-
-
-
-
-
-
Rou Te;
柔特
- 《第四届全国少数民族青年自然语言信息处理学术研讨会》
| 2012年
-
摘要:
文章主要介绍了藏文在线自动问答系统中问题分类的方法,对每个问题类型设计了较为合理的匹配规则,如果一个问题和一个规则相匹配,此问题就属于该规则对应的答案类型,利用这种策略可以降低检索的空间,提高检索的效率,尤其此方法在藏文自动问答系统中可以有效地提高人们获取信息的准确性.
-