不同标注体系的树库之间的相互转换是计算语言学研究的重要内容之一.本文在总结国内外几种树库标注体系及相互转换实践的基础上,结合清华汉语树库(Tsinghua Chinese Treebank,简称TCT)标注体系的特点,提出了一种将TCT从短语结构转换成依存结构(Dependency Structure)的算法.这种算法充分利用了TCT具有的功能、结构的双重标记,转换得到的依存树不仅包含了各个节点之间相互依存的层次关系,更包含了相互依存的两个节点的具体的依存关系类型.我们对转换的效果进行了抽样评估,准确率可以达到97.37%.
展开▼