摘要:现阶段的命名实体识别(Named entity recognition,NER)多依赖深度学习模型自动抽取文本特征,无法对文本中字词的特征进行融合,同时对于模型的错误预测结果也无法人工干预,只能通过优化模型参数和再次语料训练来解决.针对这样的问题,该文设计了整体的NER系统架构,同时提出了多维度特征融合的深度学习模型.该文在常规的长短期记忆模型(Long short term memory,LSTM)和条件随机场(Conditional random field,CRF)模型基础上,构建了新的神经网络结构,融入了多维度的字词特征.整个NER系统还引入了规则匹配,通过规则和深度学习的配合,将整体NER的F1值提升到96.2%.对比常规的LSTM+CRF模型,性能提升了近6%.
摘要:为解决扩展卡尔曼滤波算法估算锂电池荷电状态(State of charge,SOC)时存在的系统噪声统计不确定性和电池模型不准确性问题,该文提出了一种基于改进型Sage-Husa自适应强跟踪卡尔曼滤波的SOC估算算法.以参数辨识得到的锂电池等效电路模型为基础,在扩展卡尔曼滤波算法中引入一个强跟踪滤波器的渐消因子来加强跟踪能力,结合可对时变噪声进行特征统计的Sage-Husa自适应滤波器来调整系统噪声参数,实现了锂电池SOC的估算.最后通过锂电池模拟工况实验,验证了该算法相比于扩展卡尔曼滤波具有更高的精度和实用性.
摘要:超过6000种人类疾病是由非同义单核苷酸变异(Non-synonymous single nucleotide variations,nsSNVs)引发的,快速准确地预测nsSNVs的致病性,有助于理解发病原理和设计新药物,也是生物信息领域的重要研究课题之一.该文给出了nsSNVs致病性研究的重要意义与背景知识;总结了国内外研究的主流方法,包括基于突变频率的方法、基于通路的方法、结合基因组和转录信息的方法、基于序列进化保守性的方法、基于序列和结构混合特征的方法以及综合评价类方法,对代表性方法进行了阐述;给出了nsSNVs致病性研究中常用的数据库、特征表示方法以及性能评价指标,多角度地对12种nsSNVs致病性预测方法进行了比较;最后,展望了nsSNVs致病性预测中可能取得突破的若干研究方向.
摘要:随着气候变化成为全球议题,对能源政策文件进行量化分析与研究,具有非常重要的意义.现有的中文分词技术应用在能源政策这一特定领域时,由于无法正确识别领域新词,往往很难取得令人满意的效果.针对新词发现这一问题,该文提出一种基于条件随机场(Conditional random field,CRF)和词向量的能源政策新词发现方法.利用无监督方法,在无需人工标注的情况下,提升CRF模型在特定领域的适应性.提出了种子词典的概念,通过关键词提取并辅以少量人工筛选和补充的方式,构建能源政策领域的种子词典.将种子词典和CRF模型标注结果相结合,并利用词向量筛选,完成领域新词的发现.在真实能源政策文本数据上的试验结果表明,该方法能够在较低人工成本的前提下,有效地实现能源政策领域的新词发现,进而提高中文分词在能源政策文本的表现.