首页> 外国专利> Data-preserving text redaction for text utterance data

Data-preserving text redaction for text utterance data

机译:文本话语数据的数据保护文本编校

摘要

A hypernym of a word in utterance data may be probabilistically determined. The utterance data may correspond to a spoken query or command. A redacted utterance may be derived by replacing the word with the hypernym. The hypernym may be determined by applying noise to a position in a hierarchical embedding that corresponds to the word. The word may be identified as being potentially sensitive. The hierarchical embedding may be a Hyperbolic embedding that may indicate hierarchical relationships between individual words of a corpus of words, such as “red” is a “color” or “Austin” is in “Texas.” Noise may be applied by obtaining a first value in Euclidean space based on a second value in Hyperbolic space, and obtaining a third value in Hyperbolic space based on the first value in Euclidean space. The second value in Hyperbolic space may correspond to the word.
机译:话语数据中的一个单词的超词可以根据概率确定。话语数据可对应于语音查询或命令。一个经过编辑的话语可以通过用超词替换这个词而产生。可以通过将噪声施加到与单词对应的分层嵌入中的位置来确定超词。这个词可能被认为是潜在的敏感词。层次嵌入可以是双曲线嵌入,它可以指示单词库中各个单词之间的层次关系,例如“red”是“color”或“Austin”是“Texas”可通过基于双曲空间中的第二值获得欧几里德空间中的第一值,并基于欧几里德空间中的第一值获得双曲空间中的第三值来应用噪声。双曲空间中的第二个值可能对应于单词。

著录项

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号