互联网信息的爆发式增长,既为用户带来了丰富的信息知识,也为用户从中筛选所需知识造成了困难。传统的搜索引擎基于对互联网数据的全文索引,通过关键词匹配索引的方式为用户返回相关信息的链接,而不是直接明确的知识点,用户仍需从返回的大量冗余链接中查找并提炼自己所需的知识。如何从海量的、结构多样化的信息中有针对的为用户返回精确信息,已成为当前知识搜索的研究热点。
知识图谱技术的兴起为该研究提供了新的解决思路。知识图谱能够以一种更直观的方式表达出现实世界中的实体的信息以及实体和概念之间的关联。本文将互联网文本数据作为语料资源,对其进行知识图谱构建的研究。
本文研究了知识图谱构建中的序列标注问题。在该问题上,本文采用了长短期记忆(LSTM)网络结构,为保留训练过程中更多的特征信息,提出用预训练词向量和微调词向量扩展LSTM结构单元的D-LSTM模型。此外,为了应对医疗领域标注文本稀疏的情况,本文在D-LSTM的基础上结合Co-training半监督的方法,提出改进模型CTD-BLSTM,通过迭代训练进一步提升识别效率。本文用Python编写了CTD-BLSTM算法,并设置本文模型与原始BLSTM的对比实验以及用完整数据集训练的对比实验,验证了本文方法具有更好的识别效果和适应性。最后,以此为基础实现了中文医疗领域知识图谱的构建。
本文基于构建的中文医疗领域知识图谱,用Java语言设计实现了医疗知识搜索系统。该系统通过对用户输入的自然语言进行句法分析和语义依存分析等处理,1xbet体育登录识别用户的搜索意图,借助知识图谱,以一种更加直观、精确的方式返回用户所需的知识。展开▼著录项作者
机译:中国有效教学研究的历史回顾与未来展望-基于过去三十年(1986-2016)研究的知识图谱分析
机译:1992~2019年我国水质评价研究进展与热点综述:基于CiteSpace的知识图谱分析
机译:一个增强的电子医疗社区,具有基于知识的电子邮件和基于代理的知识搜索和共享。
机译:基于初级护理的,基于计算机的临床决策支持工具,用于评估患者对有害BRCa突变的风险。有效的医疗保健计划研究报告第30号
机译:基于电子医疗记录的回顾性队列研究来确定药物不良反应的方法,基于电子数据记录的回顾性队列研究来检测药物不良反应或干预的方法以及基于药物的回顾性队列研究检测药物或药物的不良反应的方法