关键词:
文本挖掘
生物医学文献
生物信息学
文献检索
摘要:
在后基因组时代,生物学研究已由对生物学单体研究(基因、蛋白、其他生物分子等)快速向对整个生物系统的研究方向转变。如今绝大多数生物医学文献都可在网络上检索,包含了丰富的生物学知识,也是获取国际上生命科学最新研究成果的最主要的途径。尽管公共数据库中的一些文献已由专家人工进行了内容提炼和分类整理,但相对于记载新发现的文献涌现的速度来说,还是远远落后。由于生物学名词的缩略性、模糊性和多义性,从海量文献中自动提取出生物学知识是非常困难的。而随着新文献数量的与日递增,需要有一种从海量文献中自动快速提取生物学知识的方法来辅助研究。\n 我们将主流的文本挖掘技术运用在生物信息学领域,运用自然语言处理和本体技术,对生物医学文献进行挖掘。在分析生物医学文献特性的基础上,设计开发了基因疾病相关文献挖掘平台,综合运用网络蜘蛛、句法剖析、语义语用分析、生物医学领域专业知识库标定等技术,对基因和疾病相关文献进行深度挖掘,进行基因功能、基因与疾病关系、生物分子相互作用网络知识发现。该平台收集了当前主流的生物学知识库和分析技术,实现了对文献的智能挖掘,可以向从事基因研究、人类疾病研究和其他生命科学相关领域研究的科研工作者或医务工作者提供实时的在线服务。\n 经实验证明,我们的技术能够对文献进行深度挖掘,进行基因功能、基因与疾病关系、生物分子相互作用网络知识发现,辅助形成生物科学研究创新假设。与人工分析相比,我们开发的平台分析结果的准确率可以达到86%。