我校信息管理学院徐健教授与李岱峰副教授的代表性成果论文“Building a PubMed knowledge graph”于2020年发表于Nature子刊Scientific Data。PubMed是收录生物医学领域科研论文最全面的文献数据库,蕴含着大量的专业知识。但是从知识挖掘角度来看,该数据库中所蕴藏的有用概念或者难于抽取出来,或者因为缺少消歧而不够明确,这种现状极大阻碍了知识发现任务的开展。为了解决这一问题,研究团队构建了PubMed知识图谱 (PubMed Knowledge Graph, PKG)。
该知识图谱构建主要包括三方面的工作:第一,采用所提出的BioBERT模型从2900万篇PubMed科技论文摘要中抽取生物医学实体;第二,采用基于可信多源数据的作者消歧方法对PubMed医学文献数据库中所有作者进行消歧;第三,通过科技论文唯一标识和消歧作者唯一标识,映射和集成了NIH ExPORTER提供的科研基金资助数据、ORCID提供的作者任职历史和教育背景数据、MapAffil提供的细粒度机构解析数据。通过上述抽取、消歧、集成等大规模知识计算,构建了生物医学实体、学者、科研论文、机构、基金等要素之间的关联关系。数据验证工作表明,实体抽取结果达到国际领先水平,作者消歧效果为目前已知同类数据集最佳水平。PKG为激发广泛的创新活动提供了重要平台。它不仅能够用于测度学术影响力,研究知识使用、传递、扩散现象,还能够基于知识间的关联构建学者、机构、实体等知识单元的全景画像,为多种知识发现和知识挖掘任务提供了重要研究平台。
该论文由来自我校信息管理学院、美国德州大学奥斯汀分校信息学院、美国德州先进计算中心、美国德州大学奥斯汀分校戴尔医学院、美国伊利诺伊大学信息科学学院、韩国延世大学图书馆与信息科学系、韩国高丽大学计算机科学与工程学院、北京大学信息管理系共8个不同学术机构的15位学者通过合作共同完成,我校信息管理学院在该成果中起到了主导性作用。