✅ 操作成功!

第一批罕见病目录

发布时间:2023-06-06 作者:admin 来源:文学

第一批罕见病目录

第一批罕见病目录

硬笔书法教案-石正方

2023年2月21日发(作者:卡式龙骨)

34·ChinaDigitalMedicine.2021,Vol.16,No.2

基于表型术语及CBK理念构建罕见病

知识库

张睿①陈薇②师庆科①王觅也*

【摘要】通过扩展人类表型术语集(HPO)的中文同义词,通过自然语言处理程序对电子病历中的表型概念

进行识别后,借助可计算生物医学知识(CBK)理论,重新构建了整合电子病历及权威知识库的罕见病诊断知

识库。因真实世界罕见病患者信息还包括各种合并症及并发症,其疾病-表型关联更加混杂,整合二者知识库是

对目前罕见病诊断知识库在国内EMR落地的有益探索。未来通过CBK及其KGrid平台,该罕见病诊疗知识可以

进行聚合计算、推演,封装后以便提供知识即服务(KaaS)的云计算服务,最终提升知识的复用及互操作性。

【关键词】HPO术语可计算生物医学知识罕见病诊断知识库OMIM知识库互操作性

Doi:10.3969/.1673-7571.2021.02.008

【中图分类号】R319;TP391【文献标识码】A

ConstructionofRareDiseaseKnowledgeBaseBasedonPhenotypicTermsandCBKConcept/ZHANGRui,CHEN

Wei,SHIQing-ke,etal.

Abstract:

Inthisstudy,theChinesesynonymofHumanPhenotypeOntology(HPO)wasenriched,andthephenotype

conceptinEMRwasidentifihat,therarediseaseknowledgebase

integratingEMRandauthoritativesourcewasrebuiltbyusingtheComputableBiomedicalKnowledge(CBK)theory.

Forrarediseasepatientsintherealworldincludevariouscomplications,thephenotype-diseaseassociationsare

wledgeintegrationofEMRandauthoritativesourceisabeneficialexplorationandpracticefor

uture,throughCBKanditsKGridplatform,theknowledgebaseofrare

wledgealsocouldbepackagedtoprovideaKaaS(knowledgeasa

service),acloudcomputingservices,andultimatelyimprovethereuseandinteroperabilityofknowledge.

Keywords:

humanphenotypeontology,computablebiomedicalknowledgebase,knowledgebaseofraredisease,

OMIMknowledgebase,interoperability

Fundproject:

KeyR&DProjectofScience&TechnologyDepartmentofSichuanProvince-ConstructionoftheEarly

WarningDecisionSupportSystemofRareDiseasesBasedonPhenotypicTerms(No.2019YFS0152)

Correspondingauthor:

WestChinaHospital,SichuanUniversity,Chengdu610041,SichuanProvince,P.R.C.

基金项目:

四川省科技厅重点研发项目-基于表型术语的罕见病早期预警决策支持系统构建(编号:2019YFS0152)

*通信作者:四川大学华西医院,610041,四川省成都市国学巷37号

①四川大学华西医院,610041,四川省成都市国学巷37号

②四川省妇幼保健院,610045,四川省成都市武侯区沙堰西二街290号

1背景

据世界卫生组织的定义,罕

见病是指患病人数占总人口的

0.65‰~1‰的疾病。我国在2018年

6月公布了第一批罕见病目录,共

121种。尽管发病率低,但我国仍

有近2000万罕见病患者,其求医

之路曲折,部分患者辗转多地、历

时数年才能确诊。为此,2019年

数字医学基础研究

BasicResearchofDigitalMedicine

《中国数字医学》2021第16卷第2期·35

2月,国家卫生健康委宣布建立由

324家医院构成的全国罕见病诊疗

协作网,以加强我国罕见病管理,

提高罕见病诊疗水平。

罕见病实为一组异质性非常大

的疾病分类,其种类繁多且少见,

必然导致各专科医师对罕见病诊疗

经验的缺乏。因此,互联网罕见病

诊断工具得到了极大发展,其借助

数据库技术将大量罕见病的权威诊

疗经验形成知识库,为医师、公众

提供罕见病的诊断服务。然而,权

威罕见病知识库与基于电子病历的

病例库存在较大差异,如何将二者

相结合,并基于可计算生物医学知

识理论构建相关知识库是目前研究

的热点。

2罕见病相关术语及知识库

资源

2.1人类表型本体人类表型本体

(TheHumanPhenotypeOntology,

HPO)提供了出现在人类疾病中异

常表型的标准化词汇

[1]

。HPO的重

要性在于,几乎主流的遗传性疾病

诊疗知识库,如OMIM、Orphanet

及DECIPHER,都以HPO术语来描

述疾病的异常表型。目前HPO已

经有13000条概念,并对其进行了

系统的分类管理,因此在对各种遗

传病以及罕见病的研究中起到巨大

作用。HPO术语有助于临床医生

以标准化的医学术语来描述罕见病

患者的表型,不仅有利于诊断疾

病,确定致病基因,还能帮助寻找

疾病与特定表型之间的关系。2016

年初,我国成立了中文人类表型标

准用语联盟(TheChineseHuman

PhenotypeOntologyConsortium,

CHPO),对HPO进行翻译,旨在提

供人类表型的中文标准术语,以及一

个高效的中文人类表型搜索引擎。

通过提取电子病历(Electronic

MedicalRecord,EMR)中患者表

型术语信息,再进行表型相似度

(PhenotypicSimilarity)计算,则

可对患者的罹患疾病做出预测,这

正是HPO结合OMIM等知识库产生

价值之所在。

2.2一体化医学语言系统美国国立

医学图书馆开发的一体化医学语

言系统(UnifiedMedicalLanguage

System,UMLS),是对生物医学

领域内许多受控词表的一部纲目式

汇编。UMLS通过整合大量生物医

学领域的词汇表以及标准,将不

同术语集中相同概念进行归并。

UMLS与SNOMEDCT、HPO等200

多个生物医学术语集都有交叉映射

关系,而且不同生物医学术语集的

相同概念,都被UMLS标记为同一

概念。现有诸多研究利用UMLS的

交叉映射,完成电子病历中HPO术

语的识别

[2-3]

(图1)。

2.3罕见病知识库人类孟德尔遗传

病(OnlineMendelianInheritancein

Man,OMIM)知识库是一个全面

的、权威的、可免费获取的人类基

因和遗传表型汇编

[4]

。OMIM关注

遗传表型与基因型之间的关系,并

且这些条目可映射到多种其他的遗

传学资源,其也作为遗传学知识库

被UMLS收录于知识源图谱之中。

OMIM作为涵盖关于人类遗传病和

基因座位等相关信息和文献的中心

级数据库,其收录了近8000种罕

见病,占人类目前已知疾病总数

的10%左右。此外还有Orphanet、

DECIPHER等多种罕见病及遗传病

知识库。

综上,罕见病领域知识库众

多,整合多个术语集、知识库、

罕见病文献及EMR病历资料成为

重点,Jia构建的罕见病术语注释

百科全书(encyclopediaofRare

DiseaseAnnotationsforPrecision

Medicine,eRAM)[5]

,其不仅整

合了多种罕见病相关的术语集、

知识库,还通过基于模式的文本

挖掘处理了上千万份的文献及病

历资料,以及多种表型-疾病关联

(phenotype-diseaseassociations,

PDAs),形成一个庞大的罕见病

知识体系(表1)。

图1HPO术语与UMLS术语集间的交叉映射

数字医学基础研究

BasicResearchofDigitalMedicine

36·ChinaDigitalMedicine.2021,Vol.16,No.2

(TheKnowledgeGrid)为提升医

疗领域可计算知识的互操作能力,

提供了知识对象、数字图书馆、激

活器以及服务四个模块。经过CBK

及知识网格平台(TheKnowledge

Grid)组织的知识对象,未来可以提

供类似知识即服务(Knowledge-as-a-

Service,KaaS)的云计算服务[8]

目前OMIM、Orphanet、eRAM

等权威知识库组织形式,是基于分

析后的知识传递形式(人读),但

不利于计算机进行再次计算/推演

(机读),不符合CBK理念。以罕

见病筛查预警系统为例,按CBK

理念,不仅要存储、整合所有知识

规则,更是要存储、整合所有推导

出知识规则的直接事实数据。结合

OMIM等标准知识库的PDAs,以

及整合多家医院EMR库中的PDAs

后(预实验发现二者相差巨大),

预期可将OMIM等不可计算/推演

的知识库按CBK理念进行优化,添

加各EMR中统计的附属信息(频

数、TF-IDF等),达到计算机可计

算/推演的目的。

4系统构建及效果

4.1电子病历中表型术语识别经

HPO与现有多种术语集的交叉映

射,可构建如下HPO同义词列表

(表2),通过本中心既往研究构建

的HPO术语集及术语识别算法

[9]

通过基于规则及字典的术语识别

算法(RuleandTerminologybased

Algorithm),可抽取EMR中临床

文本中的术语信息。以前述HPO扩

展的中文同义词列表,基于规则及

逆向最大匹配法实现HPO的术语识

别。此外,基于规则的算法需要对

文本中的术语进行否定性判断,以

及术语是描述患者本人还是其家属

的判断。

4.2基于CBK的罕见病知识整合每

家医院各自存储EMR中罕见病患

者的诊疗信息。协作网中心搜集多

家医院的罕见病患者患病数据时,

不仅以“患者-表型-疾病”的形式

搜集各家医院的罕见病患者信息,

更是依据CBK理念,注重收集类似

于“表型-疾病-统计信息”的组合

信息。当累积多家医院数据时,可

3可计算生物医学知识理论

目前,EMR已被国内医院广

泛使用,多数医院也构建了相应的

临床数据中心或临床数据仓库。

随着医院开始收集和分析真实世

界的数据来获取新知识,导致新

知识存储格式的多样性增加,研

究者对更有效管理可计算生物医

学知识(ComputableBiomedical

Knowledge,CBK)[6]

的需求也在

增加。目前,用于传递数据分析结

果的知识格式,如OMIM等与系统

进行知识计算/推演所需的知识格

式不大相同。为了帮助改进知识管

理和加速知识共享,知识对象引

用本体(KnowledgeObjectReference

Ontology,KORO)以形式化的方式

定义了什么是知识对象

[6]

。KORO

提供了关于知识对象的形式化、逻

辑一致的本体。它有助于使CBK

可查找、可访问、可互操作和可重

用。KORO目前正被用于进一步开

发和改进学习卫生系统(Learning

HealthSystems,LHS)的可计算

知识基础设施

[7]

。知识网格平台

来源知识库疾病英文名称疾病中文名称HPO术语IDHPO术语名称

OMIMPHENYLKETONURIA苯丙酮尿症HP:0000252小头畸形

OMIMPHENYLKETONURIA苯丙酮尿症HP:0000518白内障

OMIMPHENYLKETONURIA苯丙酮尿症HP:0000635蓝色虹膜

……………

OrphaWilsondisease肝豆状核变性(威尔逊病)HP:0000140月经周期异常

OrphaWilsondisease肝豆状核变性(威尔逊病)HP:0000716抑郁

OrphaWilsondisease肝豆状核变性(威尔逊病)HP:0000718攻击性行为

OrphaWilsondisease肝豆状核变性(威尔逊病)HP:0000952黄疸

……………

表1权威罕见病知识库示例

数字医学基础研究

BasicResearchofDigitalMedicine

《中国数字医学》2021第16卷第2期·37

再次汇聚计算各表型对各疾病的频

数及TF-IDF等信息,或该罕见病下

常规表型组合,并动态预测目标人

群罹患特定罕见病的概率。

根据已计算各指定罕见病下

表型术语其频数及TF-IDF值等,

研究将通过比值比(OddsRatio)

算法提取显著的PDAs。同时,在

OMIM(或eRAM)罕见病知识

库中抽取PDAs。将二者进行对比

实证研究,比较二者针对同一罕

见病的不同表型分布。某些仅出

现在EMR而未出现在OMIM的表

型,在经专家审核后,可用于扩

增PDAs;而出现在OMIM却未出

现在EMR的表型,应判断EMR的

术语识别方式是否存在遗漏,如无

遗漏且不存在于EMR的表型(如

“婴儿期喂养困难”概念,大概率

不会出现在成人病历中),则予以删

除。通过上述知识富集、裁剪,将

EMR与OMIM来源的表型进行整合,

形成EMR整合型知识库(图2)。

4.3系统有效性及优越性对比分析

现有主流罕见病知识库如OMIM、

Orphanet、eRAM仍以PDAs方式进

行知识组织,但不同表型对不同罕

见病的诊断价值各不相同。因此,

在合并症、并发症较多的真实世

界EMR中,通过CBK理念,汇聚

计算各表型对各疾病的频数及TF-

IDF等信息,有助于在现有权威知

识库中甄别“更有现实意义”的

PDAs,为真实世界EMR中决策支

持系统的实施提供更有针对性的知

识库。

项目实施医院作为西南某大省

罕见病牵头单位,已建成覆盖省内

多家医院的医联体信息集成平台。

在此基础上,以第一批罕见病目录

中121种罕见病为例(以下简称“指

定罕见病”),截至2020年8月,

项目已收集3.3万例指定罕见病及

236万例非指定罕见病信息,获取

这些患者诊疗信息回传至医联体中

心平台进行NLP分析并重新计算相

关聚合信息后,已形成EMR整合

型知识库。再利用表型相似度算

法进行疾病相似度计算后,相较

于OMIM等单一权威知识库,基于

EMR整合型知识库对指定罕见病

的检出率(TOP10预测项的实际命

中)均有不同程度的提升。在表型

相似度算法选择中,传统的Jaccard

相似度算法难以区分不同表型术语

对不同罕见病的不同诊断价值(特

异性),利用IDF代替了“是否存

在”,用以衡量疾病之间的相似

HPO英文术语名称HPO中文术语名称HPO编码中文同义词及部分下位词

Highfrequencyhearingloss高频听力障碍HP:0005101

高频听力损失,高频听力受损,高频听力损伤,

高频听力下降

Hearingabnormality听力异常HP:0000364听力下降,听力减退,听觉下降,听觉异常

Abnormalityofthesenseofsmell嗅觉异常HP:0004408嗅觉改变,嗅觉恶化,嗅觉下降,闻不出味道

…………

表2对HPO术语扩展的中文同义词及部位下位词

图2EMR病例库与OMIM等权威知识库整合的技术路线

数字医学基础研究

BasicResearchofDigitalMedicine

38·ChinaDigitalMedicine.2021,Vol.16,No.2

性,也区分了不同HPO术语之间的

特异性,这也是CBK的理念。此

外,随着样本量的扩大,该诊断效

能有进一步提升的空间。

目前就公开文献,国内少有落

地于中文EMR环境的罕见病决策

支持系统。且多数系统均以英语表

型术语为录入基础,且存在于互联

网上,使得临床医生必须在互联网

重新录入患者表型信息才能使用,

这不仅中断医师工作流,还使得医

师面临表型转换的困境。

目前该项目已部署罕见病决策

支持模块,未来可部署为云计算服

务供医联体内医院进行调用。

5结语

日常电子病历存储的信息被术

语化后,可为罕见疾病提供大量研

究及诊疗细节

[10]

。EMR中的术语

信息是其关键,但适用于本国语言

的医学术语标准缺失更造成EMR

中文本信息难以应用

[11]

。本研究通

过扩展HPO术语集的中文同义词,

通过NLP对EMR中的表型概念进

行识别并借助CBK知识理论后,

重新构建了整合电子病历及权威知

识库的罕见病诊断知识库,在原有

权威知识库的规则之上附加了多种

附属信息,有利于罕见病协作网整

合多家数据、信息、知识后,进一

步计算及推演各表型对各个疾病的

频数及TF-IDF等信息,或该罕见

病下各表型的常规组合,或目标人

群罹患特定罕见病的概率。未来通

过CBK对该罕见病诊疗知识可以

进行封装,可提供类似知识即服务

(KaaS)的云计算服务,以提升

知识的复用及互操作性。这些理念

均可在罕见病协作网内进行落地与

实践。

智慧医疗的真正落地,需以术

语为基础编撰的权威知识库落地于

EMR中,从而嵌入临床工作流,

以服务于临床一线医生。在这之

中,术语及知识库则为整个链路的

重点,需同时兼顾领域经验(权威

知识库)及真实世界数据。因基于

真实世界数据的EMR库中,罕见

病患者信息还包括各种合并症及并

发症信息,其疾病-表型关联更加

混杂,整合二者的知识库是对目前

罕见病真实世界数据的有益探索及

补充,更利于真实世界中罕见病的

检出。

参考文献

[1]GrozaT,KöhlerS,MoldenhauerD,

anphenotype

ontology:semanticunificationofcommon

andraredisease[J].TheAmericanJournal

ofHumanGenetics,2015,97(1):111-124.

[2]NicolasG,AntoineN,Salomon

Rémi,neration

phenotypingusingnarrativereports

inararediseaseclinicaldata

warehouse[J].OrphanetJournalofRare

Diseases,2018,13(1):85-96.

[3]ShenF,ZhaoY,WangL,

diseaseknowledgeenrichmentthrough

adata-drivenapproach[J].BMC

MedicalInformaticsandDecision

Making,2019,19(1):32-43.

[4]HamoshA,ScottAF,AmbergerJS,

MendelianInheritancein

Man(OMIM),aknowledgebaseofhuman

genesandgeneticdisorders[J].Nucleic

AcidsResearch,2005,33(1):514-517.

[5]JiaJM,AnZX,MingY,etal.

eRAM:encyclopediaofrare

diseaseannotationsforprecision

medicine[J].NucleicAcids

Research,2018,46(1):937-943.

[6]FlynnAJ,FriedmanCP,BoisvertP,

wledgeObjectReference

Ontology(KORO):aformalismtosupport

managementandsharingofcomputable

biomedicalknowledgeforlearninghealth

systems[J].LearningHealthSystems,

2018,2(2):10054-10066.

[7]LehmannHP,rata

forsharablecomputablebiomedical

knowledgeforlearninghealth

systems[J].LearningHealth

Systems,2018,2(4):10065-10074.

[8]FlynnAJ,BoisvertP,GittlenN,etal.

Architectureandinitialdevelopment

ofaknowledge-as-a-serviceactivator

forcomputableknowledgeobjectsfor

health[J].StudiesinHealthTechnology

andInformatics,2018,247:401-405.

[9]ZhangR,LiuJ,HuangY,ing

theinternationalclinicalnomenclature

withChinesedailyusedsynonymsand

conceptrecognitioninphysiciannotes[J].

BmcMedicalInformatics&Decision

Making,2017,17(1):54-70.

[10]DominiqueG,ElisabethL,HenriC.

ContributionofElectronicMedical

RecordstotheManagementof

RareDiseases[J].BioMedResearch

International,2015:1-4.

[11]RamakrishnanN,HanauerD,

electronichealth

records[J].Computer,2010,43(10):77-81.

【收稿日期:2020-06-26】

(责任编辑:张倩)

数字医学基础研究

BasicResearchofDigitalMedicine

👁️ 阅读量:0