本案例获得CHIMA 2020医院新兴技术创新应用典型案例“医院数据治理建设”方向三等奖。
贵阳市健康医疗大数据治理项目以医疗大数据转为数据资产为导向,通过治理数据为手段,将逐步整合全市范围内的医疗相关数据,从而形成高质量、标准化的健康医疗数据资产。项目建成后会将会把相关数据分析提供给政府决策,医疗政策制定,商业分析;以健康医疗大数据资产助推科学治贫、精准扶贫、有效脱贫的实施和落地;健康医疗数据资产反哺至医疗、科研机构和患者。本项目在进一步健全和加强医疗大数据在互联网+医疗健康、公共卫生、家庭医生等业务方面的支撑作用的同时,用数据支撑临床科研成果转化。构健康医疗大数据产业生态链。
本项目以贵阳市卫生健康局为核心单位,服务对象包括市贵阳市卫生健康局、贵阳市各级卫生健康部门和医疗机构。也可通过贵阳市政府共享交换数据平台给其他市直部门提供数据服务。
本项目通过数据治理主要覆盖范围包括全市20多家二级以上公立医疗机构、一百余家基层卫生服务机构的“云HIS”系统、以及部分私立医疗机构的相关信息系统。项目包含全员人口数据,以及居民健康档案、门诊病历、住院病历等数据,预计共计超过100T的健康医疗大数据。
1.数据工程服务
按照健康医疗领域的相关国家数据标准、省市地方标准,为数据治理全生命周期提供规范的数据处理标准,制定《贵阳市健康医疗数据标准规范》,促进贵阳市健康医疗大数据治理项目过程规范化、制度化,推动数据治理高效、有序的开展,以保证数据的统一性、科学性和可靠性。
2.软件系统开发服务
数据目录管理系统:为数据使用者提供医疗相关数据和信息资源目录展示、检索等服务。明确健康医疗数据资源的种类、来源、去向、基本组成元素等信息,促进健康医疗数据标准的制订和更新,实现数据目录有效管理。
健康医疗大数据仓库:包括健康医疗大数据资源、健康医疗主题数据仓库等在内的健康医疗数据仓库服务,为全市健康医疗事业发展提供数据基础和主题数据支撑。
大数据应用系统:包括区域疾病图谱子系统、健康数据智能查询子系统、医疗机构数据视图子系统、行为数据监控子系统、健康大数据诚信档案子系统、居民健康数据视图、健康大数据知识库等多个系统。为健康医疗相关用户提供面向市、区两级卫健部门、医疗机构的数据应用功能,逐步构建以数据应用为中心的平台体系。
1.数据标准化技术
数据标准化技术使用在数据处理阶段,在数据处理过程中将表示同一种含义的多种称呼的医疗术语,统一为标准化的名称,同时梳理不同诊断的流程关系,满足后续数据分析的需要。
2.多源异构数据处理技术
多源异构数据处理技术使用在大数据计算集群服务器进行多源异构数据处理阶段,可以快速对前置机备份过来的医院的多源异构数据结构进行识别,并快速建立不同数据表之间的关联辨析,实现数据整合。数据整合为不同维度,通过智能的运算模型及不同的数据元标准,对数据进行清洗加工。
3.自然语言处理技术
自然语言处理子系统分为三个主要层次。分别是基础数据层,自然语言挖掘算法层,以及结构化系统层。在基础数据处理层主要通过整合权威医学标准,大规模专业词库以及真实临床医学词库构建基础词库。之后在挖掘算法层利用自然语言识别模型的训练进行实体识别,关键词提取,关系识别分类等工作。之后在结构化系统通过工具化人机协同工作针对临床病历数据进行疾病,手术,药品,症状,诊断,检查检验等数据项的结构化工作。
4.大数据治理技术
大数据治理技术应用在数据采集、清洗、转换、关联、数据质控等过程,通过人机结合的方式实现高效精准的数据治理,通过大规模自动化的采集、清洗、归类、关联数据,提升数据分析利用的准确性和实用性,形成统一数据视图为后续系统提供服务。
5.K8S(微服务架构)
Kubernetes是一个全新的基于容器技术的分布式架构技术路线,在本项目中使用在应用架构搭建阶段,Kubernetes(k8s)是Google开源的容器集群管理系统。在Docker技术的基础上,为容器化的应用提供部署运行、资源调度、服务发现和动态伸缩等一系列完整功能,提高了大规模容器集群管理的便捷性。
6.Hadoop
Hadoop是Apache开放源代码框架,在本项目中将采用Hadoop技术搭建大数据计算平台,对汇总的健康医疗大数据进行分布式的集中处理。
7.Kylin
Apache Kylin™在本项目中应用在健康医疗大数据的查询分析中,Kylin提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的Hive表。
8.MongoDB
在本项目中MongoDB应用在线索引信息的存储,在高负载的情况下,添加更多的节点,可以保证服务器性能。
9.大数据挖掘与分析技术
本项目将使用大数据挖掘与分析技术,如建立疾病图谱等。整合和利用来自不同医疗服务机构和业务分散的信息和数据,从不同视角为各部门的数据分析、宏观决策等提供依据。
贵阳市健康医疗大数据治理项目于2019年底正式启动,目前项目基本框架和应用已经初步成型。截至2020年6月底,已经纳入5家二、三级医院和1个基层云HIS的医疗数据,本年内预计完成10家二级以上规模医院和4个基层HIS的医疗数据。预期项目结束时,贵阳市所有公立医院、部分私立医疗机构、全市基层医云端疗服务机构的医疗数据将全部进入治理体系,完成医疗数据资产化的工作。
大数据平台建立应用体系:包括区域疾病图谱子系统、健康数据智能查询子系统、医疗机构数据视图子系统、行为数据监控子系统、健康大数据诚信档案子系统、居民健康数据视图、健康大数据知识库等多个系统。
图1 截至6月平台上完成数据接入情况
图2 数据总体分析情况
图3 健康数据智能查询子系统
图4 疾病特征分布
图5 疾病分析图谱
图6 科研数据平台
图7 健康大数据知识库平台
《“健康中国2030”规划纲要》中提到,“充分发挥健康医疗大数据作为国家重要基础性战略资源的作用”,以数据为依托,支撑以大健康为核心的健康、医疗、保险、药品等产业的联合发展,发挥健康医疗大数据在临床决策支持、药物研发、远程病人数据分析、公共卫生领域等方面的价值。李克强总理明确表示,发展健康医疗大数据产业已经“迫在眉睫”。“老百姓对健康的需求越来越高,大数据在健康医疗领域的运用也在突飞猛进。这些都倒逼我们必须加快发展规范健康医疗大数据应用的步伐”。
贵阳市健康医疗大数据治理项目通过医疗数据治理整合所有健康相关的数据,形成高可用的数据资产,并消除数据壁垒,以市级政府为主导,并运用大数据技术分析手段,对贵阳市人口疾病数据以及其他相关市直单位数据融合,在进一步健全和加强医疗大数据在互联网+医疗健康、公共卫生、人工智能、家庭医生等业务方面的支撑作用的同时,用数据支撑各项互联网医疗服务的落地。同时,以健康大数据资产助推科学治贫、精准扶贫、有效脱贫的实施和落地。
但是,健康大数据发展应用的问题也逐渐浮现出来,如数据的多源性、多样性问题,以及数据质量、可信度问题等。这些问题只有在根本上对数据产生、传输和利用的组织机构有清醒的认识和合理的定位,才能真正从根本上提升健康医疗大数据的可用性。
2015年习近平总书记视察贵阳时强调:“贵州发展大数据确实有道理”。同年“中国数谷”正式落户贵阳。2016年李克强总理在国务院会议上强调,发展和应用好健康医疗大数据,是一项重大民生工程,既可以满足群众需求,也能促进培育新业态、形成新的经济增长点。基于此,贵阳市健康医疗数据治理项目下一步的主要目标是在支持好现有成果的前提下,逐步地进行迭代升级。进一步推进健康大数据在科研成果转化方面,以及构建健康大数据产业生态链,用数据推动保险、药企、养老等产业的融合。将以健康医疗大数据资产为基础、健康医疗信息化建设为推手、健康医疗大数据应用为目的。努力通过大数据资产化来构建健康医疗大数据产业生态链,用大数据推动大数据、大健康、大扶贫等产业的联合发展。
来源:CHIMA、贵阳市卫生健康局