王霞/刘丹红/徐勇勇/饶克勤CCWANG Xia LIU Dan-hong XU Yong-yong RAO Ke-qin
【内容提要】
目的构建卫生统计调查元数据概念模型,为信息化环境下卫生统计信息的共享、有效利用与管理提供信息标准方面的支撑。方法围绕卫生统计调查的生命周期,用UML建立卫生统计调查元数据概念模型。结果从统计调查周期中抽象出8个关键环节的元数据,8个环节包括:①调查设计;②数据来源;③变量、指标、分类与标准;④数据存储;⑤数据处理;⑥数据产品;⑦调查质量;⑧调查组织与管理。8个环节共抽象出36个元数据实体,114个相关属性。UML概念模型形式化展示了元数据的类、类属性及类间关系。结论卫生统计调查元数据概念模型架起了人与计算机之间的语义桥梁,对于促进信息化环境下统计信息资源的共享、有效管理和利用具有重要意义。
【关 键 词】统计调查/元数据/概念模型
随着卫生领域信息化进程的快速推进,卫生统计工作的内外部环境发生了巨大的变化,“信息数字化、服务网络化、资源规模化”已成为当今卫生统计信息资源的新特征,这些不同于传统印刷型信息资源的特征,对卫生统计信息的管理、组织和服务方式均提出了新的要求。如何在信息化环境下更好地满足用户对卫生信息的需求,促进卫生信息的有效利用与管理,使网络信息资源的各类用户能够及时、快捷、准确地获取所需要的信息,并对所获得的信息有正确的理解和解释是信息爆炸时代面临的突出问题。近年来迅速发展起来的元数据(metadata)理论与技术为解决这一矛盾提供了很好的机制。
目前,元数据的应用已经深入到各个领域,如数字图书馆、地理信息、海洋信息等领域。与其他领域相比,我国在卫生领域的元数据研究尚处于起步阶段,关于统计数据的元数据研究尚未真正展开。本文旨在通过建立卫生统计调查元数据概念模型,为卫生统计信息的产生、处理、利用及管理提供相关的信息标准支撑,从而规范卫生统计调查的过程,控制统计数据的质量,促进统计数据的整合与共享。
一、统计元数据的概念及其作用
元数据最通用的定义是关于数据的数据(data about data)。统计元数据(statistical metadata)是指关于统计数据的描述信息或文档,包括人或系统在收集、阅读、处理、表达、分析、解释、交换、搜索和浏览时,适时、正确使用统计数据所需要的任何信息。统计元数据的作用主要体现在以下几个方面:
(1)支持统计数据共享(sharing data)。
(2)支持统计数据存档:完整的统计数据及其元数据保存是统计数据的二次用户(secondary users)正确使用统计数据资源的基础。缺乏元数据的统计数据的可用性将大大降低。
(3)支持统计资源发现:统计元数据可以帮助统计数据用户方便快捷地找到自己所需的数据,并判断数据的适宜性。
(4)支持统计自动化:统计元数据可以为标准化的统计处理提供必要的参数,引导统计过程实现自动化。统计元数据在统计信息资源和用户(人或软件代理)之间架起了一个语义层,对于统计信息的准确定位、正确理解和解释、数据的传输、交换及整合具有重要作用。
二、建模方法
模型(model)是特定环境下现实世界的抽象。不同环境下,模型的表达形式和作用是不同的。概念模型(conceptual models)是特定领域或概念集合的参考框架(frame of reference),类似于一种分类结构如ICD-9,这种结构可以看作是一种概念模型。不同的人、不同的目的和用途,对统计元数据会有不同的理解,如技术人员对数据库的位置及类型感兴趣,而统计人员则更关心数据的推导和质量。
本研究将元数据理论与技术应用于卫生统计调查领域,在充分的元数据需求分析基础上,围绕统计调查的生命周期,采用统一建模语言UML(united modeling language,UML)建立卫生统计调查元数据概念模型,旨在通过该模型表达卫生统计调查元数据的基本信息需求,为卫生统计元数据库的建立提供基础标准支持,并通过卫生统计调查元数据提高卫生统计数据质量,促进数据的整合与共享。
三、卫生统计调查元数据需求分析
我国的卫生统计数据主要来源于《国家卫生统计调查制度》和各类专项统计调查,如国家卫生服务调查、中国居民营养与健康状况调查等。前者属于全面统计报表,后者属于专项抽样调查。这两类调查基本体现了我国卫生统计调查的特征。本研究针对这两类调查进行元数据需求分析,在此基础上建立国家卫生统计调查的无数据概念模型。
(一)《国家卫生统计调查制度》元数据
《国家卫生统计调查制度》是我国卫生统计业务的主要内容,是全国统一的卫生统计标准,包括经国家统计局批准的49套统计调查表,调查内容包括卫生资源统计、医疗统计、卫生监督统计、疾病控制统计、妇幼保健统计等。统计调查表都有对其进行描述的元数据。我国现有的卫生统计调查制度中的统计调查表的元数据可分三部分:
(1)描述统计调查表本身的元数据:表号、表名、制表机关、批准机关、批准文号、主管单位、有效起始日期、有效结束日期。
(2)关于报表数据的元数据:即填表说明,其元数据包括调查目的、填报单位、填报范围、填表日期、报送日期、报送内容、报送方式、填表要求、统计口径、指标解释、数据录入要求、汇总表式及有关代码标准。
(3)统计结果发布元数据:国家卫生统计调查制度中各类调查表的调查结果以传统出版物的形式发布,如中国卫生统计提要、中国卫生统计年鉴。这部分元数据主要存在于出版物的“说明”部分,包括数据来源、覆盖范围、相关注释等。
上述元数据描述了关于卫生统计调查报表及其数据的信息,是正确填报各类卫生统计报表的指南,也是对统计数据进行正确分析和利用的基础,它们构成了我国现有卫生统计调查制度元数据的主要内容。
(二)国家卫生服务调查元数据
国家卫生服务调查是一项由卫生机构负责,旨在收集反映我国城乡居民健康水平、卫生服务的需要和需求量、医疗保障制度改革、医疗保健费用、卫生服务资源及其利用效率等数据的专项抽样调查。第一次国家卫生服务调查始于1993年,第二次、第三次国家卫生服务调查分别于1998年和2003年进行,调查周期为5年。我国公开发布并被保存的关于国家卫生服务调查的元数据主要包括调查设计及调查组织方面的元数据。
(1)调查设计元数据:主要包括调查自的、调查对象、调查时间、抽样设计、调查内容、调查方法、调查实施质量控制、调查数据质量、时效性、调查问卷、与以往调查的可比性等。
(2)调查组织无数据:包括组织机构、调查领导小组、调查负责人等信息。卫生统计调查元数据的主要功能之一就是要很好地满足其用户的需求。统计元数据应该贯穿统计调查,本研究围绕统计调查的生命周期,涉及抽样设计的元数据、数据收集的元数据、数据管理元数据、统计处理元数据、出版的元数据及统计数据质量的元数据等。
(三)现有统计元数据的不足
(1)统计元数据不全或缺失,导致大量的统计数据无法使用
我国卫生统计调查中,虽然有不少关于卫生统计调查的元数据,但是与统计调查生命周期的各环节所需的无数据需求相比还不够全面。如国家卫生服务调查中关于数据质量的元数据在其设计方案中有明确的记录,包括样本的代表性、调查实施的质量控制等元数据,而关于误差方面的元数据很少被记录等。统计数据的数值以变量的形式存放,而说明解释统计数据的元数据如指标名作为列变量的变量名存储,或者以标签的形式出现,或者根本就不存储,而仅仅存留于统计数据分析人员的记忆中。当统计数据比较庞大、新一期数据不断产生、指标体系发生变化时,人工管理指标必然造成统计数据含义不清和语义混乱的现象。这种数据的不完整保存使得长期积累的海量历史数据失去利用价值,造成数据资产的严重流失。
(2)现有卫生统计调查元数据的存在方式,严重制约了统计数据的使用范围
我国现有的卫生统计元数据都是以自由文本的形式存在于相关的统计机构或部门。对于大多数统计数据的用户来说,这些元数据是不容易得到的。缺乏元数据的统计数字(number)对于其用户来说是毫无意义的,更谈不上对统计数据的利用。
(3)统计数据产品的发布侧重统计数字发布,缺乏相关元数据的支持
我国卫生统计数据及调查结果虽然能够实现网上发布,但终端用户所看到的数据却常常是一张张简单罗列的数据表,无法同步得到能够帮助他们理解和解释表中数据的信息,以致常常会出现不同的用户对同一统计结果有不同的理解甚至出现错误地解释的现象,从而使统计信息的可用性大大降低。缺乏卫生统计调查元数据标准已经成为制约我国卫生统计信息利用的瓶颈。
可见,缺乏相应的统计元数据是制约我国卫生统计数据资源开发利用的关键因素之一。虽然卫生统计元数据不能解决卫生统计信息化过程中的所有问题,但是制定一套科学、全面,遵循国际、国家及部门相关标准的统计元数据标准体系,将会在较高水平上指导卫生统计信息系统建设,协调各类统计数据库的开发,提高统计数据的质量,促进统计数据整合与共享。
四、卫生统计调查元数据概念模型的建立
本研究以国际上关于统计元数据的理论及研究成果为基础,结合我国已有的卫生统计调查元数据,围绕统计调查的生命周期,分8个环节进行元数据实体及其属性的确定。这8个环节分别是:
1.调查设计:确定了5个元数据实体和18个相关的属性。元数据实体分别是:调查、总体、抽样框架、抽样方法和样本。这些元数据实体及其属性是调查设计的主要内容。
2.数据来源:确定了5个元数据实体,20个相关属性。元数据实体分别是:数据来源、管理来源、调查表、其他调查和收集信息。这些元数据对于用户了解统计数据的背景非常重要。
3.变量、指标、分类与标准:确定了4个元数据实体,22个属性。元数据实体分别是:变量、指标、分类和标准。这部分元数据对变量的标准化表达非常重要。
4.数据存储:确定了5个元数据实体,12个属性。元数据实体分别是:数据存储、RDBMS存储、文件存储、表和列,其中数据存储是一个抽象类。这些元数据对于统计数据的长期保存及再利用是非常重要的。
5.数据处理:确定了5个无数据实体,分别是数据核查、操作、选择、分组和运算,其中操作类是一个抽象类。这些元数据描述了统计数据的处理过程,对实现统计数据的自动化处理是非常关键的。
6.数据产品;确定了4个元数据实体,15个属性。元数据实体分别是:结果输出、出版物、在线数据库及其他。其目的在于支持统计数据用户发现、理解和访问统计数据。
7.调查质量:确定了5个元数据实体,10个属性。元数据实体分别是:数据质量与时效、时序中断、误差、校正及调整。这些元数据是统计数据整合及判断其可比性所必需的。
8.调查组织与管理:确定了3个元数据实体,13个属性。元数据实体分别是:组织机构、调查组及联系人。这些元数据是调查组织实施所必需的信息。
统计调查元数据概念模型的实体关系图(UML图)见图1所示。
图1卫生统计调查元数据概念模型概览(UML图)
五、讨论
卫生统计调查无数据在统计数据生命周期的所有阶段都起重要作用,包括从调查设计到数据发布的整个过程。它能够辅助调查设计者、系统开发者及数据分析者进行规范的统计调查的设计、系统开发和数据分析,帮助终端用户正确地解释统计数据。结构化、形式化的元数据概念模型是实现元数据功能的基础,也是建立各类统计调查无数据应用方案的基石,对于增强领域内各类统计调查过程的协调性、数据语义的一致性以及卫生统计调查数据的整合与共享具有重要意义。模型的开发是一个复杂的过程,即使是针对同一个对象,由于开发者的视角不同、目的不同,开发的模型可能差异很大。因此,在模型开发及应用方面有许多问题值得商榷。
(一)关于模型的详细度及适用范围
开发卫生统计调查元数据概念模型的主要目的就是通过模型反映描述卫生统计调查所需的基本元信息需求,这些元信息是统计数据用户进行调查设计、数据收集、数据生产、数据分析和利用的所必需的基本信息。
作为卫生统计调查的通用标准,要求本概念模型不能太复杂细致,否则会限制模型的应用范围,失去其通用性;也不能太过简单,否则会减少卫生统计调查共有元数据的覆盖范围,降低模型对不同调查的协调作用。本研究围绕卫生统计调查的生命周期,共抽象出36个元数据实体,114个相关的属性来描述卫生统计调查数据。模型中对调查设计、数据来源、收集、发布、质量以及调查的组织管理的元数据描述较为详细,而对于统计数据本身(如变量、指标、分类、编码等)、数据处理、数据存储等方面的描述则较为简略。因为不同的统计调查拥有不同变量集、不同的指标(包括基础指标和派生指标),不同的变量会有不同分类和编码规则,其元数据量是非常大的,因此,本概念模型中只给出了描述变量、指标、分类及标准的基本元数据项(相应无数据实体的属性)。关于数据处理与存储等方面的元数据在建立具体的统计数据库及实现统计数据自动处理时才会用到,而元数据的这部分功能不是本概念模型的建模重点。
本研究中的卫生统计调查是一种广义意义上的概念,包括卫生领域的抽样调查、普查和卫生统计调查制度。三类调查同属于卫生统计调查,在统计数据描述方面有许多共同之处,但不同类型的统计调查又有各自的特点。本研究在建立卫生统计元数据模型时,即考虑到模型中元数据实体的通用性,也考虑了兼顾不同类型调查的主要特征,模型中元数据实体的抽象是基于典型的卫生统计调查过程,包括调查设计、数据收集、数据处理、数据存储、数据发布、数据质量及调查组织与管理。
对于典型的卫生统计调查(如国家卫生服务调查),本模型具有很好的适用性。本研究中基于卫生统计调查元数据概念模型的国家卫生服务调查元数据方案只需对本概念模型进行较小的扩展,就能得到满足其需求的应用方案。
对于普查和卫生统计调查制度来说,不存在抽样、抽样误差及参数估计的问题,数据质量的评估也相对简单,因此,在描述这两类统计调查数据时,只需要从概念模型中选择符合其需要的部分无数据实体进行复用。
(二)关于模型的裁剪与扩展
本研究建立的卫生统计调查元数据概念模型提供了描述典型的卫生统计调查所需的基本元数据信息。但是不同卫生统计调查本身都有其专有的特征和需求,这就意味着概念模型中定义的元数据可能相对于具体应用的需求显得“过剩”或者“不足”。而且,在很多情况下,这两种现象可能同时存在。也就是说,卫生统计调查无数据概念模型可能不会完全符合所有卫生统计调查的元数据需求。因此,需要根据具体的统计调查对本模型中定义的元数据及其结构进行裁剪,或者进行扩展。
元数据裁剪是根据具体应用的需求,从本概念模型中裁去不需要的元数据实体和元素。如建立普查和卫生统计调查制度元数据应用方案时,需要裁去概念模型中的元数据实体有:抽样方法、样本、误差、误差校正等。
元数据扩展是通过仔细地分析本概念模型中现有的元数据实体及其属性,并与具体应用所必需的元数据需求进行比照,根据应用需求确认是否缺少描述具体应用所必需的元数据实体或属性,以及需要扩充那些元数据实体或属性。如增加新的元数据实体、增加新的元数据实体属性、对现有元数据实体/属性施加更严格的可选性限制、缩小现有元数据元素的值域等。
【参考文献】
[1]Gillman D W, Appel M V. Statistical Metadata Reserach at the Census Bureau. http://www.fcsm.gov/99papers/gillman.pdf,20O6.
[2]CES. Metanet. http://www.epros.ed.ac.uk/metanet/index.html.2006.03.03.
[3]刘宇.专门元数据研究现状及其发展.中国索引,2004,2(1):35-40.
[4]Colledge M. Statistical Integration Through Metadata Management. ISI Review, 1999,67(1):79-98.
[5]Denk M. Metadata Driven Production of Statistical Aggregates. Diploma Thesis, Dept. of Statistics,
[6]Denk M. Satistical Data Combination: A Metadata Framework for Record Linkage Procedures. Doctoral Thesis, Dept. of Statistics,
[7]Appel. G. A Metadata Driven Statistical Information System. In: EUROSTAT(ed.) Proc. Statistical Meta-Information Systems,
[8]Bethlehem J G, Hundepool A. Analysing and Documenting Electronic Questinnaires. Research in Official Statistics, 1999,2(2):7-32.
[9]Bethlehem J G, Kent J P, Willeboordse A D, et at. On the Use of Metadatain Statistical Data Processing. UN/ECE Work Session on Statistical Metadata Report, Working Paper No. 23,
[10]Sundgren B O. Statistical Metainformation Systems-Pragmatics, Semantics, Syntactics. Statistical Journal of the United Nations Economic Commission for Eurpoe, 1993, 10(2):121-142.
[11]Eurostat. Statistical Metainformation Systems. Proc. of the Workshop on Statistical Metainformation Systems.
【原文出处】《中国卫生统计》(沈阳)2008年4期第338~342页
【作者简介】王霞,刘丹红,徐勇勇,第四军医大学预防医学系卫生统计学教研室(710032);
饶克勤,国家卫生部统计信息中心。