作者:冶超,侯杰,孙中明,徐伯楠,刘红,邓晶,郭子丹编辑:思俊摘要目的 本文以2010全国克山病监测数据中血压相关变量的清理为例,探索利用SPSS软件在公共卫生监测数据清洁中的应用,提高数据质量。方法 利用SPSS13.0中Identify duplicate cases,Sort cases,Frequencies,Selectcases(if),Missing(variable)及Graph等命令清洗数据。结果 SPSS可以监测数据的中重复记录、异常值、缺失值、逻辑错误值进行检查和处理。结论 本文利用SPSS13.0软件进行的数据清洗方法可以快速有效的完成数据清理工作,提高克山病病区血压数据质量,也可为其他类似的公共卫生项目提供技术参考。正文“大数据时代(big data)”最早由麦肯锡咨询公司提出,大数据时代的决策并非依靠经验和直觉,而是基于数据和分析[1]。近年包括预防医学在内的各个领域都随着大数据时代发生着变革。数据质量则成为数据分析结果准确的关键因素。高质量的监测数据为公共卫生决策提供可靠的数据支持,为制订、调整克山病的防控策略和规划、合理分配卫生资源提供科学依据[2]。但是由于基层业务水平及现场实施等原因,公共卫生监测数据有数据量大,质量参差不齐的特点,进行数据分析前必须对原始数据进行清洁,保证数据质量。2003年,在“非典”的冲击下,政府重新审视整个公共卫生体系,并反思现行的公共卫生政策,公共卫生的作用越来越受到重视,国家对其投入也逐年增加。克山病监测始于1990年,2004年中央通过转移支付项目对地方公共卫生进行资金补助,投入增加使克山病监测范围能够有所扩大,同时为了更加准确掌握监测结果开始要求各监测点上报原始数据[3]。SPSS(statistical product and servicesolutions,统计产品和服务解决方案)软件是在公共卫生项目中常用的统计分析软件,本文以2010年克山病全国监测数据中血压相关变量为例,探索SPSS软件在清理公共卫生监测数据中的应用。1 资料与方法1.1 资料 2010年克山病监测覆盖甘肃、、黑龙江等13个省120个县的监测点。监测数据包含114个变量,共得到原始记录47 142条。本文根据需要主要清洁基本信息(省市县区域代码、省、县、体检个体编号、现住乡、现住村、姓名、性别、年龄、调查日期)、舒张压、收缩压等关键变量。1.2 软件及使用 利用SPSS13.0软件中Selectcases(if)、Sort cases、Frequencies、Identify duplicatecases等命令单独或者组合对数据等变量血压进行数据清理[4]。1.3 数据清理 数据清洁是为了清除数据中不符合要求的数据,提高数据的可靠性和利用率,保证数据质量[5]。数据清洁大致分为三个阶段:第一,数据分析、定义错误;第二,搜索错误数据;第三,修正错误[6]。1.3.1 原始数据分析 进行数据清洁之前必须对需要清理的原始数据有充分的了解,掌握每一个变量名称、正确的格式、代表的含义、变量的数值分布情况以及和其他变量之间的关系,考虑该变量可能存在的问题、使用哪些命令找出问题及如何修订。建立一个原始变量说明(表1),定义清理的原则。1.3.2 清洗规则 数据问题类型大致分为相似重复记录、缺失值、逻辑错误值、异常值4种。进行清洁结合专业知识对清洗规则进行合理设计。1.3.3 错误修改 针对筛查出的错误数据,选择删除或者修正。1.4 数据清洁实例1.4.1 相似重复记录的筛查及处理 相似重复记录是指客观上表示是同一对象实体但由于表现形式不同而未能被系统辨识的记录[6-7]。为了提高清洁效率,在进行各关键变量清理之前应先对整个数据库中的重复记录进行清洁。重复数据查找有多种方法,排序-合并的方式是将每一条记录与数据库中的其他记录相比较,这种方式由于识别重复记录的精确度高而被广泛应用[7-8]。在SPSS 13.0中识别原始数据中的相似重复记录可以利用Identify duplicate cases命令,按照Data-identify Duplicate case-define matchingcase by(姓名、性别、年龄、现住村),点击OK确定产生筛查的结果。公共卫生人员在使用SPSS软件时可在每一步操作中使用Paste命令将程序进行保存,在其他变量重复操作时可方便调用。1.4.2 缺失值 数据缺失在大规模调查中是非常常见的问题,出现的原因可能是由于是现场不满足得到数据的条件,拒绝回答或是有获得的数据但工作人员在数据录入的时候漏录。本文经过对血压等关键变量进行清洁,Frequencies—sort data—sort by(收缩压)—ascending,就可在数据库看到所选变量按照升序排列,代表缺失值的“.”会显示在数据库最上部。在Data view界面点击Select data—If(Missing(variable))—continue—Copy select case to a newdataset对缺失值进行提取。1.4.3 逻辑错误数据的筛查与处理 按照Selectdata-If(收缩压<舒张压)-continue-copy select caseto a new dataset进行逻辑错误值筛选。1.4.4 异常值的筛查及处理 清理异常值可以做箱式图、散点图、频数分布图来观察血压分布。本文利用Frequencies查看血压值的分布,Select data-If(收缩压≤50or收缩压>250)-continue-Copy selectcase to a new dataset命令进对收缩压的异常值进行数据筛选和提取,其他变量均按照以上命令进行清洁。2 结 果2.1 相似重复记录的处理 针对筛查出的重复记录有两种处理方式:第一,将其中一条作为正确的记录予以保留,其他的重复记录删除;第二,将各条重复记录进行合并,形成更完整的信息记录。对于监测数据筛查出的重复记录,需反馈给各省市的负责监测上报数据的机构进行核实,按照实际情况将重复记录删除或者合并。2.2 缺失值的处理 针对数据缺失值有删除和填补两种方法[9]。删除方法简单方便,删除包含缺失值变量的记录是以减少数据量来换取数据的完备性,删除的方法适合于包含缺失值记录与整个数据集相比非常小的情况[9]。缺失数据填补包括人工填补和自动填补,人工填补耗费人力和时间成本较大,适用于非常重要的数据。自动填补可利用SPSS中的Replacemissing values命令[4]。另外对缺失数据进行修改时整个数据需要采用统一原则进行,并不单独针对某一条数据[9-11]。以克山病监测数据中针对缺失的收缩压和舒张压数据为例,首先向数据上报机构反馈情况,尽量取得可靠数据进行填补。因实际情况限制无法取得缺失的数据,本文经过缺失值分析(Missingvalue analysis),采取线性回归法进行代替和估计(linear trend at point)进行填补。2.3 逻辑错误数据处理 按照Select data-If(收缩压≤舒张压or差<15)-continue-copy select case toa new dataset进行逻辑错误值筛选。对筛查出逻辑错误值要根据专业知识进行处理,尽量按照原始记录进行修订。如果不是录入过程中的失误,原始数据也存在逻辑错误,原则上不能随意修改原始数据,可考虑删除逻辑错误值。2.4 异常值的处理 清理异常值可以做箱式图、散点图、频数分布图来观察血压分布。本文利用Frequencies查看血压值的分布,Select data—If(收缩压≤50or收缩压>250)-continue-copy select caseto a new dataset命令进对收缩压的异常值进行数据筛选和提取,其他变量均按照以上命令进行清洁。针对筛选出的异常数据不能不经任何处理就直接删除,应核对原始数据确认输入无误后再根据记录里相关变量情况进行处理。3 讨 论疾病监测的原始数据会存在缺失异常等问题,未经处理就直接用于统计分析,虽然能够保证数据的完整性,但是无法保证分析结果是否准确可信。没有可信的数据分析得到的结果的可靠程度也就大打折扣。数据分析前的清理工作尤为重要。数据分析前的清理工作也是发现项目问题的过程,通过出现的问题数据可以找到项目的不足,可为以后该卫生项目的进一步完善提供有效的建议。数据质量的产生一般发生在数据从产生到使用的过程,数据从一个系统传到另一个系统的过程[12]。克山病监测数据清理中出现的各种问题也为公共卫生监测提高数据质量提供了启示。第一,从源头上保证数据质量,在现场调研针对收集的数据要及时检查有无错填漏填,尽可能的保证数据的完整性,减少大量空白数据的情况发生。第二,数据库设计需更加合理。比如,在录入过程中,尽量使用选择的方式获得数据项,减少手动的输入。屏蔽非法格式的数据进入数据库。第三,人员培训。管理层和业务人员都需要认识到数据的价值,数据质量的重要性,认真对待数据工作,消除录与不录,录对录错的都无所谓的观念。另外,录入人员上岗前需经过培训,使其了解数据库操作系统,掌握基本的数据录入原则及能力。第四,公共卫生监测数据涉及到全国很多省疾病预防控制单位,各地数据上报机构应该利用软件统一录入、产生相关数据,而不是各地按照自己的标准产生数据。公共卫生监测是制订、实施、评价疾病和公共卫生事件预防控制策略与措施的重要信息来源,监测数据完整性和代表性对监测的其他环节有着重要的影响[13-15]。利用SPSS统计软件可以有效的检查出克山病监测血压数据中的问题数据,并且通过处理提高数据的质量。本文介绍的应用SPSS进行重复记录、缺失值、逻辑错误数据以及异常数据筛选同样适用大型公共卫生数据清洁,也可为类似的公共卫生项据提供技术参考。来源:?国外医学医学地理分册第36卷第1期2015年3月?鍝効娌荤枟鐧界櫆椋庡ソ鍖椾含涓撲笟鐧界櫆椋庝笓绉戝尰闄?