你的位置:首页 > 新闻动态 > 行业资讯

业务研究│数据文件归档研究——以江苏开放大学为例

2018/6/4 8:45:57      点击:

摘 要:按照信息的存在形式划分,数据文件是电子文件的重要类别之一。本文界定了数据文件的概念和本质属性,总结了数据文件面临的管理难题,即来源复杂、系统依赖程度高和缺乏真实性保障。从具体案例入手,在实践层面分析了数据文件的归档价值、真实性保障途径和归档流程。在此基础上,提出了加强数据文件归档工作的对策思考。

关键词:大数据;数据文件;电子文件;元数据

Abstracts: According to the form of information, data files areone of the most important categories of electronic records. This paper definesthe concept and essential attributes of data files, and summarizes themanagement difficulties faced by data files, namely, complex sources, highsystem dependence and lack of authenticity protection. Then from the specificcase, the archiving value of data files, the way of ensuring the authenticityand the process of archiving are analyzed in the practical level. On thisbasis, this paper puts forward some countermeasures to strengthen the archivingof data files.

Keywords: Big data ; Data file ;  Electronicrecords;  Metadata

 


近年来,政务、商务、医疗、交通、媒体、教育等各行业领域,越来越重视数据的积累,尝试采用基于大数据驱动的管理与决策。据国际数据公司(IDC)预测,2020 年全球数据量将达到 44ZB,而中国的数据量将会在 2020 年超过 8ZB[1],世界正在实质性地迈入大数据时代。在此背景下,数据文件归档工作,无疑将成为档案学理论研究和实践探索的重点之一。

1.研究对象的界定

按照信息的存在形式,电子文件可分为文本文件、数据文件、图像文件、影像文件、声音文件、程序文件、多媒体文件、超文本文件、超媒体文件等[2]。数据文件,作为电子文件重要的存在形式,主要包括两类,一是指含有数据的电子表格文件,如用Excel软件、WPS表格等制作的用于记录或计算各类数据的表格;二是数据库电子文件,是指在事务处理系统中单独承担文件职责,或者作为文件的重要组成部分出现的数据对象[3]。从本质上来讲,Excel等表格处理软件也算一种体量微小的数据库,数据文件可以理解为“以数据库形式存在的具有文件属性的记录”。

1.1数据库形式。处理不同体量的数据,需要不同数量级的数据库软件。比如,日常办公处理数据,Excel等表格软件即可满足需要;而管理海量数据信息,则需要Oracle、SQL等大中型数据库。不同软件公司出品的数据库文件格式相异,比如Access数据库的扩展名是.mdb,SQL数据库的扩展名是.mdf, Oracle数据库的扩展名是.dbf。即使是同一款数据库,不同版本也会产生不同扩展名的数据文件。

1.2文件属性。根据《档案工作基本术语》(DA/T1-2000)的规定,“文件”是指“国家机构、社会组织或个人在履行其法定职责或处理事务中形成的各种形式的信息记录”。数据文件具有文件属性,指在社会实践活动中产生的,经过形成、办理、传输等流程,以数据库文件格式存储的信息记录。其他不具备文件属性的数据库文件,不是数据文件。

2.数据文件归档面临的主要问题

2.1来源复杂。产生数据文件主要有两个途径:一是在使用Excel等办公软件管理数据,生成.xlsx文件;二是业务系统(business system,BS )产生的数据文件,如办公自动化系统、电子商务系统、财务管理系统、地理空间数据系统、客户关系管理系统、人力资源管理系统等。业务系统产生的文档,会被归入电子文档管理系统(Electronic Records Management System,ERMS)或电子文件长期保存系统(trusted digital repository,TDR)进行管理,实现文档一体化。

2.2系统依赖程度高。除了Excel表格类文件外,数据文件对业务系统软件和数据库的依赖程度高。没有了数据库,无法读取数据文件;缺少了业务系统软件,不能确定各字段数据之间的关联,无法表达确定含义。回顾数据库发展历史中出现了多种数据模型,无论是层次模型、网状模型,还是面向对象的模型,都存在较大程度的数据库依赖和软件依赖。

2.3元数据无法保障数据文件真实性。关系型数据库的元数据,主要是指对创建时间、权属、权限、用户、角色等数据库层要素进行描述,对数据表、数据表关系、视图、存储过程等数据分区层逻辑关系进行解释,对约束、索引、触发器、字段限制等数据表层要素进行说明。可见,数据文件的元数据,功能在于完整、清晰的呈现数据文件的含义,而不在于确保其真实性。从数据、信息和文件之间的关系可知,数据处于底层,信息是提供决策的有效数据(处于中层),文件是由机构或个人在社会实践过程中所产生或接收的记录信息(处于顶层)[4]。业务系统管理处于底层的数据,在产生数据文件后,并没有像文书类电子文件一样,经历起草、流转、签批、归档等流程,也没有电子签章、时间戳等元数据保障其真实性。

......