《基于文檔型非關(guān)系型數(shù)據(jù)庫的檔案數(shù)據(jù)存儲規(guī)范》(以下簡稱《規(guī)范》)(DA/T 82—2019)由國家檔案局于2019年12月16日發(fā)布,2020年5月1日起正式實施?!兑?guī)范》規(guī)定了使用文檔型數(shù)據(jù)庫存儲檔案數(shù)據(jù)的總體要求,提出了使用文檔型數(shù)據(jù)庫存儲和管理檔案數(shù)據(jù)的基本功能和實施方法,適用于各級各類檔案館、機關(guān)、團體、企事業(yè)單位對檔案數(shù)據(jù)的存儲。
編制背景
隨著數(shù)字檔案館(室)建設(shè)的推進,館藏傳統(tǒng)載體檔案數(shù)字化普遍開展。2018年,國務(wù)院發(fā)布了《國務(wù)院關(guān)于加快推進全國一體化在線政務(wù)服務(wù)平臺建設(shè)的指導(dǎo)意見》,“互聯(lián)網(wǎng)+政務(wù)服務(wù)”“一網(wǎng)通辦”在全國深入推進,檔案館面臨最直接的問題就是如何高效、快速、敏捷地對接各種業(yè)務(wù)系統(tǒng),并且完整地收集、歸檔、保存各類業(yè)務(wù)數(shù)據(jù)。
目前,我國檔案部門大都采用關(guān)系型數(shù)據(jù)庫存儲和管理檔案數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫對數(shù)據(jù)的規(guī)范性要求高,能夠很好地管理和存儲結(jié)構(gòu)化數(shù)據(jù),但對數(shù)據(jù)結(jié)構(gòu)復(fù)雜類型多樣的非結(jié)構(gòu)化數(shù)據(jù)的存儲和管理存在諸多局限。據(jù)統(tǒng)計,檔案數(shù)字資源中非結(jié)構(gòu)化數(shù)據(jù)占據(jù)絕大部分,未來還將出現(xiàn)爆炸性增長。有效存儲、管理、利用非結(jié)構(gòu)化數(shù)據(jù)是檔案工作者必須面對的課題。歷時3年,國家檔案局檔案科學(xué)技術(shù)研究所于2016年完成了“基于非關(guān)系數(shù)據(jù)庫的電子檔案存儲規(guī)范研究及系統(tǒng)實現(xiàn)”國家檔案局科技項目,在該項研究成果的基礎(chǔ)上,向全國檔案工作標(biāo)準(zhǔn)化技術(shù)委員會提交了《規(guī)范》的立項申請,旨在解決大規(guī)模檔案數(shù)據(jù)集合多重數(shù)據(jù)種類帶來的挑戰(zhàn),優(yōu)化檔案數(shù)據(jù)存儲,推動檔案數(shù)據(jù)科學(xué)管理。《規(guī)范》被列入2017年檔案行業(yè)標(biāo)準(zhǔn)制修訂項目計劃。
編制思路
《規(guī)范》主要以問題與需求為導(dǎo)向,充分考慮檔案數(shù)據(jù)體量大且增長快、類型繁多且結(jié)構(gòu)復(fù)雜的特點,切實從我國檔案數(shù)據(jù)管理實際需要出發(fā),詳細(xì)闡述文檔型非關(guān)系型數(shù)據(jù)庫存儲和管理檔案數(shù)據(jù)的技術(shù)要求、基本功能和實施方法。注重適用性、規(guī)范性、開放性、互補性,著重先進性與可操作相結(jié)合,使其利于實施。
主要內(nèi)容解讀
《規(guī)范》分10章和2個資料性附錄,涵蓋了使用文檔型數(shù)據(jù)庫存儲檔案數(shù)據(jù)所涉及的各個工作環(huán)節(jié),構(gòu)成一個內(nèi)在關(guān)聯(lián)的整體,能夠起到規(guī)范使用文檔型數(shù)據(jù)庫存儲檔案數(shù)據(jù)的作用。
1
術(shù)語與定義
《規(guī)范》規(guī)定的“內(nèi)容數(shù)據(jù)”“非關(guān)系型數(shù)據(jù)庫”“文檔型數(shù)據(jù)庫的拆分”以及“文檔型數(shù)據(jù)庫的合并”術(shù)語和定義屬于國內(nèi)外首次提出。
2文檔型數(shù)據(jù)庫字段
《規(guī)范》提出的字段類型是為了適應(yīng)不同的內(nèi)容數(shù)據(jù)格式以及元數(shù)據(jù)需要。文檔型數(shù)據(jù)庫字段類型包括字符串、數(shù)值、日期、時間、文本、二進制等,其中文本字段用于存儲文本中的句子和段落,包括從電子文件中抽取的文字信息(或稱文本數(shù)據(jù)),二進制字段用于存儲任何類型的字符,包括ASCII字符以及圖像、視頻、音頻等二進制數(shù)據(jù)。文檔型數(shù)據(jù)庫允許創(chuàng)建不同類型的字段,存儲任意格式的數(shù)據(jù)。采用文檔型數(shù)據(jù)庫,能夠簡單地將不同類型、不同格式的檔案數(shù)據(jù)裝入數(shù)據(jù)庫或映射到數(shù)據(jù)庫。
3文檔型數(shù)據(jù)庫存儲
《規(guī)范》提出,文檔型數(shù)據(jù)庫的存儲對象是內(nèi)容數(shù)據(jù)和元數(shù)據(jù)(含目錄數(shù)據(jù))。內(nèi)容數(shù)據(jù)是電子檔案和傳統(tǒng)載體檔案數(shù)字化副本的固有信息。存儲方式之一是將內(nèi)容數(shù)據(jù)和元數(shù)據(jù)全部裝入數(shù)據(jù)庫,按照與元數(shù)據(jù)的匹配關(guān)聯(lián)關(guān)系,內(nèi)容數(shù)據(jù)存儲在二進制字段中,不是掛接在數(shù)據(jù)庫上;多種格式的內(nèi)容數(shù)據(jù)可裝入同一數(shù)據(jù)庫,不同記錄(行)的內(nèi)容數(shù)據(jù)的格式可不同;同一條記錄可存儲一個或多個內(nèi)容數(shù)據(jù),同一條記錄(行)中多個內(nèi)容數(shù)據(jù)的格式可不同,這些是文檔型數(shù)據(jù)庫存儲內(nèi)容數(shù)據(jù)的顯著特點,也是《規(guī)范》制定的重點之一。關(guān)系型數(shù)據(jù)庫的優(yōu)勢在于能夠很好地管理和存儲結(jié)構(gòu)化數(shù)據(jù)。鑒于關(guān)系型數(shù)據(jù)庫和文檔型數(shù)據(jù)庫各自的特點和優(yōu)勢,檔案部門可以將文檔型數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫共同作為檔案數(shù)據(jù)存儲和管理的工具。
4文檔型數(shù)據(jù)庫的拆分與合并
當(dāng)內(nèi)容數(shù)據(jù)全部載入數(shù)據(jù)庫,數(shù)據(jù)庫會迅速變大。當(dāng)數(shù)據(jù)庫容量超過備份介質(zhì)容量時,就難于對數(shù)據(jù)庫整體進行備份,需要將數(shù)據(jù)庫拆分成若干個小容量的數(shù)據(jù)庫才能進行備份,數(shù)據(jù)庫拆分是《規(guī)范》制定的另一個重點?!兑?guī)范》給出了文檔型數(shù)據(jù)庫拆分的確切定義:一個數(shù)據(jù)庫被分成若干個數(shù)據(jù)完整的子數(shù)據(jù)庫。數(shù)據(jù)庫拆分的方法是以數(shù)據(jù)庫中的記錄為單位進行拆分,通過數(shù)據(jù)庫中的記錄號、記錄的容量或檢索和統(tǒng)計分析從原數(shù)據(jù)庫中提取相應(yīng)的記錄,按順序?qū)⒂涗泴?dǎo)入各子數(shù)據(jù)庫。每一條記錄是一組完整的相關(guān)信息,包括內(nèi)容數(shù)據(jù)及元數(shù)據(jù),保證子數(shù)據(jù)庫中各記錄的關(guān)聯(lián)數(shù)據(jù)完整。數(shù)據(jù)庫拆分可以部分拆分,數(shù)據(jù)庫拆分生成的子數(shù)據(jù)庫結(jié)構(gòu)與原數(shù)據(jù)庫結(jié)構(gòu)可以不同。
數(shù)據(jù)庫合并是數(shù)據(jù)庫拆分的逆操作,是若干個子數(shù)據(jù)庫合成一個數(shù)據(jù)完整的數(shù)據(jù)庫。數(shù)據(jù)庫合并的方法是以子數(shù)據(jù)庫中的記錄為單位進行合并,通過各子數(shù)據(jù)庫中的記錄號、記錄容量或檢索和統(tǒng)計分析從各子數(shù)據(jù)庫中提取相應(yīng)的記錄,按順序?qū)⒂涗泴?dǎo)入一個數(shù)據(jù)庫。數(shù)據(jù)庫合并可以合成子數(shù)據(jù)庫中的部分,記錄數(shù)據(jù)庫合并形成的數(shù)據(jù)庫結(jié)構(gòu)與子數(shù)據(jù)庫結(jié)構(gòu)可以不同。
5數(shù)據(jù)庫備份與還原
文檔型數(shù)據(jù)庫備份的內(nèi)容應(yīng)包括數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)庫結(jié)構(gòu)和數(shù)據(jù)庫定義文件,應(yīng)按照數(shù)據(jù)庫結(jié)構(gòu)(字段)備份數(shù)據(jù)庫數(shù)據(jù)。離線備份是文檔型數(shù)據(jù)庫備份的重要方法,是《規(guī)范》制定的第三個重點。離線備份的存儲介質(zhì)有磁盤、固態(tài)硬盤、光盤等,其存儲容量有限。當(dāng)數(shù)據(jù)庫容量大于備份介質(zhì)容量時,需要將數(shù)據(jù)庫拆分成容量小于備份介質(zhì)容量的若干個子數(shù)據(jù)庫,每個子數(shù)據(jù)庫結(jié)構(gòu)與原數(shù)據(jù)庫結(jié)構(gòu)相同,且保證各子數(shù)據(jù)庫中記錄的關(guān)聯(lián)數(shù)據(jù)完整,然后將各子數(shù)據(jù)庫分別備份到備份介質(zhì)上。采用這種拆分備份數(shù)據(jù)庫的方法,可以直接在子數(shù)據(jù)庫中完成該記錄范圍的數(shù)據(jù)檢索和查詢,不需要對同一記錄的不同字段數(shù)據(jù)在各子數(shù)據(jù)庫間進行數(shù)據(jù)檢索,保持了各子數(shù)據(jù)庫的數(shù)據(jù)完整性。同時,保留原有的訪問控制策略,保證了原數(shù)據(jù)庫的完整性。當(dāng)數(shù)據(jù)庫的容量小于備份介質(zhì)的容量時,無需對文檔型數(shù)據(jù)庫做任何處理,直接對數(shù)據(jù)庫整體進行復(fù)制備份即可。
針對數(shù)據(jù)庫拆分備份的數(shù)據(jù)庫還原,《規(guī)范》提出合并還原的方法:(1)在新建數(shù)據(jù)庫系統(tǒng)合并全部子數(shù)據(jù)庫數(shù)據(jù),然后將合并形成的數(shù)據(jù)庫數(shù)據(jù)還原到原數(shù)據(jù)庫系統(tǒng)。(2)在原數(shù)據(jù)庫系統(tǒng)中合并還原全部子數(shù)據(jù)庫數(shù)據(jù)。
6
檢索與統(tǒng)計分析
隨著信息技術(shù)的發(fā)展和檔案數(shù)據(jù)利用的需要,利用檢索和統(tǒng)計分析從數(shù)據(jù)庫中提取相應(yīng)的記錄進行數(shù)據(jù)庫拆分和數(shù)據(jù)庫合并,《規(guī)范》提出2個資料性附錄:檢索和統(tǒng)計分析。
(1)檢索
檢索的內(nèi)容包括:中文自動分詞與中文分詞詞典、索引、檢索。為提高文檔型數(shù)據(jù)庫中檔案數(shù)據(jù)的查準(zhǔn)率和檢索速度,實現(xiàn)對中文內(nèi)容的統(tǒng)計分析,應(yīng)對內(nèi)容數(shù)據(jù)和元數(shù)據(jù)的中文信息進行中文自動分詞,并根據(jù)不同的檔案門類編寫相應(yīng)的中文分詞詞典。中文分詞詞典是詞的集合,中文自動分詞是一種基于規(guī)則和詞典并能夠自動進行分詞的方法。規(guī)則教系統(tǒng)如何讀數(shù)據(jù),詞典告訴系統(tǒng)所讀數(shù)據(jù)是不是一個單詞。在檔案數(shù)據(jù)裝入數(shù)據(jù)庫時自動調(diào)用分詞程序,在入庫的同時掃描入庫字串,將其切分成供查找和統(tǒng)計分析應(yīng)用的中文單詞。
隨著《紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作規(guī)范》的發(fā)布實施以及電子檔案管理日漸成熟,為檔案數(shù)據(jù)全文檢索奠定了基礎(chǔ)。全文索引是檔案數(shù)據(jù)快速檢索的有效手段。內(nèi)容數(shù)據(jù)裝入數(shù)據(jù)庫時抽取的文字信息存儲在文本字段,對文本字段每個字、詞、詞莖進行全文索引。
中文詞匯中有許多同義詞,典型的例子是政府部門大多有現(xiàn)用名稱、多個曾用名稱和簡稱,如果用其中一個名稱作為檢索詞查找,會嚴(yán)重影響檔案數(shù)據(jù)的查全率;如果用全部名稱和簡稱作為檢索詞查找,需要采用邏輯“或”,即設(shè)置多個檢索條件進行檢索,這會影響檢索效率。為保障檔案數(shù)據(jù)的查全率、查準(zhǔn)率,提高檢索質(zhì)量和檢索效率,詞表檢索是強有力的手段。詞表檢索是用詞表庫中的詞及詞之間的邏輯關(guān)系對數(shù)據(jù)庫中的文字信息進行檢索。邏輯關(guān)系包括:主詞(控制詞)、同義詞、廣義詞、狹義詞和相關(guān)詞,它們既可以是中文的詞,也可以是其他語種的詞。政府部門的現(xiàn)用名、曾用名稱和簡稱屬于同義詞,如果用其中一個名稱作為檢索詞查找,會用全部同義詞進行查找。
(2)統(tǒng)計分析
檔案數(shù)據(jù)的統(tǒng)計分析對象是內(nèi)容數(shù)據(jù)和元數(shù)據(jù)的文字信息,能夠按照字段類型進行統(tǒng)計分析。字符串字段統(tǒng)計分析是對整個字段內(nèi)容和字段中的詞匯(包括詞、單字、數(shù)字等)分別進行統(tǒng)計分析,例如:對歸檔部門、題名、發(fā)文單位、責(zé)任者進行統(tǒng)計分析,獲得歸檔部門、題名、發(fā)文單位、責(zé)任者的數(shù)量和分布。文本字段統(tǒng)計分析是對文本字段中的詞匯進行統(tǒng)計分析,給出不同詞匯出現(xiàn)的頻度和記錄數(shù),例如:統(tǒng)計分析不同年份或不同時期國家檔案局優(yōu)秀科技成果材料中不同詞匯出現(xiàn)的頻度。
《規(guī)范》確定采用文檔型非關(guān)系型數(shù)據(jù)庫存儲和管理檔案數(shù)據(jù)的技術(shù)要求、基本功能和實施方法具有很強的技術(shù)指導(dǎo)性和可操作性,為檔案部門優(yōu)化檔案數(shù)據(jù)存儲、推動檔案數(shù)據(jù)科學(xué)管理提供了有力支撐。同時,《規(guī)范》填補了相關(guān)標(biāo)準(zhǔn)的空白,對順應(yīng)在線政務(wù)服務(wù)的趨勢、主動對接政府?dāng)?shù)字化轉(zhuǎn)型、實現(xiàn)單套制歸檔單軌制管理目標(biāo)具有重要的現(xiàn)實意義。
作者單位:國家檔案局科研所
文章來源:《中國檔案》2020年第7期
聯(lián)系人:劉經(jīng)理
手機:13639961077
電話:0991-2680071
郵件:xjhxyjda@163.com