時(shí)間:2022-08-23 10:04:32
導(dǎo)語(yǔ):在大數(shù)據(jù)技術(shù)的撰寫旅程中,學(xué)習(xí)并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領(lǐng)您探索更多的創(chuàng)作可能。

關(guān)鍵詞:大數(shù)據(jù);分布集群;高可用;高可靠
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)03-0019-02
1 概述
當(dāng)前,互聯(lián)網(wǎng)的發(fā)展已經(jīng)進(jìn)入到一個(gè)全新階段,互聯(lián)網(wǎng)的應(yīng)用已經(jīng)深入到人們的日常生活中,尤其是移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展和運(yùn)用已經(jīng)日益成熟,傳統(tǒng)企業(yè)都已經(jīng)開始自覺地運(yùn)用移動(dòng)互聯(lián)網(wǎng)技術(shù)和概念拓展新業(yè)務(wù)和方向[1]。在此背景下,大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生,針對(duì)大數(shù)據(jù)這一新興概念,麥肯錫全球研究所曾給出這樣的定義:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。
2 分布集群數(shù)據(jù)庫(kù)
組成分布集群數(shù)據(jù)庫(kù)系統(tǒng)的每臺(tái)計(jì)算機(jī)可單獨(dú)放在一個(gè)地方,其中每臺(tái)計(jì)算機(jī)都可能保存一份數(shù)據(jù)庫(kù)的完整拷貝副本,或者是部分副本,每臺(tái)計(jì)算機(jī)單元具有自己局部的數(shù)據(jù)庫(kù),位于不同地點(diǎn)。這些計(jì)算機(jī)之間通過(guò)網(wǎng)絡(luò)進(jìn)行連接,共同組成一個(gè)完整的、全局的邏輯上集中、物理上分布的大型數(shù)據(jù)庫(kù)。
在分布式集群系統(tǒng)中,數(shù)據(jù)庫(kù)對(duì)用戶來(lái)說(shuō)是一個(gè)邏輯上的數(shù)據(jù)庫(kù)整體,數(shù)據(jù)庫(kù)的一致性、完整性及安全性都是對(duì)這一邏輯整體進(jìn)行管理控制的。分布集群服務(wù)器對(duì)共享的數(shù)據(jù)進(jìn)行統(tǒng)一的管理,但是非數(shù)據(jù)庫(kù)的處理操作可以由客戶機(jī)來(lái)完成。
在分布式集群系統(tǒng)中,通常采用外部鏈接技術(shù)進(jìn)行數(shù)據(jù)庫(kù)的遠(yuǎn)程控制。組成分布式集群的各計(jì)算機(jī)之間可以通過(guò)網(wǎng)絡(luò)進(jìn)行相互通訊,用戶可以遠(yuǎn)程透明地單獨(dú)訪問(wèn)遠(yuǎn)程各數(shù)據(jù)庫(kù)單元的數(shù)據(jù),也可以組合多個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)以滿足多工作組、部門的復(fù)雜應(yīng)用需求。遠(yuǎn)程數(shù)據(jù)庫(kù)鏈接技術(shù)連接了各分散的數(shù)據(jù)庫(kù)單元,邏輯的將他們組合為一個(gè)整體,從應(yīng)用視圖的角度來(lái)看,分布集中數(shù)據(jù)庫(kù)系統(tǒng)就是一個(gè)整體的數(shù)據(jù)庫(kù)服務(wù)系統(tǒng)。用戶對(duì)此系統(tǒng)的單一邏輯的數(shù)據(jù)庫(kù)訪問(wèn)請(qǐng)求都被自動(dòng)分解、自動(dòng)尋址、自動(dòng)轉(zhuǎn)換為網(wǎng)絡(luò)請(qǐng)求,并在相應(yīng)數(shù)據(jù)庫(kù)結(jié)點(diǎn)上實(shí)現(xiàn)相應(yīng)的操作請(qǐng)求。
分布集群數(shù)據(jù)庫(kù)系統(tǒng)支持混合的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),并采用混合的網(wǎng)絡(luò)協(xié)議,自動(dòng)地進(jìn)行網(wǎng)絡(luò)協(xié)議的轉(zhuǎn)換。在分布集群數(shù)據(jù)庫(kù)系統(tǒng)中,在保證海量數(shù)據(jù)存儲(chǔ)的基礎(chǔ)上,混合了高可用集群和高可靠集群,提高了數(shù)據(jù)庫(kù)系統(tǒng)的可用性和可靠性,滿足了現(xiàn)代互聯(lián)網(wǎng)應(yīng)用的需求。
物化視圖是從一個(gè)或幾個(gè)基表導(dǎo)出的表,同視圖相比,它存儲(chǔ)了導(dǎo)出表的真實(shí)數(shù)據(jù)。當(dāng)基表中的數(shù)據(jù)發(fā)生變化時(shí),物化視圖所存儲(chǔ)的數(shù)據(jù)將變得陳舊,用戶可以通過(guò)手動(dòng)刷新或自動(dòng)刷新來(lái)對(duì)數(shù)據(jù)進(jìn)行同步。物化視圖包括了查詢結(jié)果的數(shù)據(jù)對(duì)象,是遠(yuǎn)程數(shù)據(jù)的本地副本快照。物化視圖允許你在本地維護(hù)遠(yuǎn)程數(shù)據(jù)的副本,但是只能讀取這些副本[2]。
3 高可用集群
數(shù)據(jù)庫(kù)高可用集群通過(guò)緩存交換技術(shù)實(shí)現(xiàn),它基于同一份數(shù)據(jù)文件、但提供了多個(gè)數(shù)據(jù)庫(kù)實(shí)例,即數(shù)據(jù)庫(kù)服務(wù)進(jìn)程。高可用性首要確保數(shù)據(jù)不丟失,數(shù)據(jù)不丟失是高可靠性的最基本的要求,是必須要保證的;其次是使數(shù)據(jù)庫(kù)一直維持在正常的運(yùn)行狀態(tài),確保不停機(jī),以避免給客戶造成損失。
在大數(shù)據(jù)應(yīng)用環(huán)境下,數(shù)據(jù)庫(kù)系統(tǒng)的停機(jī)分為兩類,即計(jì)劃性停機(jī)和非計(jì)劃性停機(jī)。計(jì)劃性停機(jī)一般在數(shù)據(jù)庫(kù)管理軟件升級(jí)、系統(tǒng)維護(hù)或者硬件維護(hù)的情況下進(jìn)行,是有計(jì)劃地安排節(jié)點(diǎn)或者系統(tǒng)的停機(jī)。非計(jì)劃性停機(jī)是異常突然停機(jī),具有不可預(yù)見性,這種情況一般是數(shù)據(jù)庫(kù)管理系統(tǒng)缺陷或系統(tǒng)故障或硬件故障等[3]。
高可用集群數(shù)據(jù)庫(kù)技術(shù)主要包含如下幾點(diǎn):
1)負(fù)載均衡技術(shù):支持靜態(tài)和動(dòng)態(tài)負(fù)載均衡技術(shù),實(shí)現(xiàn)系統(tǒng)范圍內(nèi)各節(jié)點(diǎn)負(fù)載均勻,避免出現(xiàn)單一節(jié)點(diǎn)或者部分節(jié)點(diǎn)負(fù)載過(guò)重而影響整體性能。
2)全局事務(wù)并發(fā)控制技術(shù):通過(guò)高速緩存復(fù)制技術(shù),各節(jié)點(diǎn)保持字典數(shù)據(jù)一致,同時(shí)能夠看到全局鎖和事務(wù)視圖,使得能夠正常實(shí)現(xiàn)事務(wù)的ACID特性。
3)多節(jié)點(diǎn)并發(fā)訪問(wèn)文件控制技術(shù):由于多個(gè)節(jié)點(diǎn)共享同一份數(shù)據(jù),控制好各節(jié)點(diǎn)對(duì)同一份數(shù)據(jù)的更新操作,避免出現(xiàn)錯(cuò)誤的文件讀寫導(dǎo)致的數(shù)據(jù)不一致的問(wèn)題。
4)動(dòng)態(tài)增加和移除節(jié)點(diǎn)技術(shù):在高可用集群環(huán)境中,能夠在不中斷服務(wù)的情況下,通過(guò)增加節(jié)點(diǎn)來(lái)提升系統(tǒng)性能,同時(shí)也能夠在節(jié)點(diǎn)出現(xiàn)故障時(shí),從集群中自動(dòng)移除該節(jié)點(diǎn),并且不影響整個(gè)集群系統(tǒng)對(duì)外提供服務(wù)。
4 高可靠集群
一般采用數(shù)據(jù)復(fù)制技術(shù)來(lái)保證數(shù)據(jù)庫(kù)系統(tǒng)的高可靠性,數(shù)據(jù)復(fù)制同時(shí)也是一種分擔(dān)系統(tǒng)訪問(wèn)壓力、加快異地訪問(wèn)響應(yīng)速的技術(shù),數(shù)據(jù)復(fù)制具有物理和邏輯之分。通過(guò)將一個(gè)服務(wù)器實(shí)例上的數(shù)據(jù)變更復(fù)制到另外的服務(wù)器實(shí)例。可以用于解決大、中型應(yīng)用中出現(xiàn)的因來(lái)自不同地域、不同部門、不同類型的數(shù)據(jù)訪問(wèn)、請(qǐng)求導(dǎo)致數(shù)據(jù)庫(kù)服務(wù)器超負(fù)荷運(yùn)行、網(wǎng)絡(luò)阻塞、遠(yuǎn)程用戶的數(shù)據(jù)響應(yīng)遲緩的問(wèn)題。
高可靠集群提供數(shù)據(jù)庫(kù)的容災(zāi)、數(shù)據(jù)保護(hù)、故障恢復(fù)等,實(shí)現(xiàn)數(shù)據(jù)庫(kù)快速切換與災(zāi)難性恢復(fù)。在生產(chǎn)數(shù)據(jù)庫(kù)的保證"事務(wù)一致性"時(shí),使用生產(chǎn)庫(kù)的物理全備份創(chuàng)建備庫(kù),備庫(kù)能夠通過(guò)生產(chǎn)庫(kù)傳輸過(guò)來(lái)的歸檔日志或重做條目自動(dòng)維護(hù)備用數(shù)據(jù)庫(kù)。
高可靠集群的數(shù)據(jù)同步技術(shù)有以下優(yōu)勢(shì):
1)數(shù)據(jù)庫(kù)自身內(nèi)置的功能;
2)配置管理較簡(jiǎn)單,不需要熟悉其他第三方的軟件產(chǎn)品。
3)物理Standby數(shù)據(jù)庫(kù)支持任何類型的數(shù)據(jù)對(duì)象和數(shù)據(jù)類型;
4)邏輯Standby數(shù)據(jù)庫(kù)處于打開狀態(tài),可以在保持?jǐn)?shù)據(jù)同步的同時(shí)執(zhí)行查詢等操作。
5)在最大保護(hù)模式下,可確保數(shù)據(jù)的零丟失。
5 MPP技術(shù)的應(yīng)用
MPP 架構(gòu)采用統(tǒng)一的并行操作數(shù)據(jù)庫(kù)引擎,將數(shù)據(jù)分散在不同的數(shù)據(jù)庫(kù)節(jié)點(diǎn)上,在高速的內(nèi)部網(wǎng)絡(luò)環(huán)境下,對(duì)于海量數(shù)據(jù)的并發(fā)查詢可極大地減少 I/O,提高查詢效率。MPP 系統(tǒng)工作起來(lái)就像是一臺(tái)單獨(dú)的計(jì)算機(jī),由于采用自動(dòng)化的并行處理,在分析型數(shù)據(jù)倉(cāng)庫(kù)等 OLAP 應(yīng)用中,查詢性能比傳統(tǒng)的單節(jié)點(diǎn)數(shù)據(jù)庫(kù)大大提高。MPP 系統(tǒng)為新一代數(shù)據(jù)倉(cāng)庫(kù)所需的大規(guī)模數(shù)據(jù)和復(fù)雜查詢提供了先進(jìn)的軟件級(jí)解決方案,具有業(yè)界先進(jìn)的架構(gòu)和高度的可靠性,能幫助企業(yè)管理好數(shù)據(jù),使之更好地服務(wù)于企業(yè),推動(dòng)數(shù)據(jù)依賴型企業(yè)的發(fā)展。
6 大數(shù)據(jù)中的應(yīng)用
基于數(shù)據(jù)庫(kù)管理系統(tǒng),搭建高可用、高可靠的分布集群數(shù)據(jù)庫(kù)系統(tǒng),結(jié)構(gòu)如圖 1所示。
在此環(huán)境中,高可用集群之間可搭建成主備關(guān)系,與任意高可靠集群或任意單機(jī)數(shù)據(jù)庫(kù)服務(wù)器通過(guò)外部鏈接構(gòu)成邏輯上統(tǒng)一的分布集群數(shù)據(jù)庫(kù)系統(tǒng)。對(duì)于用戶而言,仍然是單一的數(shù)據(jù)庫(kù)服務(wù)。
單機(jī)數(shù)據(jù)庫(kù)服務(wù)器、高可用集群、高可靠集群都可通過(guò)外部鏈接作為單獨(dú)節(jié)點(diǎn)加入到分布集群數(shù)據(jù)庫(kù)系統(tǒng)中,利用數(shù)據(jù)庫(kù)系統(tǒng)的分布集群事務(wù)機(jī)制,既保留了局部數(shù)據(jù)庫(kù)的自治特性,又可以作為全局分布集群系統(tǒng)中的一員參與到整個(gè)海量數(shù)據(jù)分析中。
解決了海量規(guī)模數(shù)據(jù)存儲(chǔ)的問(wèn)題后,針對(duì)快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低問(wèn)題,數(shù)據(jù)庫(kù)技術(shù)還實(shí)現(xiàn)了以下功能:
1)物化視圖技術(shù)和高級(jí)復(fù)制技術(shù)解決分布集群系統(tǒng)中數(shù)據(jù)流轉(zhuǎn)速度慢的問(wèn)題。
2)支持面相對(duì)象、xml數(shù)據(jù)類型,滿足數(shù)據(jù)類型多樣化的需求。
3)數(shù)據(jù)挖掘技術(shù),是決策分析技術(shù)的一個(gè)更高層次,數(shù)據(jù)挖掘技術(shù)采用人工智能的決策分析方法,按照用戶既定的業(yè)務(wù)目標(biāo),對(duì)數(shù)據(jù)進(jìn)行篩選,揭示其中的規(guī)律,并進(jìn)一步將其模型化。
7 結(jié)束語(yǔ)
隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)庫(kù)管理系統(tǒng)作為處理數(shù)據(jù)的核心之一,在大數(shù)據(jù)中的應(yīng)用不應(yīng)被忽視。因此,加強(qiáng)數(shù)據(jù)庫(kù)新技術(shù)的研發(fā),對(duì)于各個(gè)國(guó)家在大數(shù)據(jù)時(shí)代的信息戰(zhàn)中都顯得尤為重要。
參考文獻(xiàn):
[1] 齊磊.大數(shù)據(jù)分析場(chǎng)景下分布式數(shù)據(jù)庫(kù)技術(shù)的應(yīng)用[J].移動(dòng)通信,2015(12):58-62.
關(guān)鍵詞:大數(shù)據(jù)技術(shù);計(jì)算與數(shù)據(jù);協(xié)作機(jī)制
引言
在現(xiàn)今信息技術(shù)發(fā)展中,數(shù)據(jù)同計(jì)算可以說(shuō)是信息技術(shù)發(fā)展過(guò)程中的兩個(gè)重要主題,在這兩個(gè)主題的基礎(chǔ)上,信息技術(shù)也逐漸出現(xiàn)了大數(shù)據(jù)技術(shù)概念。從嚴(yán)格意義來(lái)說(shuō),所謂大數(shù)據(jù)技術(shù),即是針對(duì)于海量數(shù)據(jù)的分析、存儲(chǔ)以及技術(shù)。對(duì)于這部分海量數(shù)據(jù)來(lái)說(shuō),我們很難直接對(duì)其進(jìn)行應(yīng)用,在獲得數(shù)據(jù)之后,需要在經(jīng)過(guò)一定處理后才能夠獲得有用的數(shù)據(jù),如何能夠?qū)崿F(xiàn)大數(shù)據(jù)時(shí)代下數(shù)據(jù)同計(jì)算的科學(xué)協(xié)作、并能夠?qū)⑵湫纬梢环N機(jī)制,則成為了目前非常重要的一項(xiàng)問(wèn)題。
1 計(jì)算同數(shù)據(jù)協(xié)作機(jī)制對(duì)比
對(duì)于面對(duì)數(shù)據(jù)系統(tǒng)來(lái)說(shuō),其一般為分布式系統(tǒng)類型,即通過(guò)將計(jì)算向數(shù)據(jù)進(jìn)行遷移對(duì)系統(tǒng)中數(shù)據(jù)傳遞代價(jià)進(jìn)行降低,可以說(shuō)是一種通過(guò)計(jì)算對(duì)數(shù)據(jù)進(jìn)行尋找的方式。要想對(duì)數(shù)據(jù)進(jìn)行計(jì)算,實(shí)現(xiàn)數(shù)據(jù)的定位可以說(shuō)是一項(xiàng)重要的前提,而數(shù)據(jù)切分以及存儲(chǔ)方式情況也將對(duì)計(jì)算的模式以及處理效率產(chǎn)生影響。對(duì)此,要想對(duì)數(shù)據(jù)同計(jì)算間的科學(xué)協(xié)作進(jìn)行實(shí)現(xiàn),就需要對(duì)數(shù)據(jù)在分布式文件系統(tǒng)中的存儲(chǔ)方式進(jìn)行研究。而由于在分布式系統(tǒng)當(dāng)中,需要對(duì)數(shù)據(jù)冗余、節(jié)點(diǎn)失效以及備份等問(wèn)題進(jìn)行解決,就對(duì)數(shù)據(jù)同計(jì)算協(xié)作價(jià)值的研究帶來(lái)了較大的挑戰(zhàn)。在兩者協(xié)作機(jī)制研究中,數(shù)據(jù)同計(jì)算的一致性可以說(shuō)是研究重點(diǎn),需要首先從該方面進(jìn)行討論與解決。
1.1 位置一致性映射模型
對(duì)于分布式系統(tǒng)中數(shù)據(jù)同計(jì)算的一致性問(wèn)題,我們可以將其理解為將兩者在同一節(jié)點(diǎn)位置映射,即在數(shù)據(jù)存儲(chǔ)區(qū)域發(fā)起計(jì)算。以網(wǎng)格計(jì)算系統(tǒng)為例,其到達(dá)客戶節(jié)點(diǎn)的數(shù)據(jù)是計(jì)算先于數(shù)據(jù),并根據(jù)客戶端請(qǐng)求將數(shù)據(jù)映射到客戶端中進(jìn)行處理。對(duì)于Hadoop系統(tǒng)來(lái)說(shuō),就是先將數(shù)據(jù)存儲(chǔ)到系統(tǒng)的一個(gè)節(jié)點(diǎn)當(dāng)中,當(dāng)系統(tǒng)發(fā)起計(jì)算時(shí),再對(duì)元數(shù)據(jù)進(jìn)行查詢后對(duì)數(shù)據(jù)存儲(chǔ)位置進(jìn)行獲得,并將計(jì)算任務(wù)映射到節(jié)點(diǎn)當(dāng)中進(jìn)行處理。根據(jù)此種情況,我們可以將計(jì)算同數(shù)據(jù)間的映射比作是數(shù)據(jù)到節(jié)點(diǎn)的映射過(guò)程,在該過(guò)程中,數(shù)據(jù)片同計(jì)算程序在按照一定規(guī)則到節(jié)點(diǎn)進(jìn)行定位之后將兩者注入到節(jié)點(diǎn)當(dāng)中,而到該節(jié)點(diǎn)失效時(shí),數(shù)據(jù)片則會(huì)按照相應(yīng)的規(guī)則進(jìn)行數(shù)據(jù)備份以及遷移,并重新按照規(guī)則實(shí)現(xiàn)到節(jié)點(diǎn)的對(duì)應(yīng)。
在上述模型中,我們可以將計(jì)算視作是一種具有特殊特征的數(shù)據(jù)類型,這是因?yàn)閷?duì)于計(jì)算而言,其自身就是程序語(yǔ)言設(shè)計(jì)的可執(zhí)行程序片,在系統(tǒng)映射過(guò)程中,可以將其同數(shù)據(jù)進(jìn)行同等的看待,且在程序中一般也將包括相關(guān)數(shù)據(jù)的邏輯位置信息。在分布式文件中,其中的定位算法也正是數(shù)據(jù)同節(jié)點(diǎn)間的映射功能,即要想對(duì)兩者的一致性位置進(jìn)行實(shí)現(xiàn),就離不開分布式文件系統(tǒng)的支持。同時(shí),由于在分布式系統(tǒng)中計(jì)算遷移、存儲(chǔ)遷移以及數(shù)據(jù)冗余問(wèn)題的存在,在具體功能實(shí)現(xiàn)時(shí),也將對(duì)存儲(chǔ)冗余以及均衡調(diào)度等技術(shù)進(jìn)行結(jié)合性的應(yīng)用,以此對(duì)兩者科學(xué)協(xié)作、且具有穩(wěn)定健壯特征的系統(tǒng)進(jìn)行實(shí)現(xiàn)。映射方式方面,則有哈希映射以及元數(shù)據(jù)映射等。
1.2 元數(shù)據(jù)映射算法
對(duì)于該類算法來(lái)說(shuō),其可以說(shuō)是最為基礎(chǔ)的對(duì)存儲(chǔ)位置同計(jì)算一致性進(jìn)行實(shí)現(xiàn)的方法,在實(shí)際應(yīng)用中,該方式通過(guò)數(shù)據(jù)塊存儲(chǔ)位置的查找使該位置能夠同指定的存儲(chǔ)節(jié)點(diǎn)進(jìn)行映射,在其對(duì)計(jì)算同數(shù)據(jù)的定位實(shí)現(xiàn)中,同網(wǎng)絡(luò)路由表原理較為類似,即兩者通過(guò)對(duì)有路由的查詢保證數(shù)據(jù)能夠同計(jì)算被分配到同一個(gè)節(jié)點(diǎn)當(dāng)中。對(duì)于應(yīng)用該方式的系統(tǒng)來(lái)說(shuō),其一般為主從結(jié)構(gòu)類型,如果其中出現(xiàn)單點(diǎn)失效情況,則將對(duì)整個(gè)系統(tǒng)產(chǎn)生較大的影響。對(duì)于HDFS以及GFS結(jié)構(gòu)來(lái)說(shuō),就是以該數(shù)據(jù)方式構(gòu)建的。在實(shí)際對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)時(shí),其一般會(huì)根據(jù)節(jié)點(diǎn)目前存儲(chǔ)負(fù)載情況進(jìn)行判斷,而為了避免結(jié)構(gòu)對(duì)失效情況具有過(guò)高的敏感性,也有學(xué)者通過(guò)對(duì)元數(shù)據(jù)進(jìn)行復(fù)制的方式提升系統(tǒng)可用性。
通過(guò)該方式的應(yīng)用,則能夠以較為便利的方式對(duì)機(jī)群系統(tǒng)目前狀態(tài)進(jìn)行利用,在以其為依據(jù)的基礎(chǔ)上對(duì)系統(tǒng)的負(fù)載均衡進(jìn)行實(shí)現(xiàn)。此時(shí),系統(tǒng)主節(jié)點(diǎn)則會(huì)通過(guò)一定調(diào)度算法的應(yīng)用對(duì)數(shù)據(jù)計(jì)算以及存儲(chǔ)進(jìn)行分配,在對(duì)系統(tǒng)負(fù)載均衡進(jìn)行實(shí)現(xiàn)的同將分配信息作為元數(shù)據(jù)進(jìn)行保存。目前,很多針對(duì)集群負(fù)載均衡算法都能夠在元數(shù)據(jù)方法中進(jìn)行應(yīng)用、并將其作為對(duì)柱節(jié)點(diǎn)資源進(jìn)行分配的依據(jù)。在實(shí)際應(yīng)用中,雖然該方式在網(wǎng)絡(luò)信息搜索以及大量復(fù)雜均衡算法的應(yīng)用方面具有較好的表現(xiàn),但當(dāng)系統(tǒng)具有較多數(shù)量小文件時(shí),則需要對(duì)路由數(shù)據(jù)進(jìn)行大量的維護(hù),并因此對(duì)數(shù)據(jù)的查詢效果產(chǎn)生影響。
1.3 哈希映射算法
哈希算法是一種從稀疏到緊密值的映射方式,在計(jì)算以及存儲(chǔ)定位時(shí),可以將其視作路由算法的一種,通過(guò)該方式的應(yīng)用,則能夠?qū)⒛繕?biāo)定位到節(jié)點(diǎn)位置。對(duì)于傳統(tǒng)的哈希算法,其在擴(kuò)展性以及容錯(cuò)性方面的表現(xiàn)都一般,并不能夠較為有效的對(duì)面向數(shù)據(jù)系統(tǒng)節(jié)點(diǎn)的動(dòng)態(tài)變化相適應(yīng),1997年,學(xué)者David Karger提出了使用一致性哈希算法對(duì)數(shù)據(jù)進(jìn)行定位,并在后續(xù)的改進(jìn)中逐漸使其成為了分布式存儲(chǔ)中的標(biāo)準(zhǔn)技術(shù)類型。當(dāng)系統(tǒng)對(duì)該方式進(jìn)行應(yīng)用之后,則不需要對(duì)中心節(jié)點(diǎn)元數(shù)據(jù)進(jìn)行維護(hù),可以說(shuō)對(duì)普通元數(shù)據(jù)服務(wù)器性能瓶頸以及單點(diǎn)失效問(wèn)題進(jìn)行了較好的解決,其實(shí)現(xiàn)過(guò)程為:首先通過(guò)Key值的應(yīng)用將MD5算法變換成一個(gè)32位長(zhǎng)度的16進(jìn)制數(shù)值,在以該數(shù)值進(jìn)行232取模后將其映射到環(huán)狀哈希空間,并以相同的方式將節(jié)點(diǎn)映射到環(huán)狀哈希空間當(dāng)中,此時(shí)Key則會(huì)在哈希空間中尋找到節(jié)點(diǎn)值作為路由值。
2 計(jì)算同數(shù)據(jù)的流式拓樸協(xié)作機(jī)制
2.1 Storm系統(tǒng)
流水線技術(shù)是對(duì)高性能數(shù)據(jù)進(jìn)行處理的重要技術(shù)類型,其主要技術(shù)思想即將一個(gè)任務(wù)分解成多個(gè)具有前后關(guān)系的子任務(wù),在流水線模式中,各個(gè)子任務(wù)的啟動(dòng)同之前順序任務(wù)的完成情況具有依賴,對(duì)具有先后相關(guān)性數(shù)據(jù)分析方面具有較好的實(shí)用性特征。目前,以分布式系統(tǒng)以及流式技術(shù)為協(xié)作的框架機(jī)制已經(jīng)在應(yīng)用中表現(xiàn)出了較好的生命力以及靈活性,在本研究中,將以Storm系統(tǒng)為例進(jìn)行簡(jiǎn)單的介紹。
Storm是由Twitter所推出的一種流式分布式系統(tǒng),在該集群中,由多個(gè)工作節(jié)點(diǎn)以及一個(gè)主節(jié)點(diǎn)組成,其中,主節(jié)點(diǎn)可以說(shuō)是系統(tǒng)的核心,具有任務(wù)布置、代碼分配以及故障檢測(cè)等作用。在該系統(tǒng)中,當(dāng)其要對(duì)實(shí)時(shí)計(jì)算任務(wù)進(jìn)行完成時(shí),需要對(duì)一個(gè)Topology進(jìn)行建立,并由該模塊對(duì)數(shù)據(jù)處理進(jìn)行規(guī)劃。在Storm系統(tǒng)中,元組是基本的數(shù)據(jù)流單位,可以將其看作是一個(gè)被封裝的數(shù)據(jù)結(jié)構(gòu)類型,在Storm系統(tǒng)中,Topology可以說(shuō)是最高級(jí)別的執(zhí)行單元,其是由很多個(gè)節(jié)點(diǎn)所組成的拓?fù)洌谕負(fù)渲校刹煌?jié)點(diǎn)對(duì)相應(yīng)的計(jì)算邏輯進(jìn)行完成。在該系統(tǒng)中,Spout是系統(tǒng)的數(shù)據(jù)流生成器,而Bolt則為不同的處理位置。對(duì)于數(shù)據(jù)流來(lái)說(shuō),由于Spout為數(shù)據(jù)源頭,在實(shí)際運(yùn)行中,其在對(duì)數(shù)據(jù)進(jìn)行讀取之后則會(huì)實(shí)現(xiàn)向Bolt的傳送,其不僅能夠?qū)Χ鄠€(gè)輸入流進(jìn)行接收,且能夠較好的對(duì)數(shù)據(jù)進(jìn)行特定處理。在Storm系統(tǒng)對(duì)Topology進(jìn)行應(yīng)用之后,其則具有了更為強(qiáng)大以及更為靈活的數(shù)據(jù)處理能力,節(jié)點(diǎn)在根據(jù)Topology邏輯對(duì)任務(wù)進(jìn)行分配之后將任務(wù)分配到相應(yīng)物理節(jié)點(diǎn)之上。而從整個(gè)架構(gòu)情況看來(lái),在數(shù)據(jù)以及計(jì)算協(xié)作處理方面,系統(tǒng)主要是通過(guò)Topology進(jìn)行分配,并在按照其描述之后由對(duì)應(yīng)的節(jié)點(diǎn)程序進(jìn)行處理,并由主節(jié)點(diǎn)將根據(jù)一個(gè)邏輯實(shí)現(xiàn)物理節(jié)點(diǎn)的映射。
2.2 流式拓樸映射模型
在Storm系統(tǒng)中,其通過(guò)Topology結(jié)構(gòu)的應(yīng)用,則能夠?qū)^為復(fù)雜的分布式數(shù)據(jù)處理任務(wù)進(jìn)行實(shí)現(xiàn),在整個(gè)過(guò)程中,對(duì)于不同計(jì)算任務(wù),Topology好比是邏輯規(guī)劃,并沒有對(duì)相應(yīng)的物理節(jié)點(diǎn)進(jìn)行對(duì)應(yīng),在系統(tǒng)主節(jié)點(diǎn)中,可能具有數(shù)量較多的該種結(jié)構(gòu),而對(duì)于每一個(gè)結(jié)構(gòu)都可以將其視作為對(duì)特殊問(wèn)題進(jìn)行處理的邏輯規(guī)劃,可以說(shuō),通過(guò)Topology結(jié)構(gòu)的應(yīng)用,則能夠?qū)Υ蠖鄶?shù)問(wèn)題的處理方式進(jìn)行描述。其整個(gè)過(guò)程可以抽象如圖1所示。
在圖1中,每一個(gè)操作就可以將其是作為Bolt,而數(shù)據(jù)發(fā)生器則為Spout,在該系統(tǒng)中,同樣由主節(jié)點(diǎn)對(duì)很多個(gè)處理節(jié)點(diǎn)進(jìn)行管理與監(jiān)控,對(duì)于每個(gè)任務(wù)的邏輯規(guī)劃,主節(jié)點(diǎn)都會(huì)在一定策略的基礎(chǔ)上對(duì)物理節(jié)點(diǎn)進(jìn)行分配,以此對(duì)相關(guān)的計(jì)算恩物進(jìn)行完成。如上圖中,主節(jié)點(diǎn)為操作1分配物理節(jié)點(diǎn)1,為操作2分配物理節(jié)點(diǎn)2,為操作3分配物理節(jié)點(diǎn)3,為操作4分配物理節(jié)點(diǎn)1,在以該種方式進(jìn)行分配之后,Topology則能夠被映射為集群物理結(jié)構(gòu),并能夠?qū)ο鄳?yīng)的計(jì)算任務(wù)進(jìn)行完成。而作為編程人員,在工作當(dāng)中僅僅需要對(duì)Topology的邏輯結(jié)構(gòu)進(jìn)行定義即可,其后續(xù)相關(guān)工作則完全由系統(tǒng)進(jìn)行維護(hù),作為設(shè)計(jì)人員,在整個(gè)操作過(guò)程中也不需要對(duì)失效問(wèn)題進(jìn)行擔(dān)心,這是因?yàn)楫?dāng)某個(gè)節(jié)點(diǎn)出現(xiàn)失效情況時(shí),主節(jié)點(diǎn)將根據(jù)對(duì)應(yīng)操作將其對(duì)一個(gè)好的物理節(jié)點(diǎn)進(jìn)行重新的映射,以此保證整個(gè)規(guī)劃能夠得到順利的實(shí)現(xiàn)。
通過(guò)上述的分析可以了解到,通過(guò)流式拓樸映射方法的應(yīng)用,則能夠使系統(tǒng)根據(jù)Topology描述的情況對(duì)不同的集群計(jì)算結(jié)構(gòu)進(jìn)行自動(dòng)組合,以此以更為靈活的方式對(duì)復(fù)雜問(wèn)題進(jìn)行處理。在整個(gè)過(guò)程中,系統(tǒng)的主節(jié)點(diǎn)具有數(shù)據(jù)路由以及計(jì)算的作用,并通過(guò)Topology的描述對(duì)協(xié)作機(jī)制的跟蹤定位進(jìn)行實(shí)現(xiàn)。
在此,我們以MPS對(duì)Topology到物理的映射過(guò)程進(jìn)行模擬,在節(jié)點(diǎn)間,將通過(guò)Mpi_Send()函數(shù)的應(yīng)用將流數(shù)據(jù)元組注入到節(jié)點(diǎn)當(dāng)中,并在該節(jié)點(diǎn)上對(duì)相關(guān)操作進(jìn)行發(fā)起,之后,通過(guò)MPI_Recv()函數(shù)的應(yīng)用對(duì)前端數(shù)據(jù)進(jìn)行接收,以此對(duì)節(jié)點(diǎn)間通訊進(jìn)行實(shí)現(xiàn)。對(duì)于該種方式來(lái)說(shuō),其能夠?qū)Σ煌瑪?shù)據(jù)系統(tǒng)僅僅能夠進(jìn)行非實(shí)時(shí)數(shù)據(jù)批處理的問(wèn)題進(jìn)行了較好的避免,具有較好的應(yīng)用效果。
3 結(jié)束語(yǔ)
在現(xiàn)今大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)同計(jì)算間的協(xié)作具有了更為重要的意義。在上文章,我們對(duì)大數(shù)據(jù)技術(shù)中計(jì)算與數(shù)據(jù)的協(xié)作機(jī)制進(jìn)行了一定的研究,需要能夠聯(lián)系實(shí)際進(jìn)行系統(tǒng)模式的選擇與應(yīng)用,以此更好的對(duì)數(shù)據(jù)處理任務(wù)進(jìn)行實(shí)現(xiàn)。
參考文獻(xiàn)
[1]羅象宏,舒繼武.存儲(chǔ)系統(tǒng)中的糾刪碼研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2012(1):77-79.
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 挖掘技術(shù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2016)05-0000-00
1數(shù)據(jù)挖掘與數(shù)據(jù)挖掘技術(shù)的方法分析
“數(shù)據(jù)海量、信息缺乏”是相當(dāng)多企業(yè)在數(shù)據(jù)大集中之后面臨的尷尬問(wèn)題,由此而誕生的數(shù)據(jù)挖掘技術(shù)其實(shí)就是用以處理這一尷尬問(wèn)題的技術(shù)。數(shù)據(jù)挖掘?qū)嶋H上是相對(duì)比較新型的一門學(xué)科,在幾十年的發(fā)展過(guò)程中,已經(jīng)不可同日而語(yǔ)。其實(shí)數(shù)據(jù)挖掘技術(shù)的本質(zhì)就是人工智能技術(shù),而數(shù)據(jù)挖掘技術(shù)的利用相對(duì)應(yīng)的就是指人工智能技術(shù)的開發(fā)與應(yīng)用,也就是說(shuō)數(shù)據(jù)挖掘其實(shí)是依賴技術(shù)的提升來(lái)實(shí)現(xiàn)數(shù)據(jù)的整體創(chuàng)新的技術(shù),所以,整個(gè)數(shù)據(jù)挖掘技術(shù)實(shí)際上是非常具有信息價(jià)值的,它能夠幫助決策者更快的得到重要信息并作出決策,提高效率和準(zhǔn)確率,是非常重要的知識(shí)憑證,能夠在一定程度上提高當(dāng)下企業(yè)的整體競(jìng)爭(zhēng)力。
數(shù)據(jù)挖掘技術(shù)的核心就是分析,通過(guò)分析方法的不同來(lái)解決不同類別的問(wèn)題,以實(shí)現(xiàn)數(shù)據(jù)挖掘的潛在內(nèi)容。簡(jiǎn)單來(lái)說(shuō)就是對(duì)癥下藥以保證藥到病除。
1.1聚類分析法
簡(jiǎn)單來(lái)說(shuō)聚類分析就是通過(guò)將數(shù)據(jù)對(duì)象進(jìn)行聚類分組,然后形成板塊,將毫無(wú)邏輯的數(shù)據(jù)變成了有聯(lián)系性的分組數(shù)據(jù),然后從其中獲取具有一定價(jià)值的數(shù)據(jù)內(nèi)容進(jìn)行進(jìn)一步的利用。由于這種分析方法不能夠較好的就數(shù)據(jù)類別、屬性進(jìn)行分類,所以聚類分析法一般都運(yùn)用在心理學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)識(shí)別等方面。
1.2人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是通過(guò)大批量的數(shù)據(jù)進(jìn)行分析,而這種數(shù)據(jù)分析方式本身是建立在一定的數(shù)據(jù)模型基礎(chǔ)上的,因此通常都可以隨時(shí)根據(jù)數(shù)據(jù)需求進(jìn)行分類,所以人工神經(jīng)網(wǎng)絡(luò)也是當(dāng)下數(shù)據(jù)挖掘技術(shù)中最常用的一種數(shù)據(jù)分析方式之一。
1.3關(guān)聯(lián)性分析法
有時(shí)數(shù)據(jù)本身存在一定的隱蔽性使得很難通過(guò)普通的數(shù)據(jù)分析法進(jìn)行數(shù)據(jù)挖掘和利用,這就需要通過(guò)關(guān)聯(lián)性分析法完成對(duì)于數(shù)據(jù)信息的關(guān)聯(lián)性識(shí)別,來(lái)幫助人力完成對(duì)于數(shù)據(jù)分辨的任務(wù),這種數(shù)據(jù)分析方法通常是帶著某種目的性進(jìn)行的,因此比較適用于對(duì)數(shù)據(jù)精準(zhǔn)度相對(duì)較高的信息管理工作。
1.4特征性數(shù)據(jù)分析法
網(wǎng)絡(luò)數(shù)據(jù)隨著信息時(shí)代的到來(lái)變成了數(shù)據(jù)爆炸式,其數(shù)據(jù)資源十分廣泛并且得到了一定的普及,如何就網(wǎng)絡(luò)爆炸式數(shù)據(jù)進(jìn)行關(guān)于特性的分類就成為了當(dāng)下數(shù)據(jù)整理分類的主要內(nèi)容。在上文中提到的人工神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)分析也屬于這其中的一種,此外還有很多方法都是通過(guò)計(jì)算機(jī)來(lái)進(jìn)行虛擬數(shù)據(jù)的分類,尋找數(shù)據(jù)之間存在的普遍規(guī)律性完成數(shù)據(jù)的特性分析從而進(jìn)行進(jìn)一步分類。
2大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用
數(shù)據(jù)挖掘技術(shù)的具體流程就是先通過(guò)對(duì)于海量數(shù)據(jù)的保存,然后就已有數(shù)據(jù)中進(jìn)行分析、整理、選擇、轉(zhuǎn)換等,數(shù)據(jù)的準(zhǔn)備工作是數(shù)據(jù)挖掘技術(shù)的前提,也是決定數(shù)據(jù)挖掘技術(shù)效率及質(zhì)量的主要因素。在完成數(shù)據(jù)準(zhǔn)備工作后進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行挖掘,然后對(duì)數(shù)據(jù)進(jìn)行評(píng)估,最后實(shí)現(xiàn)運(yùn)用。因此,數(shù)據(jù)挖掘能夠運(yùn)用到很多方面。
2.1市場(chǎng)營(yíng)銷領(lǐng)域
市場(chǎng)營(yíng)銷其實(shí)就是數(shù)據(jù)挖掘技術(shù)最早運(yùn)用的領(lǐng)域,通常根據(jù)客戶的具體需求,進(jìn)行客戶分析,將不同的消費(fèi)習(xí)慣和消費(fèi)特點(diǎn)的客戶進(jìn)行簡(jiǎn)單的分類管理,以此來(lái)保證商品能夠順利銷售,并提高個(gè)人銷售的成功率和業(yè)績(jī)。而銷售的范圍也從最初的超市購(gòu)物擴(kuò)展到了包括保險(xiǎn)、銀行、電信等各個(gè)方面。
2.2科學(xué)研究領(lǐng)域
科學(xué)研究與實(shí)驗(yàn)測(cè)試等都需要對(duì)數(shù)據(jù)進(jìn)行關(guān)系分析為進(jìn)一步的實(shí)驗(yàn)和總結(jié)失敗做準(zhǔn)備,而實(shí)驗(yàn)測(cè)試和科學(xué)研究產(chǎn)生的數(shù)據(jù)往往是巨大的,因此數(shù)據(jù)挖掘技術(shù)在科學(xué)研究領(lǐng)域也得以廣泛運(yùn)用。通常都是通過(guò)科學(xué)研究?jī)?nèi)容選擇數(shù)據(jù)挖掘技術(shù)分析法進(jìn)行計(jì)算來(lái)找到數(shù)據(jù)中存在的規(guī)律,實(shí)現(xiàn)數(shù)據(jù)挖掘的部分價(jià)值――科學(xué)知識(shí)的分析與運(yùn)用。
2.3電信業(yè)領(lǐng)域
隨著信息化時(shí)代的到來(lái),電信產(chǎn)業(yè)也飛速發(fā)展起來(lái),到目前為止,電信產(chǎn)業(yè)已經(jīng)形成了一個(gè)巨大的網(wǎng)絡(luò)信息載體,如何將其中信息數(shù)據(jù)進(jìn)行整合就成為電信產(chǎn)業(yè)發(fā)展過(guò)程中的重要問(wèn)題。而數(shù)據(jù)挖掘技術(shù)的運(yùn)用則在一定程度上解決了這一問(wèn)題,大量的數(shù)據(jù)通過(guò)數(shù)據(jù)挖掘技術(shù)得到了有效分類,并在這個(gè)過(guò)程中通過(guò)運(yùn)算得出數(shù)據(jù)之間的關(guān)聯(lián)性,運(yùn)用規(guī)律進(jìn)一步進(jìn)行數(shù)據(jù)分類。
2.4教育教學(xué)領(lǐng)域
教學(xué)評(píng)價(jià)、教學(xué)資源、學(xué)生個(gè)人基本信息等組成了教育教學(xué)領(lǐng)域的數(shù)據(jù)庫(kù),利用數(shù)據(jù)挖掘技術(shù)來(lái)實(shí)現(xiàn)教學(xué)資源的優(yōu)化配置,對(duì)學(xué)生的個(gè)人信息整理歸檔,從而保證教育教學(xué)領(lǐng)域中數(shù)據(jù)整理的良好運(yùn)作。
3結(jié)語(yǔ)
綜上所述,數(shù)據(jù)挖掘技術(shù)對(duì)于當(dāng)今社會(huì)的發(fā)展有著不可替代的作用,而如何改善當(dāng)下數(shù)據(jù)挖掘技術(shù)中存在的問(wèn)題,進(jìn)一步提高數(shù)據(jù)挖掘技術(shù)的質(zhì)量和效率就成為了數(shù)據(jù)挖掘技術(shù)進(jìn)步的方向。本文通過(guò)對(duì)于數(shù)據(jù)挖掘與數(shù)據(jù)挖掘技術(shù)的方法分析和大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用兩個(gè)方面對(duì)于數(shù)據(jù)挖掘技術(shù)進(jìn)行了簡(jiǎn)要的闡述和分析,相信在未來(lái)伴隨著科學(xué)技術(shù)的進(jìn)一步發(fā)展,數(shù)據(jù)挖掘技術(shù)也將更加強(qiáng)大。
參考文獻(xiàn)
[1]程軍鋒.Web數(shù)據(jù)挖掘研究[J].重慶三峽學(xué)院學(xué)報(bào),2013(03).
關(guān)鍵詞:告警數(shù)據(jù) Hadoop Spark
1 引言
隨著電信網(wǎng)絡(luò)的不斷演進(jìn),全省數(shù)據(jù)網(wǎng)、交換網(wǎng)、接入網(wǎng)設(shè)備單月產(chǎn)生告警原始日志近億條。以上告警通過(guò)網(wǎng)元網(wǎng)管、專業(yè)綜合網(wǎng)管、智能網(wǎng)管系統(tǒng)[1]三層收斂,監(jiān)控人員每月需處理影響業(yè)務(wù)或網(wǎng)絡(luò)質(zhì)量的告警事件為20萬(wàn)條,但一些對(duì)網(wǎng)絡(luò)可能造成隱患的告警信息被過(guò)濾掉。如何從海量告警數(shù)據(jù)中獲取與網(wǎng)絡(luò)性能指標(biāo)、運(yùn)維效率相關(guān)的有價(jià)值的數(shù)據(jù),對(duì)于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)架構(gòu)而言,似乎是一個(gè)不可能完成的任務(wù)。
在一般告警量情況下,ORACLE數(shù)據(jù)處理能力基本可以滿足分析需求,但當(dāng)告警分析量上升到億級(jí),如果采用傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算方式,一方面數(shù)據(jù)量過(guò)大,表的管理、維護(hù)開銷過(guò)大,要做到每個(gè)字段建索引,存儲(chǔ)浪費(fèi)巨大;另一方面計(jì)算分析過(guò)程耗時(shí)過(guò)長(zhǎng),無(wú)法滿足實(shí)時(shí)和準(zhǔn)實(shí)時(shí)分析需求。因此必須采用新的技術(shù)架構(gòu)來(lái)分析處理海量告警信息,支撐主動(dòng)維護(hù)工作顯得尤為必要,為此我們引入了大數(shù)據(jù)技術(shù)。
2 分析目標(biāo)
(1)數(shù)據(jù)源:電信運(yùn)營(yíng)商網(wǎng)絡(luò)設(shè)備告警日志數(shù)據(jù),每天50 G。
(2)數(shù)據(jù)分析目標(biāo):完成高頻翻轉(zhuǎn)類(瞬斷)告警分析;完成自定義網(wǎng)元、自定義告警等可定制告警分析;完成被過(guò)濾掉的告警分析、TOPN告警分析;核心設(shè)備和重要業(yè)務(wù)監(jiān)控。
(3)分析平臺(tái)硬件配置:云計(jì)算平臺(tái)分配8臺(tái)虛擬機(jī),每臺(tái)虛機(jī)配置CPU16核;內(nèi)存32 G;硬盤2 T。
3 制定方案
進(jìn)入大數(shù)據(jù)時(shí)代,行業(yè)內(nèi)涌現(xiàn)了大量的數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)處理和分析更高效、更有價(jià)值。Google、Facebook等公司提供可行的思路是通過(guò)類似Hadoop[2]的分布式計(jì)算、MapReduce[3]、Spark[4]算法等構(gòu)造而成的新型架構(gòu),挖掘有價(jià)值信息。
Hadoop是Apache基金會(huì)用JAVA語(yǔ)言開發(fā)的分布式框架,通過(guò)利用計(jì)算機(jī)集群對(duì)大規(guī)模數(shù)據(jù)進(jìn)行分布式計(jì)算分析。Hadoop框架最重要的兩個(gè)核心是HDFS和MapReduce,HDFS用于分布式存儲(chǔ),MapReduce則實(shí)現(xiàn)分布式任務(wù)計(jì)算。
一個(gè)HDFS集群包含元數(shù)據(jù)節(jié)點(diǎn)(NameNode)、若干數(shù)據(jù)節(jié)點(diǎn)(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統(tǒng),DataNode存儲(chǔ)數(shù)據(jù)塊文件。HDFS將一個(gè)文件劃分成若干個(gè)數(shù)據(jù)塊,這些數(shù)據(jù)塊存儲(chǔ)DataNode節(jié)點(diǎn)上。
MapReduce是Google公司提出的針對(duì)大數(shù)據(jù)的編程模型。核心思想是將計(jì)算過(guò)程分解成Map(映射)和Reduce(歸約)兩個(gè)過(guò)程,也就是將一個(gè)大的計(jì)算任務(wù)拆分為多個(gè)小任務(wù),MapReduce框架化繁為簡(jiǎn),輕松地解決了數(shù)據(jù)分布式存儲(chǔ)的計(jì)算問(wèn)題,讓不熟悉并行編程的程序員也能輕松寫出分布式計(jì)算程序。MapReduce最大的不足則在于Map和Reduce都是以進(jìn)程為單位調(diào)度、運(yùn)行、結(jié)束的,磁盤I/O開銷大、效率低,無(wú)法滿足實(shí)時(shí)計(jì)算需求。
Spark是由加州伯克利大學(xué)AMP實(shí)驗(yàn)室開發(fā)的類Hadoop MapReduce的分布式并行計(jì)算框架,主要特點(diǎn)是彈性分布式數(shù)據(jù)集RDD[5],中間輸出結(jié)果可以保存在內(nèi)存中,節(jié)省了大量的磁盤I/O操作。Spark除擁有Hadoop MapReduce所具有的優(yōu)點(diǎn)外,還支持多次迭代計(jì)算,特別適合流計(jì)算和圖計(jì)算。
基于成本、效率、復(fù)雜性等因素,我們選擇了HDFS+Spark實(shí)現(xiàn)對(duì)告警數(shù)據(jù)的挖掘分析。
4 分析平臺(tái)設(shè)計(jì)
4.1 Hadoop集群搭建
基于CentOS-6.5系統(tǒng)環(huán)境搭建Hadoop集群,配置如表1所示。
4.2 Spark參數(shù)設(shè)置[6]
Spark參數(shù)設(shè)置如表2所示。
4.3 數(shù)據(jù)采集層
數(shù)據(jù)采集:由于需采集的告警設(shè)備種類繁多,故采取分布式的告警采集,數(shù)據(jù)網(wǎng)設(shè)備、交換網(wǎng)設(shè)備、接入網(wǎng)設(shè)備分別通過(guò)IP綜合網(wǎng)管、天元綜合網(wǎng)管、PON綜合網(wǎng)管進(jìn)行采集,采集周期5分鐘一次。采集機(jī)先將采集到的告警日志文件,通過(guò)FTP接口上傳到智能網(wǎng)管系統(tǒng)文件服務(wù)器上,再對(duì)文件進(jìn)行校驗(yàn),通過(guò)Sqoop推送到Hadoop集群上。
4.4 邏輯處理層
(1)建立高頻翻轉(zhuǎn)告警監(jiān)控工作流程
先將海量告警進(jìn)行初步刪選,通過(guò)數(shù)量、位置和時(shí)間三個(gè)維度的分析,得出高頻翻轉(zhuǎn)類告警清單列表,最后由專業(yè)工程師甄別確認(rèn),對(duì)某類告警進(jìn)行重點(diǎn)關(guān)注和監(jiān)控。
(2)差異化定制方案
按組網(wǎng)架構(gòu)細(xì)分,針對(duì)核心重要節(jié)點(diǎn)的所有告警均納入實(shí)時(shí)監(jiān)控方案;
按業(yè)務(wù)網(wǎng)絡(luò)細(xì)分,針對(duì)不同業(yè)務(wù)網(wǎng)絡(luò)設(shè)計(jì)個(gè)性化的監(jiān)控方案;
按客戶業(yè)務(wù)細(xì)分,針對(duì)客戶數(shù)字出租電路設(shè)計(jì)個(gè)性化的監(jiān)控方案。
4.5 數(shù)據(jù)分析層
Spark讀取Hive[7]表的告警數(shù)據(jù),然后在Spark引擎中進(jìn)行SQL統(tǒng)計(jì)分析。Spark SQL模K在進(jìn)行分析時(shí),將外部告警數(shù)據(jù)源轉(zhuǎn)化為DataFrame[8],并像操作RDD或者將其注冊(cè)為臨時(shí)表的方式處理和分析這些數(shù)據(jù)。一旦將DataFrame注冊(cè)成臨時(shí)表,就可以使用類SQL的方式操作查詢分析告警數(shù)據(jù)。表3是利用Spark SQL對(duì)告警工單做的一個(gè)簡(jiǎn)單分析:
5 平臺(tái)實(shí)踐應(yīng)用
探索運(yùn)維數(shù)據(jù)分析的新方法,利用大數(shù)據(jù)分析技術(shù),分析可能影響業(yè)務(wù)/設(shè)備整體性能的設(shè)備告警,結(jié)合網(wǎng)絡(luò)性能數(shù)據(jù),找到網(wǎng)絡(luò)隱患,實(shí)現(xiàn)主動(dòng)維護(hù)的工作目標(biāo)。
5.1 高頻翻轉(zhuǎn)類告警監(jiān)控
首先制定了高頻翻轉(zhuǎn)類告警分析規(guī)則,將連續(xù)7天每天原始告警發(fā)生24次以上定義為高頻翻轉(zhuǎn)類告警,并基于大數(shù)據(jù)平臺(tái)開發(fā)了相應(yīng)的分析腳本,目前已實(shí)現(xiàn)全專業(yè)所有告警類型的分析。表4是全省高頻翻轉(zhuǎn)類TOP10排名。
5.2 核心設(shè)備和重要業(yè)務(wù)監(jiān)控
目前以設(shè)備廠商或?qū)<医?jīng)驗(yàn)評(píng)定告警監(jiān)控級(jí)別往往會(huì)與實(shí)際形成偏差,主要表現(xiàn)在以下幾個(gè)方面:監(jiān)控級(jí)別的差異化設(shè)定基于已知的告警類型,一旦網(wǎng)絡(luò)重大故障上報(bào)未知的告警類型就無(wú)法在第一時(shí)間有效監(jiān)控到;同一類型的故障告警出現(xiàn)在不同網(wǎng)絡(luò)層面可能影響業(yè)務(wù)的程度是完全不同的;不同保障級(jí)別的客戶對(duì)故障告警監(jiān)控的實(shí)時(shí)性要求也是不同的。
通過(guò)大數(shù)據(jù)分析平臺(tái)對(duì)差異化監(jiān)控提供了靈活的定制手段,可根據(jù)告警關(guān)鍵字,分專業(yè)、地市、網(wǎng)管、機(jī)房、告警頻次等維度自主定制需要的告警數(shù)據(jù),實(shí)現(xiàn)日、周、月、某個(gè)時(shí)間區(qū)等統(tǒng)計(jì)分析。
應(yīng)用案例:省NOC通過(guò)大數(shù)據(jù)分析出一條編號(hào)為CTVPN80113的中國(guó)平安大客戶電路在一段時(shí)間內(nèi)頻繁產(chǎn)生線路劣化告警,但用戶未申告,省NOC隨即預(yù)警給政企支撐工程師,政支工程師與用戶溝通后,派維護(hù)人員至現(xiàn)場(chǎng)處理,發(fā)現(xiàn)線路接頭松動(dòng),緊急處理后告警消除、業(yè)務(wù)恢復(fù)。
5.3 被過(guò)濾告警分析
全省每天網(wǎng)絡(luò)告警數(shù)據(jù)300萬(wàn)條~500萬(wàn)條,其中99%都會(huì)根據(jù)告警過(guò)濾規(guī)則進(jìn)行過(guò)濾篩選,把過(guò)濾后的告警呈現(xiàn)給網(wǎng)絡(luò)監(jiān)控人員。過(guò)濾規(guī)則的準(zhǔn)確性直接影響告警數(shù)據(jù)的質(zhì)量。一般來(lái)說(shuō)告警過(guò)濾規(guī)則可以從具有豐富運(yùn)維經(jīng)驗(yàn)的網(wǎng)絡(luò)維護(hù)人員獲得,但是這個(gè)過(guò)程非常繁瑣,而且通過(guò)人工途徑獲得的告警過(guò)濾規(guī)則在不同的應(yīng)用環(huán)境可能存在差異,無(wú)法滿足網(wǎng)絡(luò)維護(hù)的整體需要。采用大數(shù)據(jù)技術(shù)對(duì)被過(guò)濾的告警進(jìn)行分析可以很好地完善過(guò)濾規(guī)則,讓真正急迫需要處理的告警優(yōu)先呈現(xiàn)給維護(hù)人員及時(shí)處理,真正做到先于客戶發(fā)現(xiàn)故障。表5是動(dòng)環(huán)專業(yè)被過(guò)濾的告警情況分布。
5.4 動(dòng)環(huán)深放電分析
動(dòng)環(huán)網(wǎng)管通過(guò)C接口采集蓄電池電壓數(shù)據(jù),在停電告警產(chǎn)生之后,電壓數(shù)據(jù)首次下降到45 V,表示該局站電池出現(xiàn)深放電現(xiàn)象,通過(guò)計(jì)算這一放電過(guò)程的持續(xù)時(shí)間,記為深放電時(shí)長(zhǎng),該時(shí)長(zhǎng)可以初步反映電池的放電性能。一個(gè)局站每天產(chǎn)生幾十萬(wàn)條電壓等動(dòng)環(huán)實(shí)時(shí)數(shù)據(jù)。
在告警數(shù)據(jù)分析的基礎(chǔ)上,實(shí)現(xiàn)對(duì)蓄電池電壓變化數(shù)據(jù)的分析,提醒分公司關(guān)注那些深放電次數(shù)過(guò)多和放電時(shí)長(zhǎng)過(guò)短的局站,核查蓄電池、油機(jī)配置、發(fā)電安排等,并進(jìn)行整治。利用Spark SQL統(tǒng)計(jì)了一個(gè)月內(nèi)撫州、贛州、吉安三分公司幾十億條動(dòng)環(huán)數(shù)據(jù),分析了其中深放電的情況如表6所示。
6 結(jié)論
本文利用HDFS+Spark技術(shù),實(shí)驗(yàn)性地解決告警數(shù)據(jù)存儲(chǔ)和分析等相關(guān)問(wèn)題:一是通過(guò)數(shù)據(jù)分析,從海量告警數(shù)據(jù)中發(fā)現(xiàn)潛在的網(wǎng)絡(luò)隱患;二是結(jié)合資源信息和不同專業(yè)的告警,最終為用戶提供綜合預(yù)警;三是轉(zhuǎn)變網(wǎng)絡(luò)監(jiān)控思路和方式,通過(guò)數(shù)據(jù)匯聚、數(shù)據(jù)相關(guān)性分析、數(shù)據(jù)可視化展示,提高了網(wǎng)絡(luò)監(jiān)控效率;最后還擴(kuò)展到對(duì)動(dòng)環(huán)實(shí)時(shí)數(shù)據(jù)、信令數(shù)據(jù)進(jìn)行分析。
從實(shí)際運(yùn)行效果來(lái)看,HDFS和Spark完全可以取代傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算方式,滿足電信運(yùn)營(yíng)商主動(dòng)運(yùn)維的需求。
參考文獻(xiàn):
[1] 中國(guó)電信股份有限公司. 中國(guó)電信智能網(wǎng)管技術(shù)規(guī)范-總體分冊(cè)[Z]. 2015.
[2] Tom white. Hadoop權(quán)威指南[M]. 4版. 南京: 東南大學(xué)出版社, 2015.
[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.
[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.
[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.
[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業(yè)出版社, 2015.
[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.
[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.
[9] 員建廈. 基于動(dòng)態(tài)存儲(chǔ)策略的數(shù)據(jù)管理系統(tǒng)[J]. 無(wú)線電工程, 2014,44(11): 52-54.
【關(guān)鍵詞】云計(jì)算技術(shù) 大數(shù)據(jù) 數(shù)據(jù)處理
隨著物聯(lián)網(wǎng)、網(wǎng)絡(luò)、移動(dòng)通信等的快速發(fā)展,特別是互聯(lián)網(wǎng)的普及使得信息傳播的規(guī)模和速度呈現(xiàn)幾何增長(zhǎng),人們獲取信息的途徑和方式開始變得異常豐富,人們事實(shí)上已經(jīng)進(jìn)入了“信息大爆炸”時(shí)代。與此同時(shí)信息傳播的大容量、高效性和準(zhǔn)確性也對(duì)現(xiàn)有的數(shù)據(jù)處理體系提出了更高要求。根據(jù)大數(shù)據(jù)摩爾定律,人類世界的數(shù)據(jù)產(chǎn)生量將按照每?jī)赡暌槐兜乃俾试鲩L(zhǎng),預(yù)計(jì)2020年世界數(shù)據(jù)量將超過(guò)35億GB,“大數(shù)據(jù)”時(shí)代迫在眉睫。“大數(shù)據(jù)”具有離散型、隨機(jī)性、發(fā)散性、爆發(fā)性等特點(diǎn)。近年來(lái),隨著云技術(shù)的興起全面革新了傳統(tǒng)的數(shù)據(jù)技術(shù),大容量、多樣化、快速處理、信息價(jià)值性和準(zhǔn)確性為了云技術(shù)背景下大數(shù)據(jù)處理的五大主要特征。如何利用云計(jì)算技術(shù)對(duì)大數(shù)據(jù)進(jìn)行高效處理已經(jīng)成為了信息技術(shù)發(fā)展亟待解決的關(guān)鍵問(wèn)題。
1 大數(shù)據(jù)和云計(jì)算的關(guān)系
云計(jì)算技術(shù)是指利用集中式遠(yuǎn)程計(jì)算資源池,通過(guò)按需分配的方式,為終端用戶提供強(qiáng)大而廉價(jià)的計(jì)算服務(wù)技術(shù)。云計(jì)算技術(shù)作為一種數(shù)據(jù)處理方式,其技術(shù)特點(diǎn)包括:一是資源池在物理上是對(duì)終端用戶完全透明的;二是能夠?yàn)槿魏涡袠I(yè)提供規(guī)模化計(jì)算服務(wù),其服務(wù)能力可看做是“無(wú)限”的;三是其應(yīng)用部署快速便捷,服務(wù)能力和方式是可以完全按照終端客戶要求定制的,具有極強(qiáng)的彈性伸縮能力;四是云端數(shù)據(jù)獲取方便,能夠資源共享,用戶使用成本低廉。
云計(jì)算技術(shù)是目前最強(qiáng)大的數(shù)據(jù)存儲(chǔ)、傳輸和處理平臺(tái),它是大數(shù)據(jù)處理的最優(yōu)選擇。云計(jì)算能夠?yàn)榇髷?shù)據(jù)提供幾乎“無(wú)限”的存儲(chǔ)空間和處理能力,滿足其超大容量存儲(chǔ)和超級(jí)復(fù)雜的處理需求,也是傳統(tǒng)存儲(chǔ)方式無(wú)法實(shí)現(xiàn)的。云計(jì)算側(cè)重?cái)?shù)據(jù)的計(jì)算處理,而大數(shù)據(jù)需要強(qiáng)大數(shù)據(jù)處理能力,因而它是云計(jì)算的處理對(duì)象。此外大數(shù)據(jù)所產(chǎn)生的業(yè)務(wù)需求也為云計(jì)算的實(shí)現(xiàn)提供了更多的形式。
2 基于云計(jì)算的大數(shù)據(jù)處理技術(shù)
2.1 大數(shù)據(jù)的采集技術(shù)
目前數(shù)據(jù)采集方式主要分為集中式和分布式兩大類。其中分布式的靈活性較強(qiáng),而集中式的全局性較好。實(shí)際上大數(shù)據(jù)采集的對(duì)象通常包括組織內(nèi)部和相互獨(dú)立組織間的各類數(shù)據(jù),而云計(jì)算恰好具有并行處理的優(yōu)勢(shì),因而可采取混合式采集方式能夠更加有效地完成數(shù)據(jù)采集任務(wù)。即在各個(gè)組織內(nèi)部采用集中式數(shù)據(jù)采集方式,通過(guò)在組織內(nèi)配置中心服務(wù)器,作為集中式數(shù)據(jù)注冊(cè)機(jī)構(gòu),用于存儲(chǔ)和共享內(nèi)部的數(shù)據(jù)。在相互獨(dú)立組織間,采用云計(jì)算的集群技術(shù)、虛擬化技術(shù)等在各獨(dú)立組織中心服務(wù)器間采用分布式采集方式實(shí)現(xiàn)數(shù)據(jù)采集、組織間對(duì)接和共享。大數(shù)據(jù)結(jié)構(gòu)類型包括結(jié)構(gòu)化、半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),因而在應(yīng)用云計(jì)算技術(shù)進(jìn)行分布式采集時(shí),可依托其超強(qiáng)的擴(kuò)展性和容錯(cuò)力,將數(shù)據(jù)池內(nèi)數(shù)據(jù)進(jìn)行同構(gòu)化,從而實(shí)現(xiàn)數(shù)據(jù)進(jìn)行分類存儲(chǔ)。
2.2 大數(shù)據(jù)的存儲(chǔ)技術(shù)
由于超大體量、離散、復(fù)雜的數(shù)據(jù)特點(diǎn),傳統(tǒng)數(shù)據(jù)存儲(chǔ)模式已經(jīng)難以滿足大數(shù)據(jù)存儲(chǔ)要求。一方面單結(jié)點(diǎn)的數(shù)據(jù)倉(cāng)庫(kù)在容量上難以滿足呈幾何增長(zhǎng)的數(shù)據(jù)量,在運(yùn)行效率上也難以滿足大數(shù)據(jù)的分析處理需求。另一方面?zhèn)鹘y(tǒng)數(shù)據(jù)倉(cāng)庫(kù)按行存儲(chǔ)模式,雖然可以實(shí)現(xiàn)大容量索引和視圖,但實(shí)際操作中其時(shí)間和空間過(guò)高。而云計(jì)算主要采取列式存儲(chǔ)模式,即區(qū)分?jǐn)?shù)據(jù)不同屬性,不同屬性列都單獨(dú)存放。云計(jì)算中列式存儲(chǔ)的優(yōu)勢(shì)在于在投影數(shù)據(jù)時(shí)只需查詢其屬性列,系統(tǒng)處理量和處理效率顯著提升。此外按數(shù)據(jù)屬性進(jìn)行列式存儲(chǔ),數(shù)據(jù)倉(cāng)庫(kù)中相鄰列數(shù)據(jù)的相似性更高,因而能夠得到更高的數(shù)據(jù)壓縮率,進(jìn)一步減少存儲(chǔ)所需空間。
2.3 大數(shù)據(jù)的挖掘技術(shù)
聯(lián)機(jī)分析能夠完成數(shù)據(jù)的復(fù)雜處理,得到直觀結(jié)果,實(shí)現(xiàn)決策性分析。云計(jì)算并行模式下聯(lián)機(jī)分析能夠基于數(shù)據(jù)全局,建立多維分析模型對(duì)數(shù)據(jù)進(jìn)行多維度分析,從而盡可能獲得全面的分析結(jié)構(gòu)。由此可見多維度分析是聯(lián)機(jī)分析的重要特征,而云計(jì)算技術(shù)下數(shù)據(jù)倉(cāng)庫(kù)正好是通過(guò)多維數(shù)據(jù)組織的。
聯(lián)機(jī)分析對(duì)數(shù)據(jù)的處理僅僅只是表面的,其獲取的信息價(jià)值并不高,難以得到數(shù)據(jù)深層次的含義與內(nèi)在關(guān)聯(lián)。而數(shù)據(jù)挖掘正是在聯(lián)機(jī)分析的基礎(chǔ)上,從超大體量的數(shù)據(jù)倉(cāng)庫(kù)中提取數(shù)據(jù)所蘊(yùn)含的隱性信息,并將這些信息用規(guī)律、概念或是模型等表現(xiàn)出來(lái)。基于云計(jì)算的數(shù)據(jù)挖掘主要采用分布式并行挖掘技術(shù)。與其他串行方式相比,云計(jì)算技術(shù)下并行數(shù)據(jù)挖掘能夠利用機(jī)器集群拆分分布式系統(tǒng)中的并行任務(wù),并將拆分后的各個(gè)任務(wù)分別交由不同的機(jī)器去處理,從而實(shí)現(xiàn)大規(guī)模數(shù)據(jù)處理,其時(shí)間成本也大大降低。
2.4 大數(shù)據(jù)的可視化技術(shù)
上文所述數(shù)據(jù)挖掘可實(shí)現(xiàn)大數(shù)據(jù)的深層次、多維度分析,獲取更多有用信息。而云計(jì)算平臺(tái)下可視化技術(shù)則能夠?qū)⑸鲜鲂畔⒕唧w化,從而使數(shù)據(jù)及其有關(guān)結(jié)構(gòu)的相關(guān)信息能夠更直觀地表現(xiàn)出來(lái),更容易被發(fā)覺和理解。可視化技術(shù)是指在存儲(chǔ)空間中,將數(shù)據(jù)庫(kù)及其中數(shù)據(jù)以圖像(圖形)的形式表示出來(lái),并在其中再采用其他的分析手段獲取圖像中所蘊(yùn)含的未知信息。而原有的數(shù)據(jù)處理僅僅只能夠從數(shù)據(jù)本身入手,分析和觀察數(shù)據(jù)中的內(nèi)在信息。云計(jì)算下的可視化技術(shù)不但能夠?qū)崿F(xiàn)非空間數(shù)據(jù)的多維度圖像顯示,而且能夠?qū)崿F(xiàn)檢索過(guò)程的直觀圖形顯示,從而幫助人們更好地挖掘和理解信息,信息檢索效率也大大提升。
3 結(jié)語(yǔ)
在數(shù)據(jù)爆炸時(shí)代,云計(jì)算的出現(xiàn)為大數(shù)據(jù)的存儲(chǔ)和處理提供了可能,也為數(shù)據(jù)處理系統(tǒng)的功能擴(kuò)展提供了重要保障。以往的數(shù)據(jù)管理將收集和存儲(chǔ)作為重點(diǎn),而在云計(jì)算模式下,大數(shù)據(jù)管理將更多地側(cè)重?cái)?shù)據(jù)分析、挖掘及管理模式的創(chuàng)新。目前數(shù)據(jù)采集和統(tǒng)計(jì)技術(shù)已經(jīng)較為成熟,利用云計(jì)算進(jìn)一步豐富大數(shù)據(jù)的存儲(chǔ)和處理方式,實(shí)現(xiàn)更高層次的數(shù)據(jù)挖掘和可視化將是今后需要解決的問(wèn)題之一。
參考文獻(xiàn)
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念,技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146+169.
[2]吳雪琴,基于云計(jì)算的大數(shù)據(jù)信息檢索技術(shù)研究[J].電腦知識(shí)與技術(shù),2014,10(10):38-41.
[3]迪莉婭.基于云計(jì)算的電子政務(wù)大數(shù)據(jù)管理研究[J].信息管理與信息學(xué),2013(12):50-51.
【關(guān)鍵詞】物聯(lián)網(wǎng);大數(shù)據(jù);審計(jì)
一、引言
審計(jì)是依照國(guó)家相關(guān)法律,對(duì)政府、企事業(yè)單位、金融機(jī)構(gòu)等進(jìn)行重大項(xiàng)目的和財(cái)務(wù)收支情況進(jìn)行事前或事后的獨(dú)立性檢查監(jiān)督活動(dòng),發(fā)現(xiàn)并糾正違法違規(guī)活動(dòng),促進(jìn)各類組織依法經(jīng)營(yíng)、依法辦事。審計(jì)工作圍繞著審計(jì)對(duì)象的經(jīng)營(yíng)活動(dòng)展開,與大量的數(shù)據(jù)和關(guān)系打交道,尤其是大范圍跨組織的審計(jì)工作,錯(cuò)綜復(fù)雜,耗時(shí)耗力。而信息技術(shù)的發(fā)展以及經(jīng)營(yíng)活動(dòng)的電子化,實(shí)現(xiàn)了數(shù)據(jù)信息的電子承載,計(jì)算機(jī)運(yùn)算,其可關(guān)聯(lián)、可追蹤和智能化的特性大大提高了審計(jì)的效率。而進(jìn)入物聯(lián)網(wǎng)時(shí)代,物物相連,信息交互進(jìn)入微觀層面,審計(jì)工作可以通過(guò)基于物聯(lián)網(wǎng)的大數(shù)據(jù)技術(shù)做得跟家深入和透徹。
二、大數(shù)據(jù)對(duì)審計(jì)工作的影響
信息通信技術(shù)的發(fā)展促進(jìn)了生產(chǎn)生活的聯(lián)網(wǎng)化和信息化,如電子商務(wù)、生活服務(wù)O2O、快捷支付等等。越來(lái)越多的產(chǎn)品和服務(wù)交易活動(dòng)通過(guò)電子訂單和電子支付的形式保存成海量的電子信息記錄,而每一次交易又可以在各類終端上的各種賬戶相互綁定的關(guān)聯(lián)。大數(shù)據(jù)時(shí)代下的審計(jì)工作因?yàn)樾畔⑻幚淼母咝识兊煤?jiǎn)單,但同時(shí)也因?yàn)閿?shù)據(jù)的可靠性降低而加大了驗(yàn)證和識(shí)別的難度。
大數(shù)據(jù)的實(shí)時(shí)性、移動(dòng)性和智能化使得審計(jì)工作發(fā)生了顛覆性變化,包括持續(xù)性和不定期審計(jì)成為審計(jì)工作的常態(tài)、作業(yè)模式發(fā)生革命性變化、內(nèi)部審計(jì)管理自動(dòng)化和智能化。首先企業(yè)和組織的業(yè)務(wù)信息化后,每天的業(yè)務(wù)經(jīng)營(yíng)活動(dòng)都能夠通過(guò)管理信息系統(tǒng)或者ERP系統(tǒng)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),并且通過(guò)系統(tǒng)軟件智能化地刷新和統(tǒng)計(jì)。同時(shí)數(shù)據(jù)的實(shí)時(shí)可查看、檢索和共享,為持續(xù)性和不定期審計(jì)提供了能力支撐。企業(yè)和組織內(nèi)部、外部獨(dú)立審計(jì)可以進(jìn)行動(dòng)態(tài)審計(jì)管理,提高審計(jì)頻率,將風(fēng)險(xiǎn)的發(fā)生概率降低到最小;對(duì)信息的實(shí)時(shí)全面掌握,以及計(jì)算機(jī)智能化運(yùn)算統(tǒng)計(jì)技術(shù)的運(yùn)用,極大地改變了審計(jì)的作業(yè)模式。審計(jì)的對(duì)象從業(yè)務(wù)模塊風(fēng)險(xiǎn)排序?qū)m?xiàng)全面系統(tǒng)性審計(jì)、審計(jì)依據(jù)從“經(jīng)驗(yàn)+風(fēng)險(xiǎn)評(píng)估”專項(xiàng)量化數(shù)據(jù)估算、工作方式也從人工審核轉(zhuǎn)向信息化+智能化的工作方式;而對(duì)于企業(yè)和組織內(nèi)部審計(jì)管理而言,通過(guò)審計(jì)工作的流程化和自動(dòng)化,能夠?qū)嵤┕芸貥I(yè)務(wù)和資源配置,通過(guò)智能管理系統(tǒng)與審計(jì)要求相匹配。進(jìn)而大大提升了內(nèi)部審計(jì)的日常化和智能化。
大數(shù)據(jù)給審計(jì)工作帶來(lái)巨大改進(jìn)的同時(shí),也帶來(lái)了巨大挑戰(zhàn)。企業(yè)和組織的經(jīng)營(yíng)活動(dòng)數(shù)據(jù)化,涉及到各種實(shí)體活動(dòng)與信息的匹配、數(shù)字憑證的可靠性和真實(shí)性、數(shù)據(jù)本身的真實(shí)性、審計(jì)相關(guān)法律法規(guī)的適應(yīng)性等問(wèn)題。業(yè)務(wù)的數(shù)據(jù)化并不能百分之百真實(shí)反映實(shí)際的業(yè)務(wù)活動(dòng),例如電子商務(wù)中的在線訂單信息有可能與實(shí)際貨物流轉(zhuǎn)信息不匹配,資金來(lái)往與物權(quán)轉(zhuǎn)移不匹配,尤其是中小企業(yè)和一人企業(yè)的業(yè)務(wù)信息錯(cuò)亂尤為嚴(yán)重;大數(shù)據(jù)時(shí)代的企業(yè)經(jīng)營(yíng)新的商業(yè)模式和交易手段層出不窮,但審計(jì)的相關(guān)法律法規(guī)的更新速度遠(yuǎn)遠(yuǎn)跟不上企業(yè)和組織經(jīng)營(yíng)的信息化變革,因此通過(guò)大數(shù)據(jù)進(jìn)行審計(jì)經(jīng)常會(huì)遇到缺少匹配法規(guī)依據(jù)而企業(yè)又無(wú)實(shí)物審計(jì)對(duì)象的窘境。
三、物聯(lián)網(wǎng)技術(shù)下的大數(shù)據(jù)特征
物聯(lián)網(wǎng)是通過(guò)射頻、紅外、全球定位、激光、電氣感應(yīng)燈技術(shù),按照通信協(xié)議約定,將任何物品接入互聯(lián)網(wǎng),實(shí)現(xiàn)微觀物與物的識(shí)別和鏈接。物聯(lián)網(wǎng)技術(shù)的基礎(chǔ)是感應(yīng)識(shí)別技術(shù)與互聯(lián)網(wǎng)技術(shù),物聯(lián)網(wǎng)技術(shù)將微觀實(shí)物信息化和數(shù)字化,以便實(shí)現(xiàn)更加豐富的應(yīng)用。物聯(lián)網(wǎng)技術(shù)下的大數(shù)據(jù)與傳統(tǒng)大數(shù)據(jù)相比,具有更多的獨(dú)特性。
首先,物聯(lián)網(wǎng)技術(shù)下實(shí)物對(duì)象的數(shù)字標(biāo)簽與實(shí)體的關(guān)聯(lián)性更強(qiáng)。傳統(tǒng)大數(shù)據(jù)中代表實(shí)物的數(shù)據(jù)僅僅只是一個(gè)符號(hào),例如庫(kù)存數(shù)據(jù)、產(chǎn)品位置信息等等,數(shù)據(jù)表面并不一定代表著實(shí)體對(duì)象的形態(tài)和位置。而物聯(lián)網(wǎng)技術(shù)下的大數(shù)據(jù),微觀實(shí)物具備了智能識(shí)別標(biāo)簽,普通的實(shí)體與能夠像手機(jī)一樣,能夠通過(guò)位置的識(shí)別碼以及實(shí)時(shí)定位信號(hào)進(jìn)行準(zhǔn)確的識(shí)別和定位。實(shí)體對(duì)象的任何狀態(tài)變化都能夠反映在物聯(lián)網(wǎng)管理平臺(tái)中,即數(shù)據(jù)記載與實(shí)體對(duì)象的真實(shí)情況的一致性大大強(qiáng)加了。其次,物聯(lián)網(wǎng)技術(shù)下的大數(shù)據(jù)能夠真實(shí)反映個(gè)體、企業(yè)和組織的行為規(guī)律。物聯(lián)網(wǎng)將人與物、物與物互相真實(shí)地關(guān)聯(lián)起來(lái),實(shí)物的狀態(tài)變化與人的行為聯(lián)動(dòng),因此通過(guò)物聯(lián)網(wǎng)大數(shù)據(jù)能夠反映萬(wàn)事萬(wàn)物的狀態(tài)變化信息,也就反映了彼此之前的關(guān)系和影響。
物聯(lián)網(wǎng)大數(shù)據(jù)的挖掘不僅能夠反映現(xiàn)實(shí)世界的各種活庸媛桑還能指導(dǎo)我們通過(guò)控制實(shí)物的規(guī)模、形態(tài)、位置等因素,來(lái)影響人的行為和心理。因此,從企業(yè)和組織而言,物聯(lián)網(wǎng)大數(shù)據(jù)必然是未來(lái)經(jīng)營(yíng)管理的“核武器”。目前物聯(lián)網(wǎng)已經(jīng)應(yīng)用于智能交通、智慧城市、智慧環(huán)境、智慧農(nóng)業(yè)等多個(gè)領(lǐng)域。隨著企業(yè)和組織、以及個(gè)人越來(lái)越多地參與到物聯(lián)網(wǎng)技術(shù)的應(yīng)用中,將會(huì)逐漸提高數(shù)據(jù)與實(shí)物的關(guān)聯(lián)性,也就提升了數(shù)據(jù)信息的真實(shí)性和可靠性。對(duì)于審計(jì)工作而言,物聯(lián)網(wǎng)大數(shù)據(jù)進(jìn)一步為審計(jì)工作提供了強(qiáng)有力的武器,并能夠解決很多因?yàn)樾畔⒄鎸?shí)性導(dǎo)致的審計(jì)阻礙。
四、基于物聯(lián)網(wǎng)技術(shù)的大數(shù)據(jù)審計(jì)
從審計(jì)的手段方法角度看,一是物聯(lián)網(wǎng)大數(shù)據(jù)為驗(yàn)證實(shí)物資產(chǎn)的存在性提供了快捷的工具。實(shí)物資產(chǎn)盤點(diǎn)是審計(jì)中核實(shí)信息真實(shí)性以及比對(duì)數(shù)據(jù)記錄的重要工作,但由于工作量大導(dǎo)致實(shí)際審計(jì)工作中給審計(jì)帶來(lái)巨大的人力物力負(fù)擔(dān),同時(shí)也容易出現(xiàn)忽視和錯(cuò)誤。而物聯(lián)網(wǎng)技術(shù)運(yùn)用到實(shí)物資產(chǎn)識(shí)別中以后,實(shí)物資產(chǎn)具有唯一的電子標(biāo)簽,并且能夠通過(guò)感應(yīng)、掃碼等技術(shù)快速地識(shí)別和統(tǒng)計(jì)實(shí)物信息,并且與審計(jì)系統(tǒng)中的各種賬目進(jìn)行比對(duì),從而極大提升了審計(jì)的效率。二是遠(yuǎn)程聯(lián)網(wǎng)審計(jì)實(shí)現(xiàn)實(shí)時(shí)全面的審計(jì),尤其是對(duì)于跨區(qū)域的大型項(xiàng)目的審計(jì)的作用更加突出。例如政府工程審計(jì)設(shè)計(jì)的地理區(qū)域、主體、資產(chǎn)類型、交易模式等等錯(cuò)綜復(fù)雜,傳統(tǒng)工程審計(jì)需要奔波于各個(gè)現(xiàn)場(chǎng)進(jìn)行觀察、測(cè)量和統(tǒng)計(jì)分析。而通過(guò)物聯(lián)網(wǎng)技術(shù),可以通過(guò)食物識(shí)別、定位、視頻航拍、掃描測(cè)量等技術(shù)進(jìn)行遠(yuǎn)程聯(lián)動(dòng)審計(jì)。例如無(wú)錫市濱湖區(qū)在2010年就引入了物聯(lián)網(wǎng)技術(shù)對(duì)某工程項(xiàng)目進(jìn)行審計(jì),工作時(shí)間縮短了70%,工作效率提高了近6倍。
從審計(jì)績(jī)效提升角度看,物聯(lián)網(wǎng)大數(shù)據(jù)讓審計(jì)對(duì)經(jīng)濟(jì)社會(huì)發(fā)展的推動(dòng)作用大大提升。審計(jì)的工作的目標(biāo)是為了推動(dòng)經(jīng)濟(jì)活動(dòng)能夠嚴(yán)格按照政策、法規(guī)等要求健康有序地開展。而傳統(tǒng)審計(jì)工作由于工作量大、審計(jì)結(jié)果的實(shí)時(shí)性和可視化程度不高,因此審計(jì)的對(duì)象及結(jié)果影響還不夠突出。而物聯(lián)網(wǎng)技術(shù)下的大數(shù)據(jù)審計(jì),能夠真實(shí)可視化地反映更多審計(jì)對(duì)象的運(yùn)營(yíng)狀況,并且能夠更加全面和立體化地開展審計(jì)工作。例如對(duì)城市管理績(jī)效的審計(jì),通過(guò)物聯(lián)網(wǎng)技術(shù)能夠動(dòng)態(tài)反映城市的交通、環(huán)保、能耗等工作的現(xiàn)實(shí),并且能夠?qū)?wèn)題精準(zhǔn)地定位到特定區(qū)域、特定主體、特定原因。如對(duì)于企業(yè)排污的審計(jì),通過(guò)排污管道的智能監(jiān)控、對(duì)排污出口環(huán)境數(shù)據(jù)的實(shí)時(shí)監(jiān)測(cè),并通過(guò)定位系統(tǒng)實(shí)現(xiàn)網(wǎng)絡(luò)化實(shí)時(shí)物聯(lián)網(wǎng)數(shù)據(jù)展現(xiàn),能夠精準(zhǔn)地監(jiān)控各個(gè)企業(yè)的排污情況,包括排污的體量、污染物類型和比例以、以及對(duì)環(huán)境帶來(lái)的影響大小。即基于物聯(lián)網(wǎng)技術(shù)的審計(jì),能夠深入到經(jīng)濟(jì)社會(huì)發(fā)展的發(fā)發(fā)面面,每一個(gè)主體的每一次活動(dòng),從而做到“天網(wǎng)恢恢,疏而不漏”。
從審計(jì)工作的科學(xué)性上,物聯(lián)網(wǎng)技術(shù)的大數(shù)據(jù)審計(jì)的可靠性更高。傳統(tǒng)審計(jì)工作時(shí)基于對(duì)法規(guī)的理解,從經(jīng)驗(yàn)上和風(fēng)險(xiǎn)評(píng)估上進(jìn)行定性和定量結(jié)合的考量方式,由于人為影響較大,因此審計(jì)結(jié)果和改進(jìn)措施的科學(xué)性和嚴(yán)謹(jǐn)性受到限制。而基于物聯(lián)網(wǎng)技術(shù)的大數(shù)據(jù)審計(jì)是基于個(gè)體識(shí)別而產(chǎn)生的信息,基于數(shù)據(jù)的量化分析挖掘,真夠最大程度地真實(shí)反映現(xiàn)實(shí)情況,并通過(guò)對(duì)模型化的智能演算,能夠推演出影響和結(jié)果的發(fā)生概率和大小,以及各個(gè)影響因子的作用。因此,通過(guò)物聯(lián)網(wǎng)大數(shù)據(jù)審計(jì),能夠提升審計(jì)結(jié)果的可靠性和科學(xué)性,改進(jìn)措施建議的指導(dǎo)性也更強(qiáng)。
五、結(jié)語(yǔ)
基于物聯(lián)網(wǎng)技術(shù)的大數(shù)據(jù)審計(jì),不僅需要物聯(lián)網(wǎng)在各行各業(yè)的應(yīng)用落地,還需要物聯(lián)網(wǎng)相關(guān)法規(guī)的建立,例如電子標(biāo)簽的法律規(guī)定以及市場(chǎng)要求,提升電子抱歉與實(shí)物之間的綁定關(guān)系。另外,審計(jì)部門需要加快基于物聯(lián)網(wǎng)的審計(jì)平臺(tái)和工具建設(shè),以匹配物聯(lián)網(wǎng)大數(shù)據(jù)的發(fā)展步伐,提升自身的工作能力。
⒖嘉南祝
[1]陳偉,SMIELIAUSKAS Wally.大數(shù)據(jù)環(huán)境下的電子數(shù)據(jù)審計(jì):機(jī)遇、挑戰(zhàn)與方法[J].計(jì)算機(jī)科學(xué).2016(01) .
[2]楊凱茜.淺談大數(shù)據(jù)審計(jì)的特點(diǎn)及實(shí)現(xiàn)――以審計(jì)署對(duì)2012年中石油的審計(jì)結(jié)果為例 [J].財(cái)經(jīng)界(學(xué)術(shù)版).2015(12).
[關(guān)鍵詞]大數(shù)據(jù);信息技術(shù);數(shù)據(jù)處理
[中圖分類號(hào)]TP274[文獻(xiàn)標(biāo)識(shí)碼]A
20世紀(jì)中葉計(jì)算機(jī)的誕生標(biāo)志著電子時(shí)代正式開始,從此人類社會(huì)開始生產(chǎn)并存儲(chǔ)各類型的數(shù)據(jù)。經(jīng)過(guò)數(shù)次計(jì)算機(jī)技術(shù)革命,單位面積所能存儲(chǔ)的數(shù)據(jù)量大大提高。近年來(lái),由于WEB2.0應(yīng)用的全面爆發(fā),網(wǎng)絡(luò)參與者同時(shí)也成了網(wǎng)絡(luò)信息的制造者,由WEB2.0帶來(lái)的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)開始呈現(xiàn)出幾何增長(zhǎng)。因此,麥肯錫公司在2011年的報(bào)告《Big Data:the Next Frontier for Innovation》[1]中,對(duì)這種密集型數(shù)據(jù)爆炸的現(xiàn)象成為“大數(shù)據(jù)”時(shí)代的到來(lái)。
1大數(shù)據(jù)的概念
大數(shù)據(jù)的概念并不是憑空出現(xiàn)的,它的前身是海量數(shù)據(jù)。但兩者之間有所區(qū)別。海量數(shù)據(jù)強(qiáng)調(diào)了數(shù)據(jù)量的規(guī)模之大,并沒有對(duì)其特性進(jìn)行定義。而大數(shù)據(jù)的概念包含了大數(shù)據(jù)的體積、傳播速率、特征等內(nèi)容。雖然截至目前還沒有對(duì)大數(shù)據(jù)有統(tǒng)一的定義,但被廣泛接受的定義為:大數(shù)據(jù)是無(wú)法在一定時(shí)間內(nèi)用通常的軟件工具進(jìn)行收集、分析、管理的大量數(shù)據(jù)的集合[2]。大數(shù)據(jù)的特點(diǎn)一般歸納為四點(diǎn):一是數(shù)據(jù)總量大,目前大數(shù)據(jù)的最小單位一般被認(rèn)為是10~20TB的量級(jí);二是數(shù)據(jù)類型多,包括了結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù);三是數(shù)據(jù)的價(jià)值密度很低;四是數(shù)據(jù)產(chǎn)生和處理的速度非常快。這四個(gè)特點(diǎn)又被稱作大數(shù)據(jù)的4 V理念,即:Volume,Variety,Value,Velocity[3]。
2大數(shù)據(jù)的技術(shù)
依據(jù)大數(shù)據(jù)生命周期的不同階段,可以將與大數(shù)據(jù)處理相關(guān)的技術(shù)分為相應(yīng)的三個(gè)方面:
2.1大數(shù)據(jù)存儲(chǔ)
從海量數(shù)據(jù)時(shí)代開始,大規(guī)模數(shù)據(jù)的長(zhǎng)期保存、數(shù)據(jù)遷移一直都是研究的重點(diǎn)。從20世紀(jì)90年代末至今,數(shù)據(jù)存儲(chǔ)始終是依據(jù)數(shù)據(jù)量大小的不斷變化和不斷優(yōu)化向前發(fā)展的。其中主要有:DAS(Direct Attached Storage),直接外掛存儲(chǔ);NAS(Network Attached Storage),網(wǎng)絡(luò)附加存儲(chǔ);SAN(Storage Area Network),存儲(chǔ)域網(wǎng)絡(luò)和SAN IP等存儲(chǔ)方式[4]。這幾種存儲(chǔ)方式雖然是不同時(shí)代的產(chǎn)物,但各自的優(yōu)缺點(diǎn)都十分鮮明,數(shù)據(jù)中心往往是根據(jù)自身的服務(wù)器數(shù)量和要處理的數(shù)據(jù)對(duì)象進(jìn)行選擇。
此外,這兩年數(shù)據(jù)存儲(chǔ)的虛擬化從研究走向現(xiàn)實(shí)。所謂虛擬化,就是將原有的服務(wù)器進(jìn)行軟件虛擬化,將其劃分為若干個(gè)獨(dú)立的服務(wù)空間,如此可以在一臺(tái)服務(wù)器上提供多種存儲(chǔ)服務(wù),大大提高了存儲(chǔ)效率,節(jié)約存儲(chǔ)成本,是異構(gòu)數(shù)據(jù)平臺(tái)的最佳選擇。從技術(shù)角度來(lái)講,虛擬化可以分為存儲(chǔ)虛擬化和網(wǎng)絡(luò)虛擬化,網(wǎng)絡(luò)虛擬化是存儲(chǔ)虛擬化的輔助,能夠大幅度提升數(shù)據(jù)中心的網(wǎng)絡(luò)利用率和傳輸速率。目前IBM、浪潮、思科等公司紛紛發(fā)力虛擬化市場(chǎng),可以預(yù)見虛擬化會(huì)成為未來(lái)大數(shù)據(jù)存儲(chǔ)的一個(gè)主流技術(shù)。
2.2大數(shù)據(jù)挖掘
在大數(shù)據(jù)的處理技術(shù)中,超大規(guī)模的數(shù)據(jù)挖掘一直是難點(diǎn),也是重點(diǎn)。面對(duì)上百TB,甚至PB級(jí)別的異構(gòu)數(shù)據(jù),常規(guī)的處理工具往往難以擔(dān)當(dāng)重任。需要考慮到的是大數(shù)據(jù)是個(gè)不斷生長(zhǎng)的有機(jī)體,因此在挖掘過(guò)程中還要考慮到未來(lái)數(shù)據(jù)繼續(xù)增長(zhǎng)所帶來(lái)的影響。
因此,大數(shù)據(jù)的挖掘需要采用分布式挖掘和云計(jì)算技術(shù)。Google公司一直是分布式挖掘技術(shù)的領(lǐng)導(dǎo)者,它研發(fā)了MapReduce分布式挖掘工具[5],英特爾公司在此基礎(chǔ)上開發(fā)了Hadoop分布式挖掘工具。這兩個(gè)工具都具有高效、高擴(kuò)展、高可靠性和高容錯(cuò)率的特點(diǎn),并提供免費(fèi)版本,適用于各種類型的大數(shù)據(jù)挖掘。
2.3大數(shù)據(jù)分析
從內(nèi)容來(lái)說(shuō),大數(shù)據(jù)的分析分為技術(shù)和方法兩種類型。從技術(shù)上講,主要是分布式的數(shù)據(jù)分析和非結(jié)構(gòu)化數(shù)據(jù)處理等。從方法上講,主要是利用常用的數(shù)理統(tǒng)計(jì)方法來(lái)進(jìn)行數(shù)據(jù)分析,例如使用可視化的數(shù)據(jù)分析工具。但兩者是一個(gè)有機(jī)的整體。大數(shù)據(jù)處理的最終目的是為了將數(shù)據(jù)之間的關(guān)系以可視化的方式呈現(xiàn)在用戶面前,包括了處理的全部過(guò)程和展現(xiàn)的過(guò)程。在數(shù)據(jù)分析過(guò)程中,不僅僅是需要計(jì)算機(jī)進(jìn)行自動(dòng)化的分析,更需要人工進(jìn)行數(shù)據(jù)選擇和參數(shù)的設(shè)定,兩個(gè)是辯證的關(guān)系。
隨著大數(shù)據(jù)行業(yè)的興起,產(chǎn)生了一個(gè)新的職業(yè),被稱作數(shù)據(jù)科學(xué),而從事該行業(yè)的人員被稱作數(shù)據(jù)科學(xué)家。這類科學(xué)家的一個(gè)特點(diǎn)就是能夠藝術(shù)性地將數(shù)據(jù)進(jìn)行可視化分析,簡(jiǎn)單明了而且能夠展現(xiàn)出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。
3大數(shù)據(jù)的應(yīng)用
麥肯錫在大數(shù)據(jù)的研究報(bào)告中指出,大數(shù)據(jù)的應(yīng)用已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為了重要的生產(chǎn)因素[6]。按照專業(yè)領(lǐng)域劃分,信息技術(shù)、互聯(lián)網(wǎng)行業(yè)、商業(yè)、遙感探測(cè)已經(jīng)開始應(yīng)用大數(shù)據(jù)技術(shù)來(lái)進(jìn)行研究和生產(chǎn)效益;生物信息技術(shù)、科研情報(bào)所、圖書情報(bào)領(lǐng)域已經(jīng)對(duì)大數(shù)據(jù)展開了研究,并進(jìn)行了規(guī)劃;其他專業(yè)和行業(yè)對(duì)大數(shù)據(jù)可能仍處于了解階段,但大數(shù)據(jù)的浪潮很快就會(huì)波及大部分的行業(yè)領(lǐng)域。
從大數(shù)據(jù)的應(yīng)用效果來(lái)看,總體趨勢(shì)與上述的三類專業(yè)呈現(xiàn)出一致性。百度、淘寶等公司作為信息技術(shù)、互聯(lián)網(wǎng)和商業(yè)領(lǐng)域的杰出代表,已經(jīng)對(duì)大數(shù)據(jù)開始了深度應(yīng)用,馬云在卸任阿里巴巴CEO時(shí)更是闡述了大數(shù)據(jù)時(shí)代將改變互聯(lián)網(wǎng)商業(yè)的面貌,誰(shuí)提前開始大數(shù)據(jù)的應(yīng)用,就可以獲得未來(lái)行業(yè)發(fā)展的優(yōu)勢(shì)。大數(shù)據(jù)的普及需要一個(gè)過(guò)程,首先從重點(diǎn)應(yīng)用行業(yè)開始,例如信息技術(shù)領(lǐng)域行業(yè),逐漸擴(kuò)展到其他行業(yè)。美國(guó)已經(jīng)由白宮頒布了大數(shù)據(jù)開發(fā)與利用的國(guó)家級(jí)戰(zhàn)略,由美國(guó)國(guó)防部和國(guó)土安全局牽頭開展全面推廣大數(shù)據(jù)的應(yīng)用。我國(guó)目前對(duì)大數(shù)據(jù)的研究并不多,應(yīng)用更是缺乏。如果要推動(dòng)大數(shù)據(jù)的應(yīng)用,應(yīng)當(dāng)由國(guó)家層面進(jìn)行大數(shù)據(jù)的平臺(tái)建設(shè)。在今年的國(guó)家自然科學(xué)基金和社會(huì)科學(xué)基金的課題指南中,已經(jīng)提出了很多設(shè)計(jì)大數(shù)據(jù)的課題,相信在未來(lái)幾年內(nèi)國(guó)家會(huì)對(duì)大數(shù)據(jù)的研究、開發(fā)與利用提供政策和資金支持。
總而言之,大數(shù)據(jù)的技術(shù)與應(yīng)用還是處于起步階段,其應(yīng)用的前景不可估量。各個(gè)行業(yè)應(yīng)當(dāng)把握時(shí)代脈搏,充分認(rèn)識(shí)到大數(shù)據(jù)所能帶來(lái)的革命性改變,只有這樣才能夠保持創(chuàng)新與進(jìn)步,從而站在行業(yè)的最前沿。
參考文獻(xiàn):
[1]Manyika J,McKinsey Global Insti? tute,Chui M,et al. Big data: The next fron? tier for innovation,competition,and produc? tivity[M]. McKinsey Global Institute,2011.
[2]盧勝軍,王忠軍,栗琳.賽博空間與大數(shù)據(jù)雙重視角下的錢學(xué)森情報(bào)思想[J].情報(bào)理論與實(shí)踐,2013,36(004): 1-5.
[3]Hirt C W,Nichols B D. Volume of fluid(VOF)method for the dynamics of free boundaries[J].Journalofcomputational physics,1981,39(1): 201-225.
[4]Chirillo J,Blaul S. Storage Security: Protecting,SANs,NAS and DAS[M].John Wiley & Sons,Inc.,2002.
[5]Dean J,Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM,2008,51(1): 107-113.
[6]鄭玲微.大步跨入“大數(shù)據(jù)”時(shí)代[J].信息化建設(shè),2013(1).
(一)外審領(lǐng)域信息技術(shù)的發(fā)展催生“大數(shù)據(jù)”
現(xiàn)代審計(jì)范圍不斷擴(kuò)大,隨著云計(jì)算、互聯(lián)網(wǎng)等信息技術(shù)的發(fā)展,財(cái)務(wù)軟件、ERP管理系統(tǒng)、SAP管理系統(tǒng)、審計(jì)軟件等的應(yīng)用,注冊(cè)會(huì)計(jì)師可以從眾多渠道、更容易地獲取大量的數(shù)據(jù)和信息,不斷積累的數(shù)據(jù)已在體量上形成“大數(shù)據(jù)”。
注冊(cè)會(huì)計(jì)師所收集的數(shù)據(jù),可能包含企業(yè)自成立到審計(jì)時(shí)幾年、幾十年的相關(guān)信息,也可能包含行業(yè)的、類似企業(yè)的比較數(shù)據(jù),這些數(shù)據(jù)既可能與財(cái)務(wù)相關(guān),也可能與財(cái)務(wù)無(wú)關(guān),但都是必要的,沒有多余的信息。唐代的韓愈在《進(jìn)學(xué)解》中說(shuō):“玉札丹砂,赤箭青芝,牛溲馬勃,敗鼓之皮,俱收并蓄,待用無(wú)遺者,醫(yī)師之良也。”注冊(cè)會(huì)計(jì)師作為外部審計(jì)的“良醫(yī)”、“良工”,需要的是對(duì)這些“數(shù)據(jù)”俱收并蓄、善加利用。
(二)風(fēng)險(xiǎn)在哪里?“大數(shù)據(jù)”來(lái)告訴你
對(duì)于注冊(cè)會(huì)計(jì)師來(lái)說(shuō),大數(shù)據(jù)就像是一座金礦,有用的信息就蘊(yùn)含在其中,需要審計(jì)人員采用大數(shù)據(jù)技術(shù)去分析和提煉。大數(shù)據(jù)技術(shù)告訴我們只有掌握足夠大的數(shù)據(jù)樣本,運(yùn)用大數(shù)據(jù)理念進(jìn)行分析和挖掘,才能發(fā)現(xiàn)用其他方法很難或無(wú)法發(fā)現(xiàn)的規(guī)律、趨勢(shì)和異常;且大數(shù)據(jù)只會(huì)告訴我們分析的結(jié)果,而不會(huì)告訴我們?cè)颍粗恢淙欢恢渌匀弧?duì)我們的審計(jì)工作來(lái)說(shuō),知道風(fēng)險(xiǎn)所在、異常記錄,揭示了錯(cuò)報(bào)風(fēng)險(xiǎn)領(lǐng)域就已經(jīng)達(dá)到了風(fēng)險(xiǎn)評(píng)估的目的,完成了這一階段的任務(wù)。
(三)運(yùn)用“大數(shù)據(jù)”,構(gòu)建數(shù)據(jù)庫(kù)是前提
國(guó)務(wù)院《關(guān)于加強(qiáng)審計(jì)工作的意見》中提出:“推進(jìn)有關(guān)部門、金融機(jī)構(gòu)和國(guó)有企事業(yè)單位等與審計(jì)機(jī)關(guān)實(shí)現(xiàn)信息共享,加大數(shù)據(jù)集中力度,構(gòu)建國(guó)家審計(jì)數(shù)據(jù)系統(tǒng)。” [2]隨著國(guó)家審計(jì)數(shù)據(jù)系統(tǒng)、“國(guó)家政府信息開放統(tǒng)一平臺(tái)和基礎(chǔ)數(shù)據(jù)資源庫(kù)”的構(gòu)建和完善,以及政府?dāng)?shù)據(jù)資源共享開放工程的推進(jìn),將對(duì)注冊(cè)會(huì)計(jì)師利用大數(shù)據(jù)技術(shù)進(jìn)行審計(jì)提供極大的便利。同時(shí)加強(qiáng)注冊(cè)會(huì)計(jì)師行業(yè)內(nèi)的信息化建設(shè)與共享,對(duì)于外部審計(jì)領(lǐng)域成功應(yīng)用大數(shù)據(jù)具有重要作用。廣大的會(huì)計(jì)師事務(wù)所從業(yè)人員,也期望注冊(cè)會(huì)計(jì)師協(xié)會(huì)作為行業(yè)的管理者和引領(lǐng)者,能夠整合注冊(cè)會(huì)計(jì)師掌握的海量原始數(shù)據(jù)、政府部門及其他來(lái)源的數(shù)據(jù),在已經(jīng)運(yùn)行的法律法規(guī)庫(kù)和經(jīng)濟(jì)數(shù)據(jù)庫(kù)的基礎(chǔ)上,構(gòu)建行業(yè)內(nèi)的更大規(guī)模的審計(jì)數(shù)據(jù)系統(tǒng)。
當(dāng)然,大量的數(shù)據(jù)還是依靠注冊(cè)會(huì)計(jì)師和會(huì)計(jì)事務(wù)所的長(zhǎng)期搜集、整理和積累,事實(shí)上國(guó)內(nèi)外許多知名會(huì)計(jì)事務(wù)所早已建有自己的數(shù)據(jù)系統(tǒng),在提供審計(jì)、管理咨詢等服務(wù)時(shí),發(fā)揮了重要作用。
二、在實(shí)質(zhì)性程序階段,運(yùn)用大數(shù)據(jù)改進(jìn)審計(jì)方法
(一)以詳細(xì)審計(jì)、整體審計(jì),取代抽樣審計(jì)
從世界審計(jì)史的發(fā)展來(lái)看,在審計(jì)發(fā)展的早期階段――19世紀(jì)末以前,審計(jì)師大都運(yùn)用詳細(xì)審計(jì)技術(shù)對(duì)財(cái)務(wù)資料或其他記錄進(jìn)行逐筆審查。當(dāng)時(shí),企業(yè)規(guī)模較小,經(jīng)濟(jì)業(yè)務(wù)不很復(fù)雜,審計(jì)師有能力做到這一點(diǎn)。但是,隨著社會(huì)生產(chǎn)力的發(fā)展,企業(yè)規(guī)模越來(lái)越大,經(jīng)營(yíng)活動(dòng)日趨復(fù)雜,會(huì)計(jì)記錄成倍增長(zhǎng),致使審計(jì)師無(wú)論從專業(yè)能力,還是花費(fèi)的時(shí)間、費(fèi)用來(lái)看,都無(wú)法繼續(xù)運(yùn)用詳細(xì)審計(jì)。[3]在這種情況下,抽樣審計(jì)就應(yīng)運(yùn)而生了,并逐漸取代了詳細(xì)審計(jì)。但抽樣審計(jì)無(wú)論抽樣方法設(shè)計(jì)的多么科學(xué),始終都是對(duì)部分樣本的審查,是以部分推測(cè)整體,它提供的只能是合理保證;甚至是以偏概全、審計(jì)失敗,這樣的案例并不少見。可以說(shuō),抽樣審計(jì)是在經(jīng)濟(jì)、科技發(fā)展水平限制下的無(wú)奈之舉。
在社會(huì)經(jīng)濟(jì)、科學(xué)技術(shù)高度發(fā)展的今天,“互聯(lián)網(wǎng)+”、云計(jì)算、大數(shù)據(jù)技術(shù)紛紛出現(xiàn),深刻地改變了人們做事的思維和方法。大數(shù)據(jù)技術(shù)的出現(xiàn)、審計(jì)科學(xué)的發(fā)展,使審計(jì)師能夠快速獲取、分析并審查一個(gè)跨國(guó)的、擁有眾多分支的龐大商業(yè)帝國(guó)海量的財(cái)務(wù)和非財(cái)務(wù)數(shù)據(jù),采用詳細(xì)審計(jì)的技術(shù)條件、物質(zhì)條件已經(jīng)具備。運(yùn)用大數(shù)據(jù)技術(shù)進(jìn)行詳細(xì)審計(jì),檢查所有的樣本,顯然能夠避免抽樣審計(jì)以偏概全的弊端,使所有異常記錄都無(wú)處遁形,對(duì)于保證審計(jì)質(zhì)量、避免審計(jì)風(fēng)險(xiǎn),具有重要乃至革命性的作用。
(二)仰之彌高的“大數(shù)據(jù)”,如何“入吾彀中”、為我所用
唯有創(chuàng)新電子審計(jì)技術(shù),充分運(yùn)用互聯(lián)網(wǎng)、云計(jì)算等信息處理技術(shù),開發(fā)和完善審計(jì)軟件、數(shù)據(jù)分析軟件等輔助工具,才能促使大數(shù)據(jù)審計(jì)技術(shù)落地。大數(shù)據(jù)是經(jīng)濟(jì)、科技發(fā)展的產(chǎn)物,其運(yùn)用也必須以電子技術(shù)、信息處理技術(shù)等作為支撐和基礎(chǔ)。財(cái)務(wù)核算軟件、ERP管理系統(tǒng)、SAP管理系統(tǒng)等為越來(lái)越多的企業(yè)所采用,企業(yè)信息生成越來(lái)越電子化、自動(dòng)化、數(shù)據(jù)化。這就要求注冊(cè)會(huì)計(jì)師審計(jì)也必須適應(yīng)這種變化,充分運(yùn)用電子、信息等技術(shù)手段,實(shí)現(xiàn)審計(jì)數(shù)據(jù)采集、分析、處理的自動(dòng)化、智能化,提高審計(jì)手段的科技含量。
在手工記帳時(shí)代,財(cái)務(wù)數(shù)據(jù)的采集、各種審計(jì)明細(xì)表的填列,耗費(fèi)了注冊(cè)會(huì)計(jì)師大量寶貴時(shí)間,往往填列一個(gè)較復(fù)雜表格就需耗費(fèi)半天甚至一天的時(shí)間。而企業(yè)采用財(cái)務(wù)軟件實(shí)行電算化后,注冊(cè)會(huì)計(jì)師借助各種審計(jì)軟件的“取數(shù)工具”,可在數(shù)分鐘內(nèi)完成一年甚至多年財(cái)務(wù)數(shù)據(jù)的采集,大大簡(jiǎn)化了審計(jì)工作流程、提高了審計(jì)工作效率。
現(xiàn)在,隨著“互聯(lián)網(wǎng)+”、云計(jì)算等信息處理技術(shù)的發(fā)展,“財(cái)務(wù)云”、“審計(jì)云”的出現(xiàn),審計(jì)數(shù)據(jù)在技術(shù)上已經(jīng)可以實(shí)現(xiàn)實(shí)時(shí)傳輸,審計(jì)模式也正在由集中審計(jì)向分散審計(jì)、實(shí)時(shí)審計(jì)發(fā)展,這必將推動(dòng)審計(jì)由事后審計(jì)向事前審計(jì)、事中審計(jì)發(fā)展,大大提高審計(jì)成果的時(shí)效性。
數(shù)據(jù)采集的便利化、實(shí)時(shí)化,為大數(shù)據(jù)技術(shù)的運(yùn)用創(chuàng)造了前提條件。但如果依靠人工去分析、核查這些海量數(shù)據(jù),無(wú)疑是“無(wú)法完成的任務(wù)”。這就要求創(chuàng)新電子審計(jì)技術(shù),開發(fā)適應(yīng)大數(shù)據(jù)審計(jì)所需的審計(jì)軟件、“尖端數(shù)據(jù)分析工具”,以配合注冊(cè)會(huì)計(jì)師的人工分析、職業(yè)判斷。大數(shù)據(jù)審計(jì)技術(shù)的運(yùn)用,可以將審計(jì)人員從繁雜、重復(fù)的“低級(jí)”工作中解放出來(lái),使之能夠?qū)⒂邢薜臅r(shí)間和精力放到更有價(jià)值的審計(jì)分析和職業(yè)判斷上。這必將大大提高注冊(cè)會(huì)計(jì)師的審計(jì)工作能力和效率,解放和提升審計(jì)“生產(chǎn)力”,促進(jìn)外部審計(jì)領(lǐng)域的供給側(cè)改革。
三、在審計(jì)報(bào)告階段,利用大數(shù)據(jù)形成綜合性審計(jì)成果
注冊(cè)會(huì)計(jì)師在運(yùn)用大數(shù)據(jù)技術(shù)進(jìn)行審計(jì)的過(guò)程中,通過(guò)采集、分析、挖掘、判斷大量數(shù)據(jù)信息,不但可以獲取有關(guān)審計(jì)結(jié)論的證據(jù),還可以發(fā)現(xiàn)企業(yè)在經(jīng)營(yíng)管理、內(nèi)部控制等方面存在的問(wèn)題,以及揭示企業(yè)的發(fā)展趨勢(shì)、面臨的風(fēng)險(xiǎn)等。
“智慧中國(guó)(Smarter China)”是以信息化為龍頭,以科技為支撐,以創(chuàng)新為驅(qū)動(dòng),以環(huán)境為載體,以智慧為本位,涵蓋城鄉(xiāng)管理生產(chǎn)、生活、環(huán)境、文化等方面的智能化。“智慧中國(guó)(Smarter China)”是“數(shù)字中國(guó)(Digital China)”發(fā)展的高級(jí)階段。形象地講:數(shù)字中國(guó)+物聯(lián)網(wǎng)+云計(jì)算+大數(shù)據(jù)+……=智慧中國(guó)。因之,智慧中國(guó)離不開大數(shù)據(jù)技術(shù),我們必須用大數(shù)據(jù)技術(shù)來(lái)建設(shè)智慧中國(guó)。
大數(shù)據(jù)的定義及特征
聯(lián)合國(guó)資料顯示,全球互聯(lián)網(wǎng)流量累計(jì)達(dá)到1EB(即10億GB或1000PB)的時(shí)間在2001年是一年,在2004年是一個(gè)月,在2007年是一周,而2013年僅需一天。未來(lái)10年里預(yù)計(jì)數(shù)字信息總量將從2009年到2020年增長(zhǎng)44倍,全球數(shù)據(jù)使用量將達(dá)到大約35.2ZB(1ZB=10億TB)。
大數(shù)據(jù)(Big data)泛指P(1000個(gè)T)級(jí)以上的數(shù)據(jù)(包括E(100萬(wàn)個(gè)T)、Z(10億個(gè)T)級(jí)大數(shù)據(jù))。維基百科把大數(shù)據(jù)定義為一個(gè)大而復(fù)雜的、難以用現(xiàn)有數(shù)據(jù)庫(kù)管理工具處理的數(shù)據(jù)集。廣義上,大數(shù)據(jù)有三層內(nèi)涵:一是數(shù)據(jù)量巨大、來(lái)源多樣和類型多樣的數(shù)據(jù)集;二是新型的數(shù)據(jù)處理和分析技術(shù);三是運(yùn)用數(shù)據(jù)分析形成價(jià)值。因之,業(yè)界將大數(shù)據(jù)的特征概括為4V:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)和“1秒定律”。
大數(shù)據(jù)技術(shù)包括信息的采集技術(shù)、整理加工技術(shù)、存儲(chǔ)技術(shù)、管理技術(shù)、傳輸技術(shù)、搜索技術(shù)等各個(gè)方面,涉及到數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)、人工智能、通信、地理信息系統(tǒng)、多媒體、仿真等信息技術(shù)的各個(gè)專業(yè)領(lǐng)域,其核心技術(shù)是數(shù)據(jù)挖掘(DM)和數(shù)據(jù)分析技術(shù),其本質(zhì)是知識(shí)發(fā)現(xiàn)(KDD)。
物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式。在智慧中國(guó)建設(shè)中,大數(shù)據(jù)將會(huì)如基礎(chǔ)設(shè)施一樣,有數(shù)據(jù)提供方、管理者、監(jiān)管者,數(shù)據(jù)的交叉復(fù)用將大數(shù)據(jù)變成智慧中國(guó)的一大產(chǎn)業(yè)。據(jù)統(tǒng)計(jì),目前大數(shù)據(jù)所形成的市場(chǎng)規(guī)模在51億美元左右,而到2017年,此數(shù)據(jù)預(yù)計(jì)會(huì)上漲到530億美元
大數(shù)據(jù)對(duì)智慧中國(guó)建設(shè)的推動(dòng)作用
大數(shù)據(jù)將對(duì)智慧中國(guó)的科學(xué)研究、經(jīng)濟(jì)建設(shè)、社會(huì)發(fā)展和文化生活等各個(gè)領(lǐng)域產(chǎn)生革命性的影響;對(duì)培育數(shù)據(jù)產(chǎn)業(yè),服務(wù)智慧中國(guó),促進(jìn)經(jīng)濟(jì)結(jié)構(gòu)調(diào)整和產(chǎn)業(yè)轉(zhuǎn)型,將產(chǎn)生巨大的推動(dòng)作用。
大數(shù)據(jù)將改變智慧中國(guó)的治理模式、企業(yè)業(yè)務(wù)流程和個(gè)人生活方式。大數(shù)據(jù)時(shí)代網(wǎng)民和消費(fèi)者的界限正在消弭,企業(yè)的疆界變得模糊,數(shù)據(jù)成為核心的資產(chǎn),并將深刻影響企業(yè)的業(yè)務(wù)模式,甚至重構(gòu)其文化和組織。因此,利用大數(shù)據(jù)更加貼近消費(fèi)者、深刻理解需求、高效分析信息并作出預(yù)判,將對(duì)智慧中國(guó)治理模式、對(duì)企業(yè)的決策、組織和業(yè)務(wù)流程、對(duì)個(gè)人生活方式都將產(chǎn)生巨大的影響。
大數(shù)據(jù)將引發(fā)智慧中國(guó)新一輪信息化投資和建設(shè)熱潮。據(jù)麥肯錫預(yù)測(cè)未來(lái)智慧中國(guó)大數(shù)據(jù)產(chǎn)品的潛在市場(chǎng)規(guī)模有望達(dá)到1.57萬(wàn)億元,給IT行業(yè)開拓了一個(gè)新的黃金時(shí)代。數(shù)據(jù)處理技術(shù)和設(shè)備提供商、IT系統(tǒng)咨詢和ERP/CRM/BI改造服務(wù)商、智能化和人機(jī)交互應(yīng)用以及信息安全提供商將獲巨大需求,相應(yīng)公司將獲得機(jī)會(huì)。
大數(shù)據(jù)為智慧中國(guó)擁有數(shù)據(jù)資產(chǎn)的企業(yè)提供發(fā)展機(jī)遇。預(yù)計(jì)今明兩年將是大數(shù)據(jù)市場(chǎng)的培育期,2015年以后大數(shù)據(jù)產(chǎn)品將會(huì)形成業(yè)績(jī)。由于國(guó)際巨頭在硬件層和基礎(chǔ)軟件層壟斷優(yōu)勢(shì)明顯,本土企業(yè)將主要依靠對(duì)客戶需求的了解和客戶資源優(yōu)勢(shì),以及本地化服務(wù)的優(yōu)勢(shì),在應(yīng)用軟件層分得蛋糕,擁有大數(shù)據(jù)處理、挖掘技術(shù)、數(shù)據(jù)分析人才以及數(shù)據(jù)資產(chǎn)的公司值得看好,將在智慧中國(guó)建設(shè)中迎來(lái)難得的發(fā)展機(jī)遇。
大數(shù)據(jù)反映智慧中國(guó)的輿情和民意。網(wǎng)民在網(wǎng)上產(chǎn)生的海量數(shù)據(jù),記錄著他們的思想、行為乃至情感,這是信息時(shí)代現(xiàn)實(shí)社會(huì)與網(wǎng)絡(luò)空間深度融合的產(chǎn)物,蘊(yùn)含著豐富的內(nèi)涵和很多規(guī)律性信息。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心統(tǒng)計(jì),2013年底我國(guó)網(wǎng)民數(shù)已超過(guò)8億,手機(jī)網(wǎng)民已超過(guò)6億,通過(guò)分析相關(guān)數(shù)據(jù),可以了解智慧中國(guó)的大眾需求、訴求和意見。
大數(shù)據(jù)將對(duì)智慧中國(guó)社會(huì)發(fā)展帶來(lái)巨大推動(dòng)作用。企業(yè)和政府的信息系統(tǒng)每天源源不斷產(chǎn)生大量數(shù)據(jù),根據(jù)賽門鐵克公司的調(diào)研報(bào)告,全球企業(yè)的信息存儲(chǔ)總量年增67%。醫(yī)院、學(xué)校和銀行等也都會(huì)收集和存儲(chǔ)大量信息。政府可以部署傳感器等感知單元,收集環(huán)境和社會(huì)管理所需的信息。智慧中國(guó)倘若能夠更有效地組織和使用大數(shù)據(jù),國(guó)家將得到更多的機(jī)會(huì)發(fā)揮科學(xué)技術(shù)對(duì)社會(huì)發(fā)展的巨大推動(dòng)作用。
選擇重點(diǎn)領(lǐng)域推進(jìn)智慧中國(guó)大數(shù)據(jù)建設(shè)。
用大數(shù)據(jù)技術(shù)建設(shè)智慧中國(guó)要重點(diǎn)選擇以下八個(gè)具有大數(shù)據(jù)基礎(chǔ)的領(lǐng)域和具有迫切需求的行業(yè),探索“數(shù)據(jù)、平臺(tái)、應(yīng)用、終端”四位一體的新型商業(yè)模式,推進(jìn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,促進(jìn)大數(shù)據(jù)技術(shù)成果惠及廣大民眾。
城市規(guī)劃。根據(jù)全國(guó)城鎮(zhèn)化建設(shè)工作會(huì)議的戰(zhàn)略部署,重新搞好各地的城鎮(zhèn)建設(shè)規(guī)劃;通過(guò)對(duì)城鄉(xiāng)地理、氣象等自然數(shù)據(jù)和經(jīng)濟(jì)、社會(huì)、文化、人口等人文社會(huì)信息的挖掘,為城鎮(zhèn)規(guī)劃提供強(qiáng)大的決策支持,強(qiáng)化城鎮(zhèn)規(guī)劃的科學(xué)性和前瞻性;盡快實(shí)施數(shù)字化城市管理新模式,使城市管理實(shí)現(xiàn)快捷有序科學(xué)化。
智慧交通。針對(duì)交通規(guī)劃、綜合交通決策、跨部門協(xié)同管理、個(gè)性化的公眾信息服務(wù)等需求,建設(shè)全方位交通大數(shù)據(jù)服務(wù)平臺(tái)。整合城鄉(xiāng)道路交通、公共交通的大數(shù)據(jù)資源,匯聚氣象、環(huán)境、人口、土地等行業(yè)數(shù)據(jù),逐步建設(shè)交通大數(shù)據(jù)庫(kù),提供道路交通狀況判別及預(yù)測(cè),輔助交通決策管理,支撐智慧出行服務(wù),加快交通大數(shù)據(jù)服務(wù)模式創(chuàng)新。針對(duì)現(xiàn)代物流業(yè)務(wù)的需求,建設(shè)物流大數(shù)據(jù)平臺(tái)。匯聚整合城鄉(xiāng)貨物、運(yùn)輸車輛等數(shù)據(jù),融合多源物聯(lián)網(wǎng)、北斗導(dǎo)航等數(shù)據(jù),實(shí)現(xiàn)貨運(yùn)數(shù)據(jù)共享服務(wù),建立基于大數(shù)據(jù)的現(xiàn)代貨運(yùn)物流服務(wù)體系。
醫(yī)療衛(wèi)生。針對(duì)臨床質(zhì)量分析、醫(yī)療資源分配、醫(yī)療輔助決策、科研數(shù)據(jù)服務(wù)、個(gè)性化健康引導(dǎo)的需求,建設(shè)全民醫(yī)療健康公共服務(wù)平臺(tái)。在健康信息網(wǎng)已有數(shù)據(jù)的基礎(chǔ)上,匯聚整合醫(yī)療、藥品、氣象和社交網(wǎng)絡(luò)等大數(shù)據(jù)資源,形成智能臨床診治模式、自助就醫(yī)模式等服務(wù)模式創(chuàng)新,為民眾、醫(yī)生、政府提供醫(yī)療資源配置、流行病跟蹤與分析、臨床診療精細(xì)決策、疫情監(jiān)測(cè)及處置、疾病就醫(yī)導(dǎo)航、健康自我檢查等服務(wù)。建設(shè)完善涵蓋城鄉(xiāng)所有患者的電子診療檔案庫(kù),形成PB級(jí)的醫(yī)療健康大數(shù)據(jù)資源,實(shí)現(xiàn)支撐城鄉(xiāng)主治醫(yī)生同時(shí)在線診療的輔助能力。
食品安全。針對(duì)食品安全和管理的需求,建設(shè)食品安全大數(shù)據(jù)服務(wù)平臺(tái)。匯聚政府各部門的食品安全監(jiān)管數(shù)據(jù)、食品檢驗(yàn)監(jiān)測(cè)數(shù)據(jù)、食品生產(chǎn)經(jīng)營(yíng)企業(yè)索證索票數(shù)據(jù)、食品安全投訴舉報(bào)數(shù)據(jù),建成食品安全大數(shù)據(jù)資源庫(kù),進(jìn)行食品安全預(yù)警,發(fā)現(xiàn)潛在的食品安全問(wèn)題,促進(jìn)政府部門間聯(lián)合監(jiān)管,為企業(yè)、第三方機(jī)構(gòu)、公眾提供食品安全大數(shù)據(jù)服務(wù)。
數(shù)字生活。針對(duì)日益增長(zhǎng)的現(xiàn)代化生活需求,建設(shè)數(shù)字生活大數(shù)據(jù)服務(wù)系統(tǒng)。收集整合流行時(shí)尚、行業(yè)發(fā)展指數(shù)、用戶消費(fèi)習(xí)慣、收視記錄、社交媒體、地理位置等大數(shù)據(jù),充分挖掘用戶的消費(fèi)習(xí)慣和興趣偏好,提升企業(yè)輔助決策能力,形成有市場(chǎng)競(jìng)爭(zhēng)力的創(chuàng)新商業(yè)模式,面向所有消費(fèi)者提供個(gè)性化衣食住行生活互動(dòng)信息。
制造業(yè)。針對(duì)科學(xué)評(píng)價(jià)生產(chǎn)系統(tǒng)規(guī)劃、降低產(chǎn)品缺陷率等需求,建立制造業(yè)大數(shù)據(jù)系統(tǒng)。整合已有的車間制造、質(zhì)量體系、工序數(shù)據(jù)、成本核算等建模數(shù)據(jù),為工廠生產(chǎn)、實(shí)際建設(shè)提供決策依據(jù)。收集產(chǎn)品生產(chǎn)過(guò)程各環(huán)節(jié)的實(shí)時(shí)質(zhì)量數(shù)據(jù),實(shí)現(xiàn)敏捷的一體化質(zhì)量監(jiān)測(cè)和管控,并支持產(chǎn)品質(zhì)量追溯,形成基于大數(shù)據(jù)的一貫過(guò)程質(zhì)量控制及分析系統(tǒng),并向第三方提供服務(wù)。
公共安全。針對(duì)治安防控、反恐維穩(wěn)、情報(bào)研判、案情偵破等實(shí)戰(zhàn)需求,建設(shè)基于大數(shù)據(jù)的公共安全管理和應(yīng)用平臺(tái)。匯聚融合涉及公共安全的人口、警情、網(wǎng)吧、賓館、視頻、人臉、指紋等海量業(yè)務(wù)數(shù)據(jù),建設(shè)公共安全領(lǐng)域的大數(shù)據(jù)資源庫(kù),全面提升公共安全突發(fā)事件監(jiān)測(cè)預(yù)警、快速響應(yīng)和高效打擊犯罪等能力。
科技服務(wù)。針對(duì)科技服務(wù)數(shù)據(jù)整合、交互式服務(wù)、發(fā)展趨勢(shì)預(yù)測(cè)、戰(zhàn)略決策支持等需求,探索科技服務(wù)鏈整合、眾包分包、供需對(duì)接的交互式平臺(tái)型服務(wù)模式,建立科技服務(wù)業(yè)資源共享體系,建設(shè)跨領(lǐng)域科技服務(wù)與工程創(chuàng)新平臺(tái)。匯聚科技成果、項(xiàng)目、人才、服務(wù)、互聯(lián)網(wǎng)創(chuàng)新創(chuàng)意等大數(shù)據(jù)資源,支撐研發(fā)設(shè)計(jì)、技術(shù)轉(zhuǎn)化、創(chuàng)新創(chuàng)業(yè)、科技咨詢等方面的科技服務(wù)。打造“科聯(lián)工程”,形成跨領(lǐng)域的大數(shù)據(jù)服務(wù)模式。
依托統(tǒng)計(jì)部門為全國(guó)大數(shù)據(jù)采集應(yīng)用探索新路。
統(tǒng)計(jì)部門是城鄉(xiāng)大數(shù)據(jù)采集應(yīng)用的主導(dǎo)部門,在業(yè)務(wù)工作中要不斷明確工作重點(diǎn),有條不紊地落實(shí)和推進(jìn)大數(shù)據(jù)應(yīng)用工作,為全國(guó)大數(shù)據(jù)采集應(yīng)用探索新路。一在專業(yè)突破方面,以價(jià)格統(tǒng)計(jì)和貿(mào)易統(tǒng)計(jì)為例,逐步研究采集互聯(lián)網(wǎng)信息特別是電商交易數(shù)據(jù)和價(jià)格數(shù)據(jù)以補(bǔ)充完善調(diào)查樣本,研究建立商場(chǎng)、超市和電商企業(yè)向統(tǒng)計(jì)部門提供完整電子化交易記錄的制度。二在企業(yè)電子化記錄應(yīng)用方面,要與有關(guān)高校和科研部門協(xié)作,積極研究開發(fā)企業(yè)電子化生產(chǎn)經(jīng)營(yíng)記錄自動(dòng)導(dǎo)入統(tǒng)計(jì)聯(lián)網(wǎng)直報(bào)系統(tǒng)的技術(shù),爭(zhēng)取2014年在聯(lián)網(wǎng)直報(bào)平臺(tái)正式加載自動(dòng)導(dǎo)入軟件。三在應(yīng)用政府部門電子化行政記錄方面,進(jìn)一步加強(qiáng)與民政、工商等部門的協(xié)作配合,推進(jìn)電子化行政記錄和統(tǒng)計(jì)信息的共享。在居民收入、勞動(dòng)工資等統(tǒng)計(jì)中,要不斷研究通過(guò)對(duì)稅務(wù)、銀行等部門行政記錄的分析,評(píng)估公民收入、工資、家庭資產(chǎn)等統(tǒng)計(jì)數(shù)據(jù),特別是評(píng)估與校驗(yàn)高收入階層的相關(guān)數(shù)據(jù)。四在利用大數(shù)據(jù)開展經(jīng)濟(jì)走勢(shì)預(yù)測(cè)方面,各級(jí)統(tǒng)計(jì)部門要與網(wǎng)絡(luò)公司、科研單位和咨詢機(jī)構(gòu)等開展合作,探索利用網(wǎng)絡(luò)搜索數(shù)據(jù)建立相關(guān)統(tǒng)計(jì)分析和計(jì)量模型,進(jìn)行經(jīng)濟(jì)形勢(shì)分析預(yù)測(cè),為各級(jí)政府決策提供服務(wù)。
用大數(shù)據(jù)建設(shè)智慧中國(guó)應(yīng)采取的對(duì)策
大數(shù)據(jù)的應(yīng)用與分析對(duì)做出科學(xué)決策具有重要意義,我們從現(xiàn)在開始就應(yīng)該為數(shù)據(jù)收集和數(shù)據(jù)分析做好充分準(zhǔn)備,以確保智慧中國(guó)快速建設(shè)。
建設(shè)“大數(shù)據(jù)”寬帶高速通道。大數(shù)據(jù)如同節(jié)假日高速公路上的汽車,如果路面狹窄就會(huì)發(fā)生嚴(yán)重?fù)矶隆T撐脑d于中國(guó)社會(huì)科學(xué)院文獻(xiàn)信息中心主辦的《環(huán)球市場(chǎng)信息導(dǎo)報(bào)》雜志http://總第535期2014年第03期-----轉(zhuǎn)載須注名來(lái)源對(duì)此,我國(guó)電信、移動(dòng)、聯(lián)通、廣電等電信企業(yè)要積極落實(shí)“國(guó)家寬帶工程戰(zhàn)略”,爭(zhēng)取在“十二五”末建成融合3G(第三代移動(dòng)通信)、4G(第四代移動(dòng)通信)、WLAN(無(wú)線局域網(wǎng))、寬帶固網(wǎng)及NGB(下一代廣播電視網(wǎng))等城域高速網(wǎng)絡(luò),實(shí)現(xiàn)高速安全、多層次、立體化網(wǎng)絡(luò)覆蓋;實(shí)施“寬帶中國(guó)”戰(zhàn)略,全面實(shí)現(xiàn)“百兆到戶,千兆到企”的寬帶接入能力,城域網(wǎng)全面支持IPv6(國(guó)際互聯(lián)網(wǎng)協(xié)議第6版)訪問(wèn)與解析;WLAN熱點(diǎn)覆蓋廣泛,城鄉(xiāng)無(wú)線寬帶網(wǎng)絡(luò)覆蓋率達(dá)到90%;力爭(zhēng)實(shí)現(xiàn)TD-LTE(分時(shí)長(zhǎng)期演進(jìn))網(wǎng)絡(luò)全面商用,極大滿足智慧中國(guó)建設(shè)的需求,為大數(shù)據(jù)的廣泛應(yīng)用拓寬通道。
實(shí)施“三網(wǎng)融合”和數(shù)字家庭試點(diǎn)。推動(dòng)基于互聯(lián)網(wǎng)、通信網(wǎng)、廣播電視網(wǎng)的產(chǎn)業(yè)轉(zhuǎn)型和資源融合,重點(diǎn)發(fā)展基于廣電網(wǎng)的電信增值業(yè)務(wù)、互聯(lián)網(wǎng)接入業(yè)務(wù)和電信運(yùn)營(yíng)商的IPTV(交互式網(wǎng)絡(luò)電視)業(yè)務(wù);開展“三網(wǎng)融合”數(shù)字家庭試點(diǎn)示范,普及家庭高清互動(dòng)娛樂、視頻通信、節(jié)能管理、安全監(jiān)控、遠(yuǎn)程教育、家庭醫(yī)療保健等智能化信息應(yīng)用。到“十二五”末,形成全國(guó)統(tǒng)一有線廣播電視網(wǎng),建成IPTV、手機(jī)電視集成播控平臺(tái)和綜合業(yè)務(wù)管理平臺(tái),全面實(shí)現(xiàn)廣電和電信業(yè)務(wù)雙向進(jìn)入,使數(shù)字、圖像、視頻等大數(shù)據(jù)公開使用,暢通無(wú)阻。
構(gòu)建各級(jí)政府大數(shù)據(jù)中心。建設(shè)和完善人口、法人、空間地理和宏觀經(jīng)濟(jì)等基礎(chǔ)信息數(shù)據(jù)庫(kù),以及市場(chǎng)監(jiān)管、社會(huì)信用等專題信息數(shù)據(jù)庫(kù),制定管理辦法,完善信息動(dòng)態(tài)更新機(jī)制,依托各級(jí)云計(jì)算中心建設(shè)政府大數(shù)據(jù)中心,提高從大量數(shù)據(jù)中采集、訪問(wèn)、組織、分析和可視化處理信息的水平。到“十二五”末,各級(jí)要建成多層次的空間信息云服務(wù)體系,建成宏觀經(jīng)濟(jì)數(shù)據(jù)庫(kù),為貯存、計(jì)算、處理、分析大數(shù)據(jù),滿足城鄉(xiāng)管理、企業(yè)生產(chǎn)經(jīng)營(yíng)、公民生活需求和政府智慧決策提供服務(wù)。
建立政府和社會(huì)聯(lián)動(dòng)的大數(shù)據(jù)形成和應(yīng)用機(jī)制。各級(jí)政府部門和各行業(yè)要全面實(shí)施信息公開制度,推動(dòng)公共數(shù)據(jù)資源的開發(fā)利用,提高信息資源社會(huì)價(jià)值和經(jīng)濟(jì)價(jià)值。積極推行政府網(wǎng)上辦事,收集分析挖掘社會(huì)政務(wù)服務(wù)需求,推進(jìn)公共服務(wù)個(gè)性化和政府決策智能化。支持公共服務(wù)機(jī)構(gòu)和商業(yè)機(jī)構(gòu)開放與社會(huì)民生密切相關(guān)的公共數(shù)據(jù)。推進(jìn)國(guó)民經(jīng)濟(jì)各行業(yè)和企業(yè)數(shù)據(jù)開發(fā),發(fā)展商業(yè)智能。鼓勵(lì)開展服務(wù)大眾的大數(shù)據(jù)應(yīng)用,提升智慧生活品質(zhì)。
制定實(shí)施大數(shù)據(jù)的有關(guān)政策措施。大數(shù)據(jù)就是資源,建設(shè)智慧中國(guó)離不開大數(shù)據(jù)的開發(fā)應(yīng)用,必須制定有關(guān)政策措施,確保大數(shù)據(jù)這一科技生產(chǎn)力發(fā)揮作用,以推動(dòng)智慧中國(guó)建設(shè)。
創(chuàng)新體系建設(shè)。各省市要成立“大數(shù)據(jù)產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟”,設(shè)立“大數(shù)據(jù)科學(xué)實(shí)驗(yàn)室”、建設(shè)“數(shù)據(jù)工程技術(shù)研究中心”等,以大數(shù)據(jù)技術(shù)創(chuàng)新及產(chǎn)業(yè)應(yīng)用為目標(biāo)、以聯(lián)盟為紐帶促進(jìn)形成若干引領(lǐng)大數(shù)據(jù)產(chǎn)業(yè)技術(shù)創(chuàng)新的企業(yè)聯(lián)合實(shí)體;以合同契約為保障有效整合產(chǎn)、學(xué)、研、用等各方資源,以技術(shù)創(chuàng)新為驅(qū)動(dòng)力、市場(chǎng)剛性需求為推動(dòng)力,發(fā)展擁有自主知識(shí)產(chǎn)權(quán)且符合國(guó)內(nèi)外產(chǎn)業(yè)發(fā)展需求的共性應(yīng)用技術(shù)、產(chǎn)業(yè)標(biāo)準(zhǔn)和產(chǎn)品規(guī)范。
培養(yǎng)專業(yè)人才。開展數(shù)據(jù)專業(yè)領(lǐng)域人才的培養(yǎng),培訓(xùn)一批資深數(shù)據(jù)工程師,培育跨界復(fù)合型人才,與國(guó)內(nèi)外數(shù)據(jù)專家形成持續(xù)穩(wěn)定的協(xié)作關(guān)系。鼓勵(lì)高等院校和企業(yè)合作,開展數(shù)據(jù)科學(xué)和大數(shù)據(jù)專業(yè)學(xué)歷教育,依托社會(huì)化教育資源,提高大數(shù)據(jù)產(chǎn)業(yè)人員的業(yè)務(wù)水平,發(fā)揮大數(shù)據(jù)高層次引進(jìn)人才的重要作用,開展大數(shù)據(jù)專業(yè)培訓(xùn),形成人才梯隊(duì)。
完善制度法規(guī)。研究大數(shù)據(jù)產(chǎn)業(yè)相關(guān)的政策法規(guī),提出數(shù)據(jù)資源權(quán)益、隱私保護(hù)等方面的法規(guī)細(xì)則建議,制定大數(shù)據(jù)相關(guān)標(biāo)準(zhǔn),并提出技術(shù)解決手段,在保護(hù)數(shù)據(jù)資源的同時(shí),促進(jìn)數(shù)據(jù)資源合理有序地開發(fā)利用。在人才、財(cái)稅、科技金融等方面設(shè)計(jì)有利于數(shù)據(jù)人才和數(shù)據(jù)產(chǎn)業(yè)發(fā)展的政策,逐步建立有利于各地大數(shù)據(jù)研究與發(fā)展、并保障大數(shù)據(jù)安全的制度法規(guī)體系。