時間:2023-06-12 16:20:26
導語:在數據分析設計的撰寫旅程中,學習并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優秀范文,愿這些內容能夠啟發您的創作靈感,引領您探索更多的創作可能。

關鍵詞:互聯網+;中職英語;闖關模式;數據分析
一、引言
隨著“互聯網+”時代的到來,各行各業都發生了巨大變化。把互聯網平臺、云數據、信息通信技術與教育行業結合,或許可以在教育領域里創造一種新生態。[1]在互聯網信息技術支持下,職業教育手段多樣,學習途徑也可以變得簡單方便。信息化的教學手段不僅可以激發學生的學習興趣,更可以使學生利用零散時間學習,打破傳統教學時間和地域的限制。除此外,利用平臺反饋的各種數據,教師可以隨時掌握學生的學習進展和學習效果,因地制宜規劃教學任務、改進教學方法、調節教學進度等。另一方面,基于闖關模式的信息化教學平臺也在逐漸走入中職院校的教學課堂。由于目前大多數中職院校的英語教學主要采用傳統的課堂教學手段,即“填鴨式”的教學方法。在這種教學情形下,學生學習的主動性不高,師生課堂互動少,學生缺乏學習成就感,厭學情緒強烈,導致教學效果不理想。因此,“互聯網+”背景下的闖關模式教學正是利用中職學生愛玩游戲的天性,在模擬闖關游戲的情境下,在教學平臺上進行游戲式英語教學。[2]讓學生在游戲中主動學習,在學習中感受到游戲帶來的樂趣,達到在輕松氛圍中掌握知識的目的。與此同時,闖關模式的教學進度和教學成果的數據分析功能也尤為重要,通過數據分析教師可以更好的反思自己教學方式需要改進的地方,從而進一步優化教學內容。文章通過研究闖關模式的教學意義、教學流程以及教學數據分析在中職英語教學的應用,可為現階段基于闖關模式的中職英語教學實踐提供有效的方法,具有中職英語教學借鑒價值。
二、闖關模式在中職英語的應用
職業教育是以學生服務為核心的服務型教育,目的在于培育學生在步入社會工作時擁有一技之長,而不僅僅是一紙證書。大部分傳統課堂教學有師資、授課時間和地點的要求,由于課時和課外精力有限,教師往往以急于完成教學大綱要求,采取“滿堂灌”“一刀切”的教學方法。由于中職院校學生的基礎較差,學習主動性不強,學生彼此能力不一,教師對學生的基礎及進步空間不了解,“教師灌輸,學生厭學”的教學方式使得教學效果很不理想。英語作為基礎學科具有一定的特殊性。在中職英語教學過程中,師生互動和生生互動是非常重要的學習過程,學生敢于表達是學好英語最有效的方法。所以,在教學過程中,首先應激發學生的學習興趣,提高學生的學習自信心,讓學生敢于用英語表達,樂于用英語進行互動。使學生于交流表達互動中,逐步掌握英語的詞匯、語法等。闖關模式是基于游戲設置,通過合理設計“游戲關卡”來逐層加深知識的難易程度,整個闖關游戲所有的關卡設置內容既包含理論知識所需要掌握的知識要點,又包含具體應用的實操技能訓練環節,形式多樣。闖關模式的實質是利用游戲激發學生的學習興趣,在游戲成功闖關后讓學生獲得學習成就感,增強學習信心與動力,從而愛上學習英語,變被動學習為主動學習。[3]闖關模式設置時一定嚴格按照教學大綱的內容,并且時刻注意學生學習過程中反饋的各種數據,根據數據分析掌握學生學情。
(一)闖關模式在中職英語學習中的設置
闖關模式按照學習內容的難易程度設置成不同等級的關卡,以移動終端的網絡平臺為支撐,學生以個人或小組的形式進行闖關。闖關模式的目的在于吸引學生主動參與學習,通過這種教學模式提高了學生應用英語的整體水平,同時也提升了教師的英語教學技能和研究能力。所以,游戲是手段,不能只注重學習過程,而忽視教學成果。學生要想闖關成功,就必須要掌握融入到闖關游戲中的各種英語知識和相關表達。闖關模式教學內容的設定是核心工作,是教師應“三思而后行”的任務。教師應依據教學任務,首先將教材內容進行分析梳理,按照教學流程(單詞-語句-閱讀)或者所學內容的難以程度進行梯度劃分,將梯度設置成“關口”。[4]在每一次闖關之前,教師可以將教學任務中布置的闖關相關詞匯和句型進行講解,建立所謂的“闖關須知”,學生要想闖關成功,必須先學會相關的詞匯和句型。開始闖關后,可將闖關任務分解,以個人或團體的形式闖關。教師可以將全部的學習任務放入“通關錦囊”中,供闖關失敗的學生參考,為下一次闖關做儲備。在闖關任務完成后,教師應及時通過后臺數據了解學生的學習情況,如答題速度,思考時間,正確率,易錯選項等數據,及時對學生的闖關結果進行考核與評價,以最快的速度了解學生學情,進而對教學內容和教學進度進行調整,以適應學生的學習步伐。教師在考核評價完成后應將闖關結果及時反饋給學生,學生在收到教師根據數據發表的相關評價后及時進行學結,為以后的闖關打好基礎。下面以“MyInterest”主題教學任務為例,按照上述流程教師可將該主題分解成“興趣詞匯”“興趣對話”“興趣展示與比拼”等幾個游戲環節,按照對應內容依次設立成“基礎詞匯關”“提升句型關”“終極表達關”“興趣展示關”等難度不一的關卡,再根據教學任務要求,將和MyInterest有關的詞匯、句型和片段閱讀放入“闖關須知”中,讓學生進行闖關前預習,以便于他們掌握通關的基本技能,降低闖關難度。闖關過程中,教師也可結合學生闖關的情況,隨時發現學生的學習問題,隨時記錄,以便后期問題的講解。任務結束后,將教學大綱中的主題相關課程講解放在“通關錦囊”中,幫助學生學結。
(二)闖關模式教學設置的注意事項
首先,闖關設置的教學內容應遵循教學大綱規定。按照大綱規定的課程學習內容進行選擇,并且要注重理論與實際的結合。闖關任務的設置應將教學目標自然地融入關卡中,緊密結合實訓課程的能力目標,注意關卡中知識的環環相扣,知識點的引入要全面且不超綱。其次,教師要明確設置的關卡難度,根據教學內容的由淺入深,闖關所需掌握的知識也應按逐級增加的原則設置,這樣學生才會有闖關的成就感,有繼續闖關的勇氣,在逐級過關后積累知識。[5]例如闖關時設為一顆星難度、兩顆星難度、三顆星難度等類推。每一次闖關都要明確必備知識,時間限制和過關要求等等。以上文提到的“MyInterest”話題為例,具體任務分解可參照一下表格:在學生完成任務后,教師可以要求學生寫出完成任務后的困惑、感想及感悟等,同要求掌握的詞匯和句型一并放到“通關錦囊”中,作為闖關失敗重新闖關或者后面闖關同學的闖關指南。最后,闖關設置任務切勿本末倒置。闖關的是為了提高學生的學習興趣,使學生在輕松愉快的環境中完成學習。闖關不是目的,達到教學目標讓學生掌握必備的英語技能才是最終目的。因此,在闖關后,教師應該針對學生闖關過程中表現出來的學習情況、能力表現等進行客觀、真實地評價。利用平臺數據的反饋建立相應的學生測評報告,將實訓成績納入學生期中期末的總成績中,激發學生的競爭意識。筆者曾針對中職英語教學現狀和中職英語闖關模式教學現狀對學生進行過問卷調查,問卷調查的對象分別是筆者所在的南靖第一職業技術學校2015級隨機抽取的60名學生,共發放60份問卷,收回60份問卷,回收率100%。雖然該調查具有局限性,但是在一定程度上也反映了目前中職學生英語學習的現狀對比情況。從問卷調查結果中可以看出:闖關模式教學可以提高學生的學習興趣,有助于提高學生的英語學習成績,并且有效提高了英語課堂的學習氣氛,提高了學生的學習主動性。
三、闖關模式教學中數據分析的重要性
互聯網帶動了云數據的發展,使人們無論在何時何地都能用數據進行總結分析和預測。在中職英語的闖關模式教學中,教師除了設置闖關教學內容外,還要重視平臺反饋的數據,要對數據進行收集整理和分析,從數據中采集學生學情等信息。利用闖關模式教學的目的在于激發學生的學習興趣,如何驗證教學模式的有效性?闖關模式的平臺可以設置諸多數據,仍以上文提到的“MyInterest”學習主題的第一關基礎詞匯關為例,可以根據單詞的闖關測試設置拼寫速度、反應時間、正確率、歷史錯誤率等數據。學生每闖過一關,教師就可以在后臺收集相應的數據,收集所有學生的數據后,進行分析,為每一學生建立測評報告。通過測評報告,教師可以了解學生知識掌握情況,結合線下教學,幫助學生補短板,提高整體英語學習水平。除了學生的個人測評報告,教師還應建立闖關模式教學任務的整體測評報告。例如:對于錯誤率較高的單個知識點找到學生犯錯的共性,利用線下教學面授優勢,為學生細心巧妙講解,突破重點難點。同時教師利用闖關模式平臺數據可以直擊學生學習難點,有效地指導學生學習,利用數據結果提高備課速度,不斷優化設定的教學內容。總之,應用闖關模式等其他互聯網平臺作為新型教學手段,改革傳統中職英語的教學模式,可不斷提升中職學生對英語的學習興趣和能力,同時通過平臺中的數據反饋與分析還可以大大提升中職英語的教學成果,可實現為企業輸送優秀的英語人才。
參考文獻:
[1]張聰.基于“互聯網+”積件式資源建設的中職英語教學探索[J].考試周刊,2016(32).
[2]王彩云.“互聯網+”時代背景下的中職英語教學初探[J].教育(文摘版),2016(2).
[3]曾麗婷.闖關式翻轉課堂教學模式構建與實施[J].中國教育信息化,2015(12).
[4]陳寅,張玉珊.互聯網+環境下英語教育改革與創新思考:兼評《英語語言教學改革與創新二互聯網+教育探討》[J].中國高教研究,2016(2).
關鍵詞:價格預測;分布式網絡爬蟲;數碼產品網站;大數據;數學建模
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)17-0269-02
1概述
據《中國互聯網絡發展狀況統計報告》顯示,截至2016年6月,我國網絡購物用戶規模達到4.48億,可見通過網上獲取信息的人很多。在互聯網+和大數據時代下,IT行業逐步成為人們熱議的焦點,其發展也得到愈來愈多的人關注。而目前國內的IT類資訊網站大多沒有預測產品價格這個功能,本文將著重研究價格預測的實現功能的實現。
2網站設計與開發的可行性與適應性分析
2.1從技術角度看
開發一個基于大數據的分析的數碼產品價格預測網站需要大量的數據做支撐,這些數據可以通過各大電商平臺進行獲取。各大電商平臺往往會將這些數據按照一定的格式展現在網站上,我們可以通過分布式數據爬蟲技術將這些數據實時采集。數據爬蟲是一種非常流行的數據采集程序,目前互聯網上擁有大量的爬蟲框架供我們使用,我們只需編寫簡單的代碼便可以開始獲取數據。當擁有海量數據后我們可以對各個商品進行建模,基于hadoop框架進行分布式運算,設計相關預測算法對數碼產品價格進行分析并預測出價格的未來走勢。
2.2從資源角度看
對于數碼產品,互聯網可以提供各種各樣的信息,比如各大手機生產企業會在他們的網站上數碼產品的配置信息、評測信息等。在網站建立的初期我們可以從這些網站獲取大量的數據來填充我們的數據庫。對于部分具有版權的數據,我們將采用外鏈的方式將原網站提供給用戶瀏覽,這樣可以節約開發資源,并讓網站專注于價格預測的實現。
2.3從商業價值角度看
一個可以有效預測價格變化的網站是比較有市場前景的,目前互聯網上充斥著各種各樣的歷史價格查看網站,但是大多沒有可以對價格進行預測的網站。如果我們可以成功的預測價格走勢,我們就可以引導消費,幫助消費者省錢,這也便是網站最大的商業價值。
3網站概述
網站以用戶需求為出發點,利用網絡爬蟲、PHP、HTML5、JAVASCRIPT、MYSQL等技術設計開發。在網站里可以查詢到參數、評測、價格和圖片等關于數碼產品的詳細信息。網站的功能包括數碼產品價格預測(預測到某款數碼產品在未來一段時間內的價格)、信息查詢(含有數碼產品名稱、各項參數、各角度拍攝圖片等信息)、價格對比(及參數對比、圖片對比和綜合對比)等,目的是為人們提供一個簡單易操作、具有現實意義的數碼產品信息查詢平臺。網站技術框架如下圖所示:
4網站設計
4.1網站主要功能設計
4.1.1產品價格預測模塊設計
產品降價預測模塊是網站的重點功能。用戶可以通過網站查詢某個產品的基本信息,并且能夠得知該產品的歷史價格走勢和該產品在未來一段時間的價格走勢,這對于比較注重價格的用戶來說,便可以綜合各類信息和自身需求,更加理性和有計劃地選擇性價比較高的產品。
網站利用分布式爬蟲采集互聯網各大平臺的IT產品價格數據,形成一個較全面的價格走勢圖,再通過對產品價格進行建模,從建模結果中得到IT產品在未來一段時間的價格走勢。需要說明的是,因為價格容易受到社會、經濟條件以及國際等多種因素的影響,所以預測的價格走勢會有一定的波動。另外,對于不同時期的價格預測也不同,短期內影響因素主要是數碼產品的市場供應,一般采用指數平滑法。這種方法預測主要是靠歷史價格數據逐步往后推導預測價格。對于較長時間,則采用二次指數平滑法較好,因為對于一些時間序列變化可能存在線性的趨勢,這種方法的好處在于能減少預測值的滯后性。如果數據的變化受季節影響,預測方法應當采用溫特線性季節性指數平滑較好,因為這個預測方法是根據季節的變化來進行價格預測,這樣預測的價格更為準確。
4.1.2產品基本搜索功能設計
產品的搜索功能也是網站的基本功能之一。產品的搜索功能不僅僅只是簡單的產品搜索,它是一個包括商品搜索、查看熱門產品、查看最新產品、今日推薦等多模塊組合成的一個大模塊。用戶通過這些搜索信息并結合自己需求,可以理性謹慎地對產品進行對比選購。換言之,產品搜索模塊將完成對商品的導購功能。
4.1.3產品詳情模塊設計
產品詳情頁面包括很多內容,其子頁面也非常多。其中包括:概覽頁面、具體參數頁面、報價頁面、點評頁面、圖片頁面以及競品對比頁面等等,每一個頁面的功能都不同,設計時將合理安排功能的布局,以方便用戶獲取自己所需要的資料。
4.2價格的采集與預測
4.2.1分布式網絡爬蟲
實現價格預測的前提是有大量的歷史價格數據,所以W站利用分布式網絡爬蟲技術從各大網站采集數據,爬蟲主要由兩個模塊組成:
爬蟲引擎:分布式運行且完成下載網站頁面內容,并將數據存入數據庫的工作。
數據清洗:將下載下來的價格信息進行清洗處理,剔除無效信息和冗余信息。
分布式爬蟲技術實現需要對于特定的網頁編寫用于分析其網站源碼和獲取信息的腳本代碼,數據或許后再通過數據清洗去除掉不必要的數據信息,最后把需要的數據存放到數據庫中保存。
4.2.2預測價格
在比較多種預測方法后,我們發現時間序列法較適合預測數碼產品的價格。時間序列即是某些序列按照時間的先后順序排列而成的一種特殊序列。若利用這組數列,應用數理統計方法加以處理,以解決實際問題,則稱為時間序列分析法。時間序列分析是以時間序列為研究對象,分析序列的本質波動,探究其真實規律的一種定量分析法。在實際中,通常被用于預測未來現象或指標的波動情況。由于數據量龐大、涉及的商品較多,為了提高計算速度,預測模型需要構架在Hadoop等分布式平臺之上。
5網站的開發
5.1數據爬蟲程序
開發一個數據爬蟲,需要用到scrapy框架,該框架是基于python語言編寫的,用python語言開發程序最大的特點那就是簡單易讀。Scrapy框架非常的簡單易用只需編寫爬蟲規則就可以開始高效獲取數據,并且該框架是可分布式運行,速度可控,支持JavaScript,非常適合用來采集各大網站的數碼產品數據,最重要的是該框架是免費而且開源的,故運用scrapy框架進行開發滿足網站需要的爬蟲系統。
5.2價格數據分析系統
對于海量的數據傳統程序沒辦法很好的處理,傳統的win-dows系統也很難有效的承載。故我們選用hadoop生態體系進行數據分析,該程序可以高可靠的運行在多臺電腦上。為了程序可以長期穩定地運行,我們選擇在linux上進行數據分析,這樣的好處是系統穩定性強,硬件資源可以高效利用。
5.3網站搭建
和大多數網站一樣,本網站采用BS(Browser/Server)架構,該架構具備以下幾個特點:客戶端電腦負荷大大簡化、系統維護和升級成本低、同時也降低了用戶的總體成本。
我們運用HTML、CSS、JavaScript開發網站前臺頁面,用PHP開發網站后臺,MySQL作為后臺數據庫。網站運行在Linux系統下的Apache軟件下,網站的所有軟件均為免費軟件,實現成本較低,也符合當下流行趨勢。
關鍵詞: 大數據分析; 選課; 模型設計; 信息融合
中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)14?0030?03
Abstract: In order to improve the optimal allocation performance in students′course selection and utilization efficiency of curriculum resources, a design method of a course selection model based on large data analysis is proposed. The overall structure model of student optimal course selection model is constructed firstly. A large data analysis method is used to conduct information fusion and optimal access design of student course resource database to get comprehensive decision model of student course selection by combining adaptive equilibrium with grey correlation analysis. The program development is performed in Linux kernel. The cross compile environment for student elective system is established based on X86 architecture. A script menu is collocated in the virtual file system. HTTP server and telnet server functions are integrated in the network module to realize data sharing and remote transmission of the curriculum information. The system software development and debugging analysis results show that the course selection scheme model has good data analysis ability and strong reliability, and can realize the optimization configuration and selection of courses.
Keywords: big data analysis; course selection; model design; information fusion
S著高等教育深化改革和發展,為了更好地發揮高等院校的教學資源優勢,結合學生的課程和專業的差異性,采用選課制進行課程搭配設計。這樣既尊重了學生的個性化學習需求,也更科學地搭配高校的教學資源。選課制,也稱課程選修制,允許學生對學校所開設的課程有一定的選擇自由,對任課教師、上課時間以及進度僅有一定組合的選課機制,采用選課制教學,更有利于擴充學生的知識面,更好地整合高等教育的教學資源。然而,學生在進行選課中具有一定的盲目性和自發性,需要有效的信息系統進行指導,設學生選課方案優化信息管理系統,在大數據信息時代,對更好地利用高校的教學資源具有積極重要的意義。
1 學生最優選課方案設計總體構架
為了實現對大數據處理環境下的學生最優選課方案模型的優化設計,首先分析軟件系統的總體結構模型,基于大數據分析的學生最優選課方案模型是建立在學生選課資源數據庫的信息融合和優化訪問設計基礎上的,結合數據信息處理模型進行學生最優選課方案模型設計,采用LabWindows/CVI進行大數據處理環境的選課方案分析[1?2],結合均衡博弈思想進行選課資源的優化配置。學生最優選課方案模型系統建立在嵌入式操作系統Linux基礎上,本文設計基于大數據分析的學生最優選課方案模型主要元件包括如下幾個方面:
(1) 最優選課方案的特征采集計算元件(CE)。選課方案中對教育資源信息的采樣頻率大于200 Hz,寄存器基器件采用IEEE?488協議進行課程信息緩存和多線程輸出,在集成控制中樞單元對課程信息進行特征提取和網格計算[3]。
關鍵詞 分析化驗;業務域;POSC Epicentre邏輯模型;業務活動
中圖分類號:TP311 文獻標識碼:A 文章編號:1671-7597(2014)04-0017-02
1 業務對象分析
庫房中儲存的樣品主要是巖石樣和流體樣,根據取樣方式的不同可以把巖石樣分為巖心樣、壁心樣、巖屑樣和露頭樣,把流體樣分為常溫常壓流體樣和高溫高壓(統稱PVT)樣,根據流體相態又可以把流體樣分為油樣、氣樣和水樣。
分析化驗所使用的樣品是小樣,也叫做實驗用樣,是大塊巖石樣或大桶流體樣中的一部分。根據實驗的目的和要求,可以把小樣分為水平樣和垂直樣。
2 分析化驗項目分析
根據樣品的類型可以把分析化驗分為流體樣實驗、巖石樣實驗和巖石樣-流體相共存實驗3種。
2.1 流體樣實驗
流體樣實驗是對從井筒或地面上取得的流體樣進行分析的,研究井筒中流體的特性,為油氣田開發前期設計提供參考依據,為生產井提能分配或井下作業提供基本數據支持。
根據流體取樣方式的不同,把流體樣實驗分為常溫常壓流體實驗和PVT實驗,由于流體相可以分為油相、氣相和水相,所以流體實驗又細分為常溫常壓油樣實驗、常溫常壓氣樣實驗、常溫常壓水樣實驗、原油PVT實驗、易揮發油PVT實驗和凝析氣PVT實驗。
2.2 巖石樣實驗
巖石樣實驗是對鉆井過程中取到的巖石所進行的分析或鑒定,是地層巖石特性最直接、最準確的表現。
根據實驗的目的不同,把巖石實驗分為常規巖心分析、特殊巖心分析、巖石地化分析等。
2.3 巖石樣-流體相共存實驗
巖石樣-流體相共存實驗是分析巖石在以不同的流體相作用下,所呈現出來的巖石的潤濕性和聯通性等,主要有毛管壓力實驗和相對滲透率實驗等。
根據流體相作用方式的不同可以分為壓汞法和驅替法,驅替實驗分為油驅替水、水驅替油和氣驅替水等。
3 業務分析
業務分析是數據庫設計的基石,只有業務分析好,才能設計出滿足需要的業務模型。根據工作內容可以把業務分析分為業務調研、業務劃分、業務活動分析和數據分析。
3.1 業務調研
確定分析化驗業務域的業務調研范圍和調研內容,形成業務調研清單,并制定業務調研模板。業務調研模板是業務調研的依據,必須要包含業務名稱、業務流程和數據應用情況等。在執行調研時,按照業務調研模板內容,詳細了解分析化驗業務現狀、數據庫現狀、應用現狀和數據管理機制等,并收集相關資料(報表、數據、業務規范等)。
3.2 業務劃分
根據業務調研情況對分析化驗業務域進行業務劃分,劃分為一級業務和業務活動,一級業務主要有常規巖心分析、特殊巖心分析、巖石地化分析、油氣地化分析、巖礦分析、同位素分析、巖石力學分析、古生物分析、油氣水分析和流體PVT分析等。
業務活動是對一級業務進行細分,直至劃分到不能再分為止。如一級業務常規巖心分析包含有巖石物性分析、巖心伽瑪測定和巖心CT掃描等。
3.3 業務活動分析
根據業務劃分得到一個個業務活動,每一個業務活動都有自己的業務含義和業務范圍。業務活動分析就是要詳細分析每一個業務活動流程,如業務活動的時間、地點、參與人員、業務規則、輸入數據、輸出數據、相關的標準規范等。如巖石物性分析是實驗員(who)收到分析化驗任務后(when),在實驗室(where)根據樣品基本信息和檢測任務單的要求對巖心樣品(which)進行巖石孔隙度、滲透率、含油飽和度、密度、碳酸鹽巖含量的分析化驗,形成巖石物性分析成果數據表和業務分析報告(what),為表征巖石孔隙的發育程度、儲集流體的通過能力和巖石滲流特征提供重要參數,為儲量計算、采收率確定等提供參數依據(why)。
3.4 數據分析
數據分析是對業務活動數據集和現有專業數據庫物理表進行詳細分析,業務活動數據集分析是對業務活動的輸入數據和輸出數據進行分析,規范業務活動輸入數據集和輸出數據集,形成業務活動數據集;現有專業數據庫物理表分析是對現有在用專業數據庫物理數據表進行分析,分析出專業數據庫物理數據表的實際業務含義,具體是哪個業務活動產生的,對應于業務活動的哪個數據集,形成專業數據庫物理數據表對業務活動數據集的映射關系。
數據分析表如下:
業務活動 輸入數據 輸出數據 業務活動數據集 專業數據庫
巖石物性分析 檢測任務單 巖石物性
分析報告 巖石物性分析報告 文檔數據庫
實驗樣品信息 巖石物性分析
成果數據 分析化驗數據庫
4 數據模型設計
數據模型設計是實現業務分析到物理模型設計的所有過程,主要分為業務模型設計、采集模型設計、邏輯模型設計和物理模型設計。
4.1 業務模型設計
根據業務調研和分析成果,對業務模型進行標準化梳理,對數據流進行詳細分析,完成從業務分析到業務模型的轉換,形成業務模型。
4.2 采集模型設計
制定業務模型中數據集合并原則,根據這些原則分析業務模型中需要合并的數據集,通過專業工具完成業務模型數據集的合并工作,實現從業務模型到采集模型的轉換。業務模型數據集合并原則:首先是業務活動場景相同;其次是業務活動產生的數據項相似。
4.3 邏輯模型設計
通過對POSC Epicentre邏輯模型和PPDM模型的研究,結合石油企業業務實際,采用面向對象的設計方法設計分析化驗邏輯模型。邏輯模型主要分為對象模型、活動模型和屬性模型。對象模型是對分析化驗業務域中所涉及到的業務進行抽象,提取出一個個業務對象,用前綴OOE_表示,如巖心的對象模型是OOE_Core等;活動模型是對分析化驗業務域中所有業務場景進行抽象,形成業務活動編目,存儲在OOE_Activity實體里,具體的業務分析活動只是業務活動編目的具體實例。如巖石物性分析是業務活動,***井巖心常規分析報告是業務活動實例;屬性模型是業務活動數據集中的相同數據項的抽象,提取出一個個屬性對象,使用前綴OOP_表示,如孔隙度的屬性模型是OOP_Porosity。
4.4 物理模型設計
設計從邏輯模型到物理模型的投影規則,依據投影規則實現邏輯模型到物理模型的轉換,投影出不同版本的數據庫,以支持不同的數據存儲和管理需求。常用的投影規則有直接投影、復制投影和合并投影,不同的實體具有不同的投影規則。在投影時,為了保證物理模型的最優化設計和數據存儲的最少冗余,要求分析所有實體對應的最優投影規則,根據最優投影規則一次投影出物理模型。
5 總結
分析化驗對象數據庫的設計是依據國際先進的POSC Epicentre模型,根據對象設計方法設計的,具有對象的特征,能很好的滿足業務人員的使用習慣,為今后的勘探開發設計提供強有力的支持。
〔關鍵詞〕圖書館;決策分析;大數據清洗;系統設計
DOI:10.3969/j.issn.1008-0821.2016.09.018
〔中圖分類號〕G25076〔文獻標識碼〕A〔文章編號〕1008-0821(2016)09-0107-05
〔Abstract〕The librarys era of big data is coming,data quality issues will result very important influence on big data applications of libraries,big data cleaning is one of the important methods to improve libraries data quality.This paper introduced the types of dirty data and reasons in libraries,and designed of big data cleaning system for library based on big data decision analysis needs,the system not only improved the efficiency and accuracy of big data cleaning,but also greatly reduced the complexity of big data decision analysis for library.
〔Key words〕library;decision analysis;big data cleaning;system design
當前,圖書館已進入大數據時代。隨著移動互聯網、云計算和物聯網技術在圖書館中的廣泛應用,圖書館可通過監控和采集服務器運行數據、讀者個體特征、閱讀行為數據、閱讀關系數據、閱讀終端數據等,實現了對圖書館服務模式和讀者閱讀需求的全面感知與預測,大幅度提升了圖書館的服務能力和讀者閱讀滿意度。但是,隨著圖書館服務復雜度和服務模式多樣化的發展,其大數據環境呈現出“4V+1C”的特點(分別是數據體量巨大(Volume)、數據類型繁多(Variety)、價值密度低(Value)、處理速度快(Velocity)和具有較強的復雜性(Complexity)),圖書館采集與存儲的原始大數據中混雜著許多不完整、錯誤和重復的“不清潔”數據,導致圖書館大數據存在著不一致、不完整性、低價值密度、不可控和不可用的特性[1]。圖書館如果一味強調提升IT基礎設施的大數據處理性能、數據分析方法的科學性、數據分析師的大數據素養,而不通過大數據清洗有效提升數據的質量和可用性,將會導致圖書館大數據應用的收益率和數據決策科學性下降。
據美國普化永道會計事務所(Price Waterhouse Coopers Consulting,PWC)的研究表明,75%的被調查公司存在著因不清潔數據問題而導致經濟損失的現象,只有35%的被調查公司對自己的數據質量充滿信心;在很多涉及數據倉庫的項目中,數據清洗在開發時間和整體預算方面所占的比例大概在30%~80%,而將不同數據源的數據進行抽取和整合時,可能會產生一些新的不清潔數據[2]。因此,如何制定和執行安全、高效的數據清洗策略,實現對圖書館大數據資源的檢測、校驗、修正、整合與分解,及時發現并糾正大數據中存在的錯誤、缺失、異常和可疑數據,確保圖書館大數據資源結構完整、正確和無重復,是關系圖書館大數據應用與決策安全、科學、高效、經濟和可控的重要問題。
1圖書館大數據清洗的需求與挑戰
11大數據環境下數據清洗的需求發生變化
大數據時代,圖書館數據的結構、類型、規模和復雜度發生了巨大變化,其大數據內容主要由IT服務系統運營日志與參數數據、用戶服務數據、讀者個體特征數據、讀者行為監測與社會關系數據、閱讀終端運行數據、視頻監測數據和傳感器網絡數據等組成,這些數據具有海量、多類型、高價值和處理速度快的大數據“4V”特點,因此,與“小數據”時代圖書館的數據清洗需求有本質區別。
大數據時代,非結構化、半結構化數據占據圖書館大數據總量的85%以上,圖書館數據清洗的重點已從“小數據”時代的標準化文本、數字、符號等結構化數據為主,轉變為以全文文本、圖像、聲音、影視、超媒體等非結構化復雜數據為核心[3]。其次,“小數據”時代圖書館數據清洗的主要對象是實例層的數據,依據函數依賴等完整性約束條件對數據記錄進行處理,而“大數據”時代則重點關注處理模式中數據屬性之間的語義關系。第三,圖書館數據清洗工具的效率、互操作性和可擴展性,以及數據清洗工具描述性語言能否滿足數據清理中關鍵詞大致匹配的需要,是關系圖書館大數據清洗科學、高效、精確和經濟的關鍵。
12圖書館大數據采集方式多樣性易導致數據結構不完整當前,為了提升讀者服務的科學性、實時性、可預測性和個性化水平,圖書館大數據應用采取了全面采集、實時分析、動態決策和評估反饋的原則,有效提升了圖書館大數據資源的價值密度、分析科學性和服務可靠性。圖書館大數據來源主要包括Web服務器日志數據、視頻監控數據、用戶管理系統數據、傳感器網絡數據和讀者滿意度反饋數據等,這些數據的數據采集來源、采集方式和數據模式標準不同,導致所采集的元數據存在著字段缺失、字段名和數據結構前后不一致、數據被異常破壞等現象,嚴重影響了圖書館大數據結構的完整性。其次,這些不完整大數據如涉及讀者的個體ID標示、數據價值關鍵字段、信息集成模式的匹配,則會導致數據資源不可用或者大數據決策錯誤。因此,如何科學、高效和準確地發現圖書館大數據中的缺失字段,并在規定的時間內對缺失字段進行修復,是圖書館確保大數據結構完整的重要措施[4]。第三,圖書館對大數據資源庫查詢請求的科學、完整和可控性,是關系數據查詢結果清潔性的關鍵。因此,如何完善、修補不同來源和不同類型的缺失數據字段,并有效挖掘其中蘊含的知識,是關系圖書館從不完整大數據中發現數據價值信息和保障知識服務效率的重要問題。
13海量、重復的大數據嚴重降低了數據決策效率
為了提升大數據的價值總量,圖書館會利用多數據采集源多方位、多角度和不間斷地進行相關大數據的采集。讀者個體特征和行為數據,是圖書館進行讀者閱讀需求預測、服務模式制定、服務滿意度評估和服務過程優化的關鍵數據,為了保證相關大數據采集的全面性、完整性、可用性和可靠性,圖書館會通過視頻監控設備、服務器日志、傳感器網絡、移動基站監測設備、閱讀終端監測設備等,盡可能全面地采集讀者相關大數據,并描繪一幅完整、精確的讀者閱讀行為自畫像。多個不同類型終端設備全方位、不間斷地采集同一讀者的個體大數據,會導致讀者個體大數據采集過程低效率、重復和識別精度低,這大幅度增加了圖書館大數據處理、分析和決策的復雜度與系統資源損耗。因此,如何刪除圖書館采集的海量、重復大數據,是關系圖書館大數據決策可用性和經濟性的關鍵。
其次,隨著圖書館服務智能化和個性化水平的提升,機器人等人工智能技術已廣泛運用到圖書館的管理與讀者服務中去。機器人通過深度學習技術,可為讀者提供諸如閱讀導航、服務推薦、問題解答、微博更新和聊天等服務,實現了機器人與讀者的實時互動與交流。但是,這些機器人產生的數據除具有動態生成、海量、多類型和低相關性的特點外,還存在著數據重復采集、標示多樣和部分錯誤的現象,因此,如何有效區分、清洗機器人產生的大數據,將對圖書館在服務中實施讀者閱讀行為跟蹤、讀者閱讀需求分析、用戶精確畫像和科學服務決策產生極大影響[5]。
14圖書館對錯誤大數據的識別與修正需求
圖書館大數據主要由數據中心IT服務系統配置參數與運營數據、用戶與服務管理數據、讀者個體行為與閱讀數據、傳感器網絡數據、服務資源數據、讀者閱讀反饋與滿意度評估數據等組成,這些數據的產生具有多數據來源、多采集模式、編碼與存儲復雜、數據清洗難度大的特點,大幅增加了圖書館對錯誤大數據識別與修正的難度。
隨著圖書館組織結構和內部業務關系復雜度的增長,圖書館員在向業務系統錄入元數據時,可能存在著濫用縮寫詞與慣用語、數據錄入錯誤、數據中內嵌信息錯誤、重復記錄、丟失數據字段、拼寫錯誤、計量單位錯誤和過時的數字編碼等問題。同時,圖書館當前業務管理系統數據糾錯的智能水平較低,不能完全識別與糾錯數據錄入中存在的數據錯輸成全角數字字符、字符串數據后面存在空格符、日期格式錯誤與日期越界等。其次,OCR(光學字符識別)軟件在對印刷體文字轉換成為黑白點陣的圖像文件,以及通過識別軟件將圖像中的文字轉換成文本格式時,OCR軟件的拒識率、誤識率、識別速度、用戶界面友好性、產品穩定性和易用性等,也是關系圖書館數字化文獻資源加工正確率的重要因素。第三,近年來,射頻識別(RFID)技術因其快速掃描、體積小、可重復使用、無線穿透性和無屏障閱讀等優勢,已廣泛應用到智慧圖書館的構建和讀者智慧服務中,有效實現了圖書館無線門禁的進出管理、人員精確定位、區域定位管理、安全防衛和圖書智能化存取等功能。由于RFID硬件設備易受數據傳輸距離、環境噪聲、地理環境、無線干擾等影響,導致RFID閱讀器存在著漏讀、多讀和不清潔讀等現象,如何識別與糾正RFID閱讀器在大數據采集過程中丟失、重復、模糊和錯誤的數據,已成為關系RFID應用有效的關鍵[6]。
15圖書館大數據清洗需制定科學的行業規范和標準圖書館大數據具有海量、多類型、高價值和處理快速的4“V”特征,據統計,其結構化與非結構化數據占據大數據總量的85%以上,且隨著圖書館服務模式多樣化和數據環境復雜度的不斷增長,其非結構化數據占據大數據的總比例將快速上升,因此,大數據海量、多類型和結構復雜的特點給圖書館的數據管理帶來了很大困難。
不同類型的圖書館在大數據采集源的結構和數據庫類型上差別巨大,導致不同圖書館在大數據的采集方式、組織結構、存取方法和數據庫構建類型上有較大區別,即使是同一種數據的存儲也存在著多種不同標準和數據庫關系結構。因此,制定統一的數據庫建設和數據管理、存取標準,提升數據清洗工具與數據庫系統在數據端口、清洗規則和配置參數上的兼容性,是關系圖書館大數據高效清洗和多用戶共享的前提。
在實際的工程操作中,數據清洗通常會占據數據分析全過程50%~80%的時間,因此,依據國家標準構建圖書館界的數據行業規范,是關系圖書館大數據開放性和降低大數據決策成本的重要問題。圖書館內部不同部門之間也存在著大數據重復采集和數據標準、類型不統一的問題,我國圖書館界與其它行業或第三方運營商,在數據庫建設規范、數據傳輸接口、相關應用程序上也存在較大差異,給大數據的清洗、共享和分析帶來了額外的負擔[7]。此外,圖書館對所屬大數據的安全性管理、讀者隱私大數據保護、大數據價值和可用性保證等,也大幅增加了圖書館大數據清洗過程的復雜度和成本投入。
2圖書館大數據清洗平臺的構建與大數據清洗關鍵問題21圖書館大數據清洗平臺的構建
圖書館數據除具備大數據的4“V”特性外,還存在著諸如不清潔數據來源多元化、隨機產生、隱匿性強和噪聲過濾難度大的特點。因此,在圖書館大數據清洗系統的設計中,作者依據圖書館業務導向和大數據的信息流程,重點突出了大數據源分類存儲、不清潔數據識別與發現、不清潔數據清洗和數據清洗流程控制等4個系統功能與流程的設計,實現了從數據產生與存儲、不清潔數據發現與清洗、清洗有效性評估、評估結果對清洗流程的反饋控制等4個過程的大數據生命周期質量管理[8]。所設計的圖書館大數據清洗系統功能結構如圖1所示:圖1圖書館大數據清洗系統功能結構圖
為了保證圖書館大數據存儲系統安全、高效、經濟和可控,系統底層的大數據存儲庫依據大數據的來源、類型、應用對象和不清潔數據特點,劃分為客戶管理元數據庫、系統配置與運行數據庫、讀者服務數據庫和主數據庫等,這些數據庫的不清潔數據主要存在結構不完整、數據重復、錯誤和不一致的問題。
不清潔數據發現系統平臺主要由大數據的獲取、數據完整性檢測、數據重復性檢測和錯誤數據檢測4個功能模塊組成,通過對大數據變量的取值范圍、相關性、無效性、缺失值和重復值的判定,將從大數據源中發現、提取出的不清潔數據傳輸至不清潔數據清洗模塊。
不清潔數據清洗系統平臺是大數據清洗系統的核心,數據管理員在對不清潔數據產生的原因、存在形式和數據結構復雜度進行分析后,制定出科學的不清潔數據定義、評估、清洗和規則反饋優化程序,依據數據清洗的實時性需求,控制系統實現不清潔數據的離線清洗和在線清洗,并對清洗后數據的完整性、有效性、一致性、準確性和相關性等進行判定,如果清洗結果不達標則進行不清潔數據的二次清洗[9]。
不清潔數據清洗管理平臺由圖書館元數據管理、大數據清洗模型管理、數據清洗安全性管理和質量管理4個模塊組成,負責元數據存取、大數據清洗流程控制、數據清洗過程的數據安全性和不清潔數據清洗質量的管理,可有效保證不清潔數據清洗過程安全、高效、經濟、高價值和可用。
22關系圖書館大數據清洗質量和數據可用性的關鍵問題221有針對性地選取圖書館大數據的清洗對象
大數據是圖書館IT系統構建、讀者管理和服務模式變革的直接決策依據,大數據的價值總量、密度和清潔度等,直接關系圖書館大數據決策的科學性、效率、經濟性和可用性。圖書館大數據具有海量和總量級數遞增的特點,但是,不同類型的大數據在數據價值總量、價值密度、分析可用性和與決策對象的相關性上差異較大,導致不同大數據在圖書館決策的科學性、精確度、可靠性和經濟性上的影響度不同。因此,圖書館應根據大數據決策的對象、內容、精確度和經濟性需求,有選擇地開展大數據的清洗活動。
個性化智慧服務是未來圖書館讀者服務的重要目標,而精確地判定讀者需求、圖書館未來服務資源總量和讀者閱讀情景,則是確保圖書館讀者個性化智慧服務內容實時、精準投放的前提。因此,圖書館對大數據清洗對象的選擇上,在保證大數據獲取難度可控、數據覆蓋率廣泛和具備一定的數據規模前提下,應選取與讀者個性化智慧服務決策相關性較大的數據,并重點清洗與讀者個性化智慧服務決策相關性較大的諸如讀者個體特征、閱讀歷史行為、閱讀實時興趣、個體移動路徑、閱讀終端模式、讀者服務評價與滿意度反饋、系統未來服務資源總量與服務負載等數據,才能在較小大數據清洗成本投入和降低清洗復雜度的前提下,大幅度提升圖書館大數據的價值密度與數據可用性。
222依據大數據決策實時性需求制定數據清洗策略
圖書館大數據決策可劃分為實時決策和離線決策兩部分。實時決策主要應用于圖書館安全與服務即時管理、讀者在線服務需求實時判定、實時服務策略制定與服務推送、服務系統的實時評估與優化等方面,要求大數據應用平臺在較短的時間內獲取、清洗和分析實時數據,為大數據實時、動態決策提供科學數據支持。實時決策對大數據獲取、傳輸、清洗、分析和決策過程的時效性要求較高,數據總量偏小、低清潔度和價值有限的實時大數據可能會影響圖書館實時決策的科學性和可用性。離線決策主要應用于圖書館的宏觀戰略方案制定、用戶服務模式變革、服務有效性評估和服務市場競爭環境分析等方面,這些離線決策雖然因為海量大數據的復雜分析而降低了決策的時效性,但決策結果具有較高的科學性、準確度和可靠性。因此,圖書館必須依據大數據決策實時性需求制定相關的大數據清洗策略。
大數據清洗策略的制定應以圖書館服務效率的提升和讀者閱讀滿意度為依據,結合圖書館數據中心大數據應用系統的資源總量和大數據清洗的負載量,依據決策內容實現大數據清洗實時性、算法復雜度、精確度和可靠性的完美結合。大數據在線清洗對實時性的要求較強,因此,圖書館應完全記錄用戶服務流程線上的實際數據,依據決策對象的重要性、實時性、相關性和服務收益需求,對需要清洗的數據進行優先級別劃分和系統資源分配,確保在線清洗結果的時效性、準確性、可用性和可靠性綜合評估最優。在離線大數據清洗策略的制定中,圖書館對數據清洗優先級別的劃分,重點應放在決策對象的重要性、服務的收益率、系統資源的損耗和實時性需求上,科學分配二級子指標的權重比例,并依據讀者需求和圖書館服務模式變革進行動態反饋調控,不斷提升宏觀決策的科學性和可行性。
223圖書館大數據清洗質量評估標準的幾個重要維度
圖書館對不清潔數據清洗質量評估的科學性,既是關系圖書館數據價值保證和大數據決策可用性的關鍵,也是圖書館對數據清洗系統進行反饋控制、優化和完善的重要依據,因此,必須選擇科學、全面、完整和可操作的大數據清洗質量評估維度,才能確保大數據清洗過程高效、優質、快捷、經濟和可控。
圖書館大數據清洗質量評估體系的構建應堅持評估指標覆蓋面廣泛、指標因子權重分配合理、評估系統開放和易于操作的原則,所設計的圖書館大數據清洗質量評估維度如表1所示:表1圖書館大數據清洗質量評估維度表
編號維度內容大數據清洗評估維度的描述1規范性數據的存在性、質量及存儲標準2完整性與準確性數據結構完整度、準確性和可用性3重復性數據在字段、記錄內容或數據集外重復4一致性和同步性在不同數據庫、應用和系統中的一致和同步5及時性和可用性非實時數據的清洗和價值可用性測量6可識別和相關性數據可理解、價值可測量和可相融程度7易用性和可維護性數據可訪問、使用、更新、維護和管理的程度8數據價值覆蓋度數據在決策中的價值、對象和內容覆蓋程度
此外,對圖書館大數據清洗質量的評估,應根據大數據決策過程對數據清潔度、價值密度和可用性的需求,動態調整大數據清洗質量評估維度表中各指標的權重因子,增強大數據評估結果對大數據清洗系統的反饋控制與優化功能,才能確保大數據清洗過程安全、高效、經濟和可控。
224圖書館大數據清洗流程的設計
大數據清洗流程的科學性、數據流可控性和評估標準有效性,是關系圖書館大數據清洗流程安全、高效、快速和經濟的重要問題。因此,本文在圖書館大數據清洗流程的設計中,堅持在保持大數據價值總量不變的前提下,以提升大數據的價值密度、可用性、決策實時性和降低大數據應用成本為根本目標,有效保證了大數據決策的科學性、可靠性、實時性和經濟性。圖書館大數據清洗流程如圖2所示:
圖書館大數據清洗系統首先對所接收的大數據進行預處理,并將擬清洗的大數據導入數據清洗系統,檢查元數據諸如字段解釋、數據來源、代碼表等內容描述是否正確,初步統計擬清洗數據的類型、結構、實時性需求和存在模式問題[10]。其次,在大數據的清洗中,應根據大數據清洗的復雜度、大數據總量多少和流程相關性,按照去除和修補缺失大數據、去除重復和邏輯錯誤大數據、異常大數據的檢測與處理、非需求大數據清洗、大數據的關聯性驗證等步驟進行,最后對已清洗大數據的質量和可用性進行評估,并將不符合大數據決策需求的不清潔數據傳輸至數據清洗輸入接口進行二次清洗。
3結語
圖書館大數據具有多數據來源、多維度、多采集方法和多存儲模式的特點,導致大數據中不可避免地存在著錯誤、粗糙和不合時宜的非清潔數據。這些非清潔數據的存在,增加了圖書館大數據應用的復雜度和數據決策成本,降低了圖書館對讀者閱讀需求的感知和對未來服務發展趨勢的預測能力,嚴重影響了圖書館服務決策從主觀經驗主義向大數據決策的轉變。因此,如何通過科學、高效、經濟和實時的數據清洗,將非清潔數據轉化為高質量的干凈數據,是圖書館增強大數據可用性、提升大數據決策效率和提升知識服務水平的關鍵。
圖書館大數據清洗是一個涉及面廣泛和影響力深遠的工程,不科學的清洗流程和方法會導致數據清洗收益率下降,甚至產生新的不清潔數據而影響圖書館大數據決策科學性。因此,圖書館在大數據的采集、傳輸、存儲、標準化處理、分析和決策中,首先應將數據質量管理和數據清潔引入圖書館大數據生命周期的不同階段,從制度上規劃保證數據質量管理有效和防止不清潔數據的產生。其次,應加強對大數據融合、集成和演化流程的監控與檢測,防止因為大數據的產生、流入或數據更改而產生新的不清潔數據。第三,數據清洗過程會消耗大量的系統資源和大數據應用成本,因此,圖書館數據清洗目標的制定應以大數據決策需求為依據,不能人為制定過高的數據清洗清潔度目標而導致大數據決策綜合收益下降。
參考文獻
[1]王曰芬,章成志,張蓓蓓,等.數據清洗研究綜述[J].現代圖書情報技術,2007,(12):50-56.
[2]吳向軍,姜云飛,凌應標.基于STRIPS的領域知識提取策略[J].軟件學報,2007,18(3):490-504.
[3]劉喜文,鄭昌興,王文龍,等.構建數據倉庫過程中的數據清洗研究[J].圖書與情報,2013,(5):22-28.
[4]蔣勛,劉喜文.大數據環境下面向知識服務的數據清洗研究[J].圖書與情報,2013,(5):16-21.
[5]王永紅.定量專利分析的樣本選取與數據清洗[J].情報理論與實踐,2007,30(1):93-96.
[6]The Economist.Data,data,everywhere-A special report on managing information[EB/OL].http:∥/node/15557443,2016-05-16.
[7]黃沈濱,王海潔,朱振華.大數據云清洗系統的設計與實現[J].智能計算機與應用,2015,5(3):88-90.
[8]FAN W,LI J,MA S,et al.Yu.CerFix:A system for cleaning data with certain fixes[J].PVLDB,2011,4(12):1375-1378.
關鍵詞:老齡化社區;Eucalyptus;數據分析;云計算
中圖分類號:TP311 文獻標識碼:A 文章編號:2095-1302(2016)12-00-03
0 引 言
隨著科學技術的快速發展和老齡化程度不斷加深及其服務需求的不斷增多,中國的養老服務正面臨著巨大的挑戰。中國社區養老模式起步較慢,其傳統養老主要是基于社會服務的家庭照顧方式,關注老年人身體和心理健康,給予有困難的三無老人、“空巢”老人和殘疾老人幫助[1]。
國外許多社區養老模式已發展成熟,“智能化養老”由英國一個生命信托基金會首次正式提出,該基金會提出的理念是建設能夠使老年人在家中養老并提高生活質量的全智能化老年公寓。美國是世界范圍內最先開始研究適老化相關技術的國家,它根據老年人的生理狀況、年齡和喜好建設,可照顧社區內形態各異的老人,適合不同需求的老年人居住。日本是老年住宅的先驅,其最早的“銀發住宅建設計劃”[2]提出了為可以自理的老齡化人群提供租賃式公寓的理念。日本成立了專門的研究會制定了一系列發展規劃,從智能家庭、智能設備發展到智能建筑、智能城市,為智能化城市的發展做出了巨大貢獻。
本文結合云技術研究了能夠提供不同養老服務的社區智能服務平臺,老人只需通過移動終端就可以實現如家政服務、醫療服務等功能,為老人們提供了安全、便捷的服務。
1 系統需求分析
在研究老齡化社區智能服務平臺之前,需要先了解我們平臺用戶即老人們的需求。調查國內社區老人居住的現狀,了解在社區養老服務過程中老人需要的服務內容與服務方式,以提供滿足需求的服務。
1.1 社區對象的需求
老年人生活中普遍存在獨居、老年病頻發、居住條件差、社區質量不好等特點,在此基礎上,老齡化社區智能服務平臺的研究主要是為了滿足老人們的生理需求和心理需求。
1.1.1 老年人的生理需求
老年人的感知能力和自身生理素質都會隨著各項生理機能的衰退而產生變化,這會給他們的正常生活帶來諸多困難與不便。老人的生理需求主要集中體現在“醫療保健”和“生活照料”兩方面[3]。
(1)“醫療保健”在為所有老年人群體提供日常保健護理工作的基礎上,還會根據老年人的具體情況提供相應的藥物、醫療等服務;
(2)“生活照料”主要向獨居老人提供介紹保姆、日常包裹代收、推薦日常養老機構等服務[4]。
1.1.2 老年人的心理需求
老年人大部分時間都是在家獨自度過,他們的人際圈會變得更加狹窄,所以他們更需要心靈和情感寄托。故該系統提供了“文化娛樂”“老年教育”等內容。
1.2 系統概述
本文的設計基于云技術的老齡化社區智能服務系統,可以將傳統信息化社區中多個獨立的系統進行整合,為社區提供一個軟件管理平臺。系統的設計目標是可以隨時隨地利用移動終端或者電腦來完成各種服務功能,因此該系統設計的界面簡單、易操作,針對不同的終端,界面的適應性要強。智能服務系統架構圖如圖1所示。
如圖1所示,智能社區子系統主要分為社區安防、信息管理、公共服務和居家服務共四個模塊,其中,公共服務包括醫療衛生、養老機構、教育機構等,居家服務包括家政服務等。
2 云服務系統組成
2.1 Eucalyptus云計算平臺
AbiCloud、Eucalyptus和Nim-bus是目前較流行的開源云計算平臺,而Eucalyptus能提供應用開發研究所需的硬件資源,并且該平臺安裝、部署和維護比較方便。Eucalyptus架構如圖2所示,包括客戶端層、云控制臺層和云后端層。
客戶與Eucalyptus平臺交互通過最上層中基于Rest和Soap的Web服務就可以實現。邏輯上,云控制器(CLC)、集群控制器(CC)、存儲控制器(SC)、存儲服務組件(Walrus)、節點控制器(NC)是Eucalyptus的5個組件,它們相互協作共同提供用戶所需的云服務。CLC控制管理局域網內所有NC和負責高層次的資源調度,是架構的核心部分。CC負責管理整個虛擬機實例網絡,通過開啟虛擬機實例的請求路由到具有可用資源的NC節點上[5]。SC與Walrus聯合工作存儲和訪問用戶數據及虛擬機映像。Walrus主要管理對Eucalyptus存儲服務的訪問。NC是控制當前機器節點上虛擬機實例的最終計算節點。一臺單獨的虛擬機在一個節點機器上作為一個獨立的實例存在,多個節點控制器組成了特定的云[6]。
2.2 數據分析
Hadoop是具有高可靠性的開源分布式系統基礎架構,它運行的環境可以是由大量廉價硬件設備組成的集群[7]。Hadoop具有效率高、可移植性高、擴容能力強等優點,許多知名公司如阿里巴巴、雅虎、百度等都利用Hadoop構建自己的數據中心,用其對海量數據進行存儲分析。
HDFS(分布式文件系統)和MapReduce算法模型是Hadoop框架最核心的設計[8]。其基本架構如圖3所示。
2.3 公共服務云架構
云計算平臺為公共服務云架構提供了各種信息,并統一存儲、管理、融合和處理信息。為了實現社區系統子功能的擴展,采用了可以實現社區云服務融合并提供統一接口的松耦合式架構。社區云可將社區安防、信息管理、公共服務和居家管理等子系統全部整合在一個完善的系統中,這些子系統的軟硬件具體實現環節我們無需具體了解,它們均由公共服務云平臺屏蔽。普通住戶可以通過連接服務平臺來使用資源。
2.3.1 云服務平臺的構建
社區云服務平臺的硬件資源設計如圖4所示。
圖4 云服務平臺構造圖
平臺主要由以下四部分構成:
(1)防火墻左邊是用于部署Gridsphere門戶系統的門戶端(192.168.142.167),是管理員管理云資源的入口,安裝的Euca2ools工具以及訪問Eucalyptus平臺的相應證書信息,可作為訪問云服務平臺的中間件[9]。
(2)用于存儲上傳至云平臺的鏡像文件[10]和存儲各子系統(如監控數據庫、物業綜合服務系統)的FTP服務器(192. 168.142.162)。
(3)云平臺的外部存儲(192.168.142.163-192.168.142.165)主要組合了Hadoop存儲架構技術,門戶系統需要用到MySQL數據庫,數據庫存放在外部存儲中,實現了虛擬機的備份與快照。
(4)前端和后端的私有云。其架構由三臺物理機構成,前端(192.168.142.166)安裝了Eucalyptus云平臺的四大組件,分別為CC、Walrus、CLC和SC;后端包括兩臺刀片機(192.168.142.160和192.168.142.161),它們均安裝了Node Controller組件以運行虛擬機。
2.3.2 云架構平臺
圖5所示為社區智能系統云架構平臺。
云平臺分為基礎設施即服務(IaaS)、平臺即服務(PaaS)和軟件即服務(SaaS)三部分。智慧社區系統從云服務提供商那里租用基礎設施,以Eucalyptus+Hadoop框架為基礎,構建PaaS平臺,該平臺具有對海量數據的存儲能力和并行批處理能力,最后以SaaS模式到互聯網上,供社區租用。
3 基于Android終端的控制
3.1 系統的整體設計
系統使用Android Studio作為開發環境,用戶通過手機App與系統交互,利用Android系統提供的內部資源實現智慧社區中的各種功能。
3.2 客戶端實現
3.2.1 用戶控制
客戶端設計的主要內容是用戶UI界面設計與使用。用戶UI界面使用XML布局文件和Java代碼混合控制的方式,XML頁面布局文件采用多種布局方式相結合的方法,包括LinearLayout,TableLayout,RelativeLayout以及GridLayout。Java代碼實現了Android四大組件Activity,Service,Broadcast Receiver和ContentProvider的結合,使其可實現更多功能。
3.2.2 功能實現
在ActivityGroup中設計了“鄰里”“物業”“我的”和“更多”4個子界面。
(1) “鄰里”列表主要負責展示社區的各種活動和通知等;
(2)“物業”模塊主要包括收繳電費、故障報修等內容;
(3)“我的”界面主要是社區居民個人信息管理;
(4)“更多”模塊包括其他一些如外賣等額外服務。
圖6所示為客戶登錄界面,圖7所示為客戶端操作界面。
4 結 語
本文介紹了Eucalyptus和Hadoop云計算平臺,結合老年用戶的特殊要求,研究了能夠提供不同養老服務的社區智能服務平臺,給出了平臺的具體架構和實現方法,并在此基礎上提取了相關數據分析模型,設計了相應的服務終端軟件,為社區老年居民的生活帶來便利,為未來養老模式的發展提供了參考。
參考文獻
[1]龔靜怡.居家養老―社區養老服務:符合中國國情的城鎮養老模式[J].河海大學學報(哲學社會科學版),2004,6(4):72-74.
[2]李川瑜.我國城市居家養老社區服務研究[D].杭州:浙江大學,2007.
[3]馬澤華.城市社區居家養老模式中完善社區服務問題研究[D].大連:遼寧師范大學,2013.
[4]周莉.城市居民居家養老社區支持體系研究[D].長沙:中南大學,2012.
[5]崔巍,李益發,斯雪明.基于Eucalyptus的基礎設施即服務云框架協議設計[J].電子與信息學報,2012,34(7):1748-1754.
[6]方薇,崔超遠,王儒敬.Eucalyptus開源框架下云平臺的構建與性能分析[J].計算機系統應用,2012,21(6):1-5.
[7]陳吉榮,樂嘉錦.基于Hadoop生態系統的大數據解決方案綜述[J].計算機工程與科學,2013,35(10):25-35.
[8]楊來,史忠植,梁帆,等.基于Hadoop云平臺的并行數據挖掘方法[J]. 系統仿真學報,2013,25(5):936-944.
關鍵詞:飛行計劃 飛行參數計算 數據庫結構 軟件實施
中圖分類號:TP311 文獻標識碼:A 文章編號:1672-3791(2012)12(c)-0227-01
1 飛行計劃計算的基本方式
在飛行計劃設計中需要進行一些列的相關計算這樣才能保證多個航班之間相互配合,實現合理的空管。而在分布式數據庫參與的飛行計劃系統設計中這些計算方式將成為系統分配數據的基礎依據。具體步驟如下。
(1)按照對應的航班選擇飛行計劃參數;(2)確定起飛的最大重量和目標機場的降落重量等;(3)確定航路的對應點經緯坐標等;(4)按照飛行航路確定航路上具體的氣象數據;(5)從針對飛機的重量進行分析對比,確定平均重量;(6)按照平衡的重量計算下降時的飛機重量,配合降落機場的性能;(7)按照備降目標機場結合氣象因素、時間、油量等獲得以重量為參考的步長;(8)對計算的著陸重量來確定巡航距離,計算飛行規劃;(9)經過反復計算獲得最終的飛行參數;(10)確定好著陸的重量后,就可利用下降性能表獲得下降的油量而獲得起飛重量;(11)計算完成后將滑出、輔助動力的油量計入到起飛重量,得出在停機坪上的重量,然后將上面的總體油量匯總就得出了起飛的總油量;(12)最后是利用總體載荷減去空機的重量而獲得業載的重量,以此按照不同的航路進行計算,將里程、時間、油耗等輸出,即得到飛行計劃。
2 分布式數據庫對飛行計劃的幫助
綜合上面的計算過程,不難發現飛行計劃的設計較為復雜,而涉及到的數據也十分龐大,如果單純依靠獨立的計算機進行計算其耗費的時間較長,不利行計劃的靈活性需求。所以在設計中應借助與數據庫技術來幫助解決。具體分析器所用的數據特征如下:(1)氣象信息,在計算過程中有上百萬的信息將被記錄和查詢,如果計算中每一個航路點僅僅計算一次,且每日定時更新,每次更新時間長度15分鐘;(2)飛機性能信息,按照不同的飛行高度與性能就可分為9個基本信息類型,而細分數據類型則多達百萬。(3)航班、機型、飛機數據等大部分都是來自于數據規模較小的數據庫,對每個航班的計算僅僅查詢一次,通暢更新頻率低;(4)全球的航路點、航線信息,此類數據的量為10萬左右,對每個航班的飛行計劃查詢頻次為一次,更新頻率為28天一次,每次計算都需要進行一次查找,這些數據通常與FOC共享服務器。
具體看,數據庫的服務器和性能數據庫服務器利用IBM設備進行控制,提高其性能;而氣象數據的服務器則利用高性能的PC來提供服務,其系統利用window系統,客戶端也采用高性能的PC作為服務器,操作系統也為widow系統,數據庫系統則為ORACLE系統,在物理設計上性能數據庫和氣象數據庫為分區保存。這就完成了飛行計劃相關數據的分布式框架。
然后系統將利用計算模型進行分析與調用。以此構成一個飛行計劃設計的系統,利用軟件編輯實現前面飛行計劃算法的自動化,數據準備模塊中實現數據預處理,而等待模塊、備降下降模塊,備降巡航對應。備降爬升的過程;主要航段的下降、巡航、爬升等計算與備降階段是一致的。因為數據準備模塊不參與到性能數據分析中,所以這個模塊可以放在客戶端完成。數據準備完成后,其他模塊都會僅僅和性能數據庫向關聯,這些模塊除了是計算依據外,不會產生控制依賴,所以每個系統的計算模塊都有獨立的進程,通過各個獨立進行的交錯完成并行運算以節約時間,所以在分布式數據庫構造一個組織,使得不同的航班飛行計劃可以交錯的并行且執行,降低了用戶終端的響應耗時。
3 飛行管理上的應用
3.1 監控平臺建立
在實際應用中飛行計劃必須與飛行管理向配合,為了可以充分的將分布式的數據庫利用起來,并且實現資源共享,在飛行管理中借助行計劃管理系統來幫助實現對飛行計劃的審核與評價,建立的計劃管理監控功能模塊,其中包括的模塊是飛行計劃數據庫的管理模塊;飛行預報管理模塊;航線顯示與監控模塊;錯誤或者沖突判斷模塊,同時將地面雷達的信號與數據進入到監控系統中,實現對飛行計劃的全面監控;將前面分析的油量監控計算引入到監控系統;地理信息和支持系統以及各種飛行參數進行全面監控。指揮人員利用該系統對整個分布式的數據進行調用與分析,從而實現對飛行計劃的全面監控。
3.2 關鍵軟件與技術實現
系統的軟件構成:飛行計劃設計軟件;飛行航線顯示;飛行沖突分析判斷;雷達情報的引入與標準格式生成軟件;地理信息管理與引入軟件;飛行參數數據庫的動態化共享。折現軟件在系統中都在為飛行管理提供數據服務,并且保證飛行計劃在設計與執行中保證準確。
關鍵技術:在飛行管理系統中,分布式數據庫的數據共享必須考慮到多種數據的結合分析,根據飛行計劃與航跡的綜合性分析,來實現多數數據的共享,通常采用的是定性與定量的分析模式,利用綜合性的比較來完成各種分布式傳感器以及數據的綜合性統計,從而與航跡直接管理方便管理,其中影響其判斷的因素包括:偏航因素、時差因素、方向因素、速度因素、區域因素等,當然這五個因素中偏航因素與時差因素反應的是航跡的時間與空間的運行準確度,其作用是相似的;而方向因素與速度因素是飛行計劃的決定性因素,如果方向與速度都出現偏差則所有的關聯數據都會發生錯誤;區域因素是一個相對特殊的因素,其為有效因素則只需利用區域因素和偏航因素就可監控飛行計劃的準確性。
4 結語
在飛行計劃的設計中,需要考慮到多種因素的影響,其中包括了天氣、場地、機型、航線距離等等,這些數據在處理過程中會消耗大部分資源,所以在規飛行計劃設計中應借助于分布式的思路,縮短飛行計劃系統工作的耗時,提高其響應的效率,尤其是將網絡技術與之結合,則會大幅度提高系統的工作效率。
參考文獻
[1] 程學軍.新航行系統及其在航空電子系統中的應用[J].電訊技術,2009,16(5):56-57.
【關鍵詞】數據中心基礎設施建設設計
隨著計算機技術的不斷發展,數據中心不斷涌現且規模也日益擴大,數據中心部署的計算機能力、存儲系統容量以及通信系統傳輸速度都在飛速的增長。為了和世界水平接軌,僅僅是通過高性能計算機硬件的研制是遠遠不夠的,要求一套具有適用性的機房場地環境系統,并且以此作為高性能計算機運行的基礎。
一、設計的規范和標準
(1)TIA-942標準。它是集現有相關標準和規范于一體,并且有效的解決了數據中心基礎設施的建設和設計階段的信息隔閡問題,同時對于電力之上的問題也有全面的考慮。它全面的描述了在設備規劃、數據中心的建設等方面的內容,為數據中心的規劃、設計和施工提供了要求和指南。(2)THE UPTIME INSTITUTE數據中心等級標準。這個標準能夠幫助建設人員針對數據中心在建設當中充分利用資源,達到資源的優化配置,減少資源浪費,進而有效的降低投資成本,提高設備的利用率減少故障發生的幾率,并且能夠有效的提高組織效率。
二、配電系統設計
(1)數據中心用電負荷。對UPS電源系統進行統計之時,如果能夠明確具體負荷設備,則直接根據設備數據進行統計;如果無法明確,則按照設備機柜平均負荷進行統計;如果無法確認機柜數量,則根據機房面積平均負荷進行估計。對于變配電系統負荷統計,主要是對UPS電源、機房照明等相關設備進行統計。(2)供電電源。根據數據中心的具體情況確定供電電壓,通常情況選擇10kv。如果有長遠的規劃,且規劃當中要求用電負荷較大,則選擇35kv及其以上。同時電源引入應該根據數據中心具體情況而定,比如用途、等級等方面。需要建立專線以供數據中心使用,并且應該從兩個獨立的變電所引入,如果選擇一個變電所,則供電母線必須是兩段獨立的存在。(3)應急電源。數據中心必須要有相應的應急電源,以保障可靠性運轉。通常可以使用柴油發電機組,并且充分滿足相應的電力需求。
三、平面布局設計
平面布局的設計和子系統之間聯系十分緊密,而且是進行子系統設計的前提和基礎。如果平面布局的設計出現不合理情況而需要變更,不僅會嚴重影響到子系統,而且變更所需要的費用非常高,變更的整個過程還存在諸多不可控的潛在風險。因此在設計之時要進行充分的討論和全面的考慮,并且結合數據中心建設的具體要求,以及相關的標準規范,最終保障設計的科學性和合理性,盡量減少后期和建設當中的更改機率,促進建設工作的順利完成。通常情況下,需要考慮數據中心的四個方面的內容,即動力區、主機房區、輔助機房區、總控中心區四個區域。
為了方便進行統一的安全管理,可以在數據中心的每個樓層只設計一個安全出入口。應信息安全要求,在出入口應當設置專人看守,并且配備相應的出入閘機等設備。在進行重點機房的部署之時,應該布置在整個建筑的中心位置,并且需要將機房的外墻和建筑的外墻有效分離,保持機房外墻的獨立性。而針對輔助機房以及機房的走道,則可以部署在建筑物的。通過此種布局,不僅能夠最大限度的減少空調能耗,而且也能夠進一步的加強重點地方的安全性。
四、精密空調系統的設計
為了達到既能夠有效提高制冷的效率,又能夠保持能耗最大限度降低的目標,可以通過以下幾種方式進行:合理布置冷熱通道,保持氣流的組織良好,進而達到加強制冷的效果,同時有效的降低耗能;完善內墻的作用,加強其的保溫處理效果;通過使用智能化的照明系統,進而最大限度的減少電力的浪費,以及降低冷氣的損失;通過分步的方式進行發展,機電設備的最佳運行情況是保持在75%左右;分析氣流同時優化布線,保持機房內部的冷氣可以暢通。
五、綜合布線系統的設計
在進行設計之時也要嚴格的按照TIA-942的標準進行,建筑物單獨設置冗余的接入運營商以及接入間的位置。針對核心網絡區、主干路徑與水平路徑都必須使用冗余備份,只有這樣才能在最大程度之上保障網絡的可靠性。數據中心可以使用結構化的綜合布線系統構架,將布線的路徑簡化,減少網線的數量,集中跳線區域,提高網絡擴展的便利性,降低故障發生率和宕機情況。結構化綜合布線系統和傳統方式相比具有無與倫比的優越性,其使用了預端接光纜技術,大大提高了部署的速度,從而保障了管理簡單且容易,并且故障發生幾率也被有效降低,可靠性提高。
六、裝飾裝修系統
(1)首先針對隔斷的設計。為了保證機房內不出現內柱,所以機房的建筑通常使用的是大跨度結構。為了方便控制空調、灰塵、噪音,以及便于統一的管理,因此針對大的機房可以通過玻璃的方式將其隔斷,最終形成一個個較小的相對獨立的區域。為了保障機房的安全性,要求門窗的設計應該要防火防盜,因此可以選擇無框的大玻璃門,既美觀又安全明亮。(2)其次是對地面的設計。由于機房具有一定的特殊性,所以通常要求地板要防靜電,為了便于拆卸還可以運用活動地板。(3)然后是吊頂設計,一般選擇金屬板材。在進行設計之時還要充分考慮限制層高、美觀以及成本問題。最后是墻面設計。對于墻面的設計和吊頂類似,也通常使用金屬板材,不僅質量有所保障而且看起來美觀,還能夠充分滿足防火要求,同時施工簡易效率較高。
七、綠色理念在設計當中的運用
目前在進行數據中心的基礎設施建設和設計之時,大部分都不太注意綠色理念的運用。在進行設計之時通常只考慮處理能力、網絡規劃等問題。對于能耗、環保問題等考慮較少。而以上闡述的設計方案充分運用了綠色設計理念,立足于最大限度的降低能耗,減少對環境的污染和破壞,進而降低運營成本。這是符合我國的節能減排決策,同時符合可持續發展目標。
在進行建設之時可以充分的吸收和利用國外先進技術和成功經驗,并且結合自身的特點以及建設要求,進而達到最佳的建設效果。比如針對機房的散熱問題,可以通過改變排列方式,進而增加散熱效果,既不用增加制冷的設備在一定程度之上減少浪費和污染,又是符合綠色理念的。針對傳統的隊列式擺放,可以使用“面對面,背靠背”的方式以改進。但這種方式比較適合正在修建當中的機房,如果是已經完成的機房,改換擺放方式將會涉及到多個設施的改變,包括布線、地板等。
八、結束語
綜上所述在進行數據中心基礎設施的建設和設計之時,要嚴格按照設計的標準和規范進行,尤其是要注意空調、配電系統、布線系統等的設計。在設計之中為了符合環保要求還需要引入綠色理念,既能夠有效的滿足所有的建設需求,又能夠有效的降低成本保護環境。
參考文獻
[1]李長春,趙利紅,張謙.需求層次理論與數據中心基礎設施建設[J].信息系統工程,2012,11:27-29
[2]孫鑫.面向云環境數據中心的高效資源調度機制研究[D].北京郵電大學,2012
[3]鄧果.區域教育基礎信息數據庫的規劃與設計[D].華中師范大學,2013
【關鍵字】 D-S 威脅感知平臺 威脅精準探知 風險分析與控制
Construction of Mobile Threat-Awareness Platform Based on Multi-Dimensional Data Analysis(China Mobile communication group Zhejiang Co., Ltd.,Zhejiang、310000)
Abstract:Information Technology is now experiencing an unprecedented rapid development, due to its nature of being convenient, efficient and as the core of information technology, mobile application inevitably has become an indispensable part of people’s daily work and study life. However, on account of its technological immaturity, and lack of a mobile applications targeted security management platform, have resulted in a significant number of user privacy leaks, corporate financial lost, and damaged interests, and have caused an incalculable impact on our society.This paper will introduce the D-S Model-based Threat-Awareness Platform of Mobile Application. By data mining and analyzing the mobile terminal threat, this security platform not only provides users with relevant threat intelligence information but also indicates the source of the threat with accurate positioning and control.All in all, Threat-Awareness platform is an innovative and efficient mobile security management platform that can close the loopholes which traditional security management architectures have failed to do so.
KEY words: D-S MODEL, Threat-Awareness Platform, Precise Threat Detection, Risk Analysis and Management.
一、背景和意x
隨著移動互聯網時代的到來,浙江省移動公司CRM系統的移動APP辦公模式正在逐漸取代傳統柜臺式服務模式,該模式極大的提升了業務人員的辦公效率和展業效率。但是隨著國際、國內移動應用環境的不斷復雜化,移動APP應用的攻擊事件呈快速增長趨勢。針對CRM系統移動APP自身業務層面的違規操作和攻擊事件始終未曾停止過,雖然APP在最初設計中已經進行了一定的安全防護措施,但依然存在諸多異常數據無法精準判定,主要表現在:同一UUID對應多個員工賬號,賬號存在跨區域業務辦理;業務辦理過程中提交的數據不完整,存在某些字段為空的違規數據形式;部分賬號在同一時間進行業務辦理,同一賬號會在一次操作中進行多次業務辦理,存在多賬號辦理業務時間間隔相同等等。從后臺數據中雖然可以確定存在異常信息,但是缺乏專業的分析系統和分析人員,導致無法定位異常信息的來源和攻擊形式。
我公司曾經對異常數據進行排查,發現大部分緣由是一些員工或者公司進行違規操作而造成。信安部結合相關業務部門通過明察暗訪確實發現下屬員工和公司存在通過手機模擬器軟件進行批量業務操作的行為,也發現公司購買外掛、位置造假等軟件進行違規業務辦理操作,甚至還有部分員工非法購買個人信息進行批量性的黑卡辦理操作從中謀取暴利。以上行為不僅影響了公司業務系統的正常運行,而且黑卡流入社會為電信欺詐提供了賴以生存的沃土,不但影響移動公司的形象,也對人民群眾的生命財產安全造成嚴重威脅。
同時G20峰會的召開,保證峰會期間移動CRM系統的安全運行至關重要。
二、項目特點及主要技術功能介紹
針對日益復雜和難以界定(比如:批量注冊、刷單)的移動平臺攻擊,依靠單一技術或簡單規則來發現阻斷攻擊己經不可能實現,防御的最佳策略是及早發現并實時響應。通過在移動平臺上多維度多層次采集數據,構建基于多維度取證和響應同時交互進行的防御架構,不僅可以提高取證分析追溯能力,還能更好的彌合主動取證和快速響應之間的安全間隙。充分考慮時間跨度,提出一種狀態加響應的證據鏈取證方法,對這種證據鏈進行有效保存和深度挖掘,從而更好的解決一些持久的入侵取證分析。利用D-S證據理論對取證數據進行有效處理,更加有利于進行精準的預測和高效的決策。通過構建與浙江移動業務強關聯的威脅檢測模型,盡可能早的發現潛在的安全威脅并迅速采取響應,將類似黑卡、信息偽造等復雜攻擊帶來的損失減小到最低甚至阻止其發生。
2.1基于終端多維度多級的信息采集
終端多維度多級信息采集采用“采集器”和“傳感器”相結合的信息采集模式,采集器實時將數據上報傳感器,并由服務器集群進行快速的數據分析,進行可疑行為的判斷與定位。利用終端多維度數據采集主動發現可疑行為并迅速采取應急響應是更早發現威脅的最佳途徑,該途徑還可以將威脅的影響大幅度減小。由于移動市場的復雜化,終端的多樣化,確保每個終端進行有效的取證和響應存在很大的難度。終端取證采用多維度終端取證和響應相結合可以盡可能的構建及時的安全分析及響應體系。
在預防和檢測移動威脅方面,通過不同安全分析模塊對數據進行分析和處理,從而可以快速的發現威脅事件。由于采用取證加響應的模式收集證據,使得證據鏈在時間上有一定的跨度,從而保證在長時間持續性的進行分析和保護。
在攻擊證據追蹤方面,基于層次化的證據鏈收集方式(對C&C流量分析),有利于還原攻擊場景,定位威脅源位置。各級的證據數據庫提供了大量的生動的證據鏈,短時間內只需在對不同時期,不同位置的證據鏈進行關聯分析,就可以快速確定威脅形式。基于長時間的證據鏈匯總和采用先進的算法,可以還原攻擊的每個細節。
2.2證據鏈模型
證據鏈是由取證狀態和響應動作共同構成,能夠有助于更好的還原整個攻擊的完整過程。同時,取證狀態和響應動作相互配合,可以最大限度的將攻擊的危害減小到最小。終端取證可以發現如可疑的應用操作、可疑應用權限、可疑的系統調用等值得注意的變化。響應動作可以采取:標記可疑目標為不信任、進一步審計、生成攻擊記錄、進一步篩查可疑文件、迅速定位可疑狀態來源、可阻止運行。終端取證和終端響應相互配合,相互聯動是形成證據鏈的根本。
證據鏈的形成過程主要是依據終端取證和響應發生的時間節點作為依據,充分考慮運用證據鏈在恢復攻擊場景時的作用(如圖1所示)。對于終端取證每發現到一個可疑改變時做出詳細的時間記錄,可以更好在以后的有關證據的整合、最新攻擊的查找定位中起到很好的作用。對于響應的時間記錄可以有助于分析哪些響應更加有效和有針對性。
證據鏈的分析主要是依據取證和響應的時間跨度進行分析,同時也是發生在每一級端點的分布式分析。如果取證發現的最新的可疑行為與系統已存在文件之間有關聯時,可以通過這個已存在文件的加載時間,在防御系統中查詢這一時間段的己經發現并存儲的攻擊證據鏈,能夠更加精確定位到威脅的來源并迅速采取相應的措施。同時通過一些指標的分析確定系統所處的安全環境和防御的有效性。
同時,取證的證據還包括:不同攻擊的安裝模塊、技術細節和認證形式,分析它們之間的聯系和相關性等信息,尤其是通過對認證形式的分析找出可疑的事件。C &C通信的細節也是取證的關鍵,可以判斷出攻擊端的通信網絡模式(WiFi, 4G) ,使用的終端類型,終端系統版本等信息。
2.3 D-S綜合決策模型
D-S綜合決策模型是對不斷收集到的證據鏈,通過一定的規則和函數高效的利用取證和響應信息,并將診斷對象對安全運行狀態變化的敏感程度設置為閾值;得到的可疑威脅特征構成識別診斷對象安全狀態的證據。利用D-S證據理論構建證據融合診斷決策模型對所獲取的證據進行處理,從而達到對這些證據鏈進行融合處理與分析的目的;最終通過對比事先商定并可以不斷改進的診斷策略規則和可調整的閾值得出診斷結論。
2.3.1基于C據鏈的決策步驟
利用三級端點取證和響應系統,可以獲得大量的信息,基于D-S的證據理論可以更好的將這些信息進行有效的利用。結合D-S證據理論決策融合的基本過程和威脅感知的信息融合結構,可以得到D-S證據理論信息融合威脅診斷方法的步驟(如圖2所示):
1)確定攻擊威脅空間在查閱目標保護端點上的各類審計信息的基礎上,統計曾經發現過的攻擊的具體活動方式和前期威脅特征(比如訪問終端變化,權限的更改,關鍵系統資源的非法訪問等等);然后把這些前期特征和實施方式歸納為若干個典型的威脅類型(刷單、信息造假等);最后,由這些典型的攻擊威脅類型構成“攻擊威脅空間”。
2)確定攻擊威脅空間,利用三級端點取證和響應系統當前獲取的證據鏈信息,首先,結合一定的規則將證據鏈拆分成孤立的威脅特征,形成“攻擊威脅空間”中的各種威脅特征并關聯到已經知道的攻擊方式。然后進一步結合審計系統細化攻擊特征構造各種“攻擊威脅特征子集”,同時形成“攻擊威脅空間”。
3)選擇證據體利用攻擊威脅特征子集,結合識別框架中各種攻擊的特點,從不同側面構造能夠識別“診斷對象信息系統”安全狀態的證據體。證據體的選擇主要追溯攻擊源頭,為查找攻擊規律提供便利。這些證據體主要是三級端點取證和響應系統獲取經過處理的證據鏈,歷史數據等。
4)確定出各證據的基本可信度,并分配在深入分析各證據與識別框架中各命題對應關系的基礎上,結合具體的安全管理策略,安全管理策略和相關參數可以不斷優化和動態調整。綜合采用多種確定證據可信度的方法如專家打分法、概率統計法等,計算出各個證據對識別框架中各命題的支持程度。
5)分別計算各證據的信度函數和真度函數利用各證據體的基本可信度分配計算出各命題的信度區間,對于己經發現的運用次數較多的證據體可信度數值自然比較高。