777午夜精品视频在线播放_精品欧美一区免费观看α√_91精品国产综合久久精品麻豆_精品一区二区成人精品_av成人在线看_国产成人精品毛片_少妇伦子伦精品无吗_高清视频在线观看一区_8x8x8国产精品_最新国产拍偷乱拍精品

數(shù)據(jù)挖掘論文

時(shí)間:2023-03-21 17:06:03

導(dǎo)語:在數(shù)據(jù)挖掘論文的撰寫旅程中,學(xué)習(xí)并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領(lǐng)您探索更多的創(chuàng)作可能。

數(shù)據(jù)挖掘論文

第1篇

1.1經(jīng)穴效應(yīng)特異性規(guī)律研究

主要采用關(guān)聯(lián)規(guī)則與頻次分析相結(jié)合的數(shù)據(jù)挖掘方法,關(guān)聯(lián)規(guī)則旨在提示處方中存在的兩個(gè)或兩個(gè)以上腧穴之間的配伍形式,頻次分析能夠提供針灸治療某一疾病選用的腧穴及其頻繁程度。羅玲等在全面采集古代針灸治療中風(fēng)文獻(xiàn)基礎(chǔ)上,重點(diǎn)進(jìn)行了選穴的經(jīng)絡(luò)癥狀關(guān)聯(lián)分析,發(fā)現(xiàn)針刺治療中風(fēng)半身不遂使用腧穴頻次最多的為曲池、肩等手陽明經(jīng)穴;肩、曲池、足三里、百會(huì)、風(fēng)池配伍是最常用處方;多選用足少陽經(jīng)和手足陽明經(jīng)穴位。針刺治療中風(fēng)不省人事使用腧穴頻次最多的為督脈百會(huì)穴、心包經(jīng)中沖穴;風(fēng)池、百會(huì)、曲池配伍或大椎、百會(huì)、風(fēng)池配伍是最常用處方;經(jīng)脈多選用督脈和足少陽、手陽明等陽經(jīng)穴位。以上表明針灸治療中風(fēng)遵循了辨證循經(jīng)取穴的處方規(guī)律。何冬鳳等在全面采集現(xiàn)代針灸治療心絞痛臨床文獻(xiàn)基礎(chǔ)上,重點(diǎn)進(jìn)行了選穴的經(jīng)絡(luò)部位關(guān)聯(lián)分析。結(jié)果發(fā)現(xiàn),心絞痛選穴分布在心包經(jīng)、膀胱經(jīng)、任脈、心經(jīng)最多;選穴主要分布在上肢部、背部、胸部,上肢部用穴中近90%分布于心包經(jīng)和心經(jīng),背部用穴近95%分布于膀胱經(jīng),胸部用穴全分布于任脈和心經(jīng)。以上表明針灸治療心絞痛遵循了辨位循經(jīng)取穴的處方規(guī)律。數(shù)據(jù)挖掘結(jié)果證實(shí)了古代、現(xiàn)代取穴規(guī)律和特點(diǎn)與針灸臨床理論的一般規(guī)律和特點(diǎn)是基本相符的。經(jīng)絡(luò)辨證提示了經(jīng)穴效應(yīng)的循經(jīng)性,特定穴的選用提示了經(jīng)氣會(huì)聚狀態(tài)是腧穴發(fā)揮效應(yīng)特異性的關(guān)鍵。

1.2腧穴運(yùn)用規(guī)律的研究

1)神經(jīng)系統(tǒng)疾?。黑w凌等收錄了從先秦至清末的偏頭痛針灸專著,采用多層關(guān)聯(lián)規(guī)則挖掘算法,計(jì)算腧穴項(xiàng)集的支持度和置信度,發(fā)現(xiàn)手足少陽經(jīng)脈的穴位絲竹空、風(fēng)池、率谷、頷厭、頭臨泣出現(xiàn)頻次最高,偏頭痛處方配伍中以合谷一風(fēng)池出現(xiàn)的頻次最高,少陽經(jīng)的交會(huì)穴選用最多。楊潔等發(fā)現(xiàn)針灸治療貝爾面癱中,手足陽明經(jīng)穴選用最多,重視局部穴位,配合遠(yuǎn)端選穴,地倉穴為使用頻次最多經(jīng)穴,交會(huì)穴、五輸穴、下合穴等特定穴運(yùn)用廣泛。吳糧葶等挖掘針灸治療中風(fēng)后遺癥的現(xiàn)代文獻(xiàn),表明針灸治療中風(fēng)后遺癥選穴以循經(jīng)為基礎(chǔ),首選陽經(jīng)腧穴,分布主要在四肢,陽明經(jīng)與少陽經(jīng)的配伍關(guān)系最為常用,特定穴為選穴的主體,特別重視交會(huì)穴及肘膝關(guān)節(jié)以下的特定穴。李旗等挖掘出針刺治療格林巴利綜合征所選腧穴以足三里、合谷、曲池、陽陵泉、外關(guān)、三陰交使用頻率最高,經(jīng)絡(luò)則以手足陽明經(jīng)最為常用。CongMen等以不同針刺手法刺激小鼠足三里,構(gòu)筑神經(jīng)元混沌放電的復(fù)雜網(wǎng)絡(luò)來刻畫神經(jīng)元放電時(shí)間序列的時(shí)變特性。

2)消化系統(tǒng)疾病:任玉蘭等通過多維、多層的關(guān)聯(lián)規(guī)則分析針刺治療功能性消化不良的古文獻(xiàn),發(fā)現(xiàn)足三里、中脘、脾俞、胃俞、內(nèi)關(guān)是治療FD最常用的主要腧穴,足三里與中脘相配是最主要穴位組配方式;取穴以循經(jīng)為基礎(chǔ),主要集中在任脈、膀胱經(jīng)、脾胃經(jīng)上;所選腧穴以特定穴為主體,遵循局部與遠(yuǎn)端取穴相結(jié)合原則。張勇等以古文獻(xiàn)中治療鼓脹的經(jīng)穴為原始數(shù)據(jù),運(yùn)用頻數(shù)統(tǒng)計(jì)及關(guān)聯(lián)規(guī)則算法,統(tǒng)計(jì)出古代治療鼓脹最常用經(jīng)穴為足三里、水分、氣海等,通過2次priori關(guān)聯(lián)結(jié)果,最終確認(rèn)組穴1(復(fù)溜,中風(fēng))和組穴2(復(fù)溜,脾俞)在臨床應(yīng)用中具有強(qiáng)關(guān)聯(lián)性。鄭華斌等發(fā)現(xiàn)在治療腸易激綜合征中,特定穴的使用廣泛,其中以足三里為最,其次為天樞、上巨虛、中脘等,臟腑辨證取穴為針刺治療腸易激綜合征的重要原則,以足陽明胃經(jīng)的足三里和天樞為主。

3)心血管系統(tǒng)疾?。汉味P等收集從先秦至清末有關(guān)胸痹的文獻(xiàn),挖掘結(jié)果為歷代針灸治療胸痹以心包經(jīng)選用頻次最高,陰經(jīng)使用最為頻繁,特定穴的選用占有絕對優(yōu)勢,如五輸穴原穴絡(luò)穴等,體現(xiàn)了循經(jīng)取穴原則。高麗美通過頻次分析及關(guān)聯(lián)規(guī)則算法挖掘現(xiàn)代穴位貼敷治療心絞痛文獻(xiàn),結(jié)果表明心俞、膻中、內(nèi)關(guān)、厥陰俞使用頻次最多,腧穴選用以特定穴為主,俞募配伍使用最多。腧穴分部以胸腹部、背部腧穴為主;以足太陽膀胱經(jīng)、任脈、手厥陰心包經(jīng)選用頻次較高。

4)其他系統(tǒng)疾?。和鹾楸虻冉梃b文獻(xiàn)計(jì)量學(xué)及數(shù)據(jù)挖掘的相關(guān)方法,對針灸治療更年期綜合征的常用腧穴及經(jīng)絡(luò)進(jìn)行描述性統(tǒng)計(jì)。發(fā)現(xiàn)現(xiàn)代治療女性更年期綜合征所選取的穴位中以三陰交、腎俞、關(guān)元、足三里使用頻率最高,膀胱經(jīng)、任脈、脾經(jīng)腧穴應(yīng)用最為廣泛。王靜等發(fā)現(xiàn)源于149篇文獻(xiàn)的186條數(shù)據(jù)元素組成的阿片類藥依賴針灸治療數(shù)據(jù)庫中,用穴頻次居于前五的經(jīng)穴足三里、三陰交、內(nèi)關(guān)、合谷和神門構(gòu)成了穴—穴,癥—穴,研究對象—穴,—穴和戒毒分期—穴等關(guān)聯(lián)規(guī)則中的穴位主體。

1.3刺灸方法的應(yīng)用規(guī)律研究

賈春生等提出建立刺灸法文獻(xiàn)數(shù)據(jù)庫并設(shè)計(jì)文獻(xiàn)數(shù)據(jù)應(yīng)用平臺(tái),在此基礎(chǔ)上分析數(shù)據(jù)資料,建立刺灸法數(shù)據(jù)挖掘模型。此后,各學(xué)者運(yùn)用數(shù)據(jù)挖掘方法對穴位注射、火針、穴位敷貼、穴位埋線、刺絡(luò)放血等刺灸法進(jìn)行了特異性規(guī)律及特點(diǎn)的研究。刺灸法挖掘技術(shù)的應(yīng)用中,頻次分析最為常用,能夠提供各類刺灸法治療不同疾病的頻繁程度,篩選其治療的優(yōu)勢病種。張選平等發(fā)現(xiàn)穴位埋線療法主要優(yōu)勢病種是內(nèi)科的胃脘痛、肥胖病、癇證、哮喘、腹痛、面癱、便秘;外科的腰腿痛;皮膚科的牛皮癬和五官科的重瞼術(shù)。劉新等總結(jié)出放血針具共涉及9種,以三棱針使用頻次最高,將放血量人為分為6個(gè)等級(jí),其中放血量為少許(少于0.1mL)的出現(xiàn)頻次最高,為401次。許曉康等發(fā)現(xiàn)水針療法在內(nèi)科疾病治療中出現(xiàn)頻次最高,其次為外科疾病,相對于其他疾病,呃逆出現(xiàn)頻次最高。

1.4腧穴疾病譜的研究

吳糧葶等通過規(guī)范病癥、腧穴名稱,統(tǒng)計(jì)中風(fēng)后遺癥所屬病癥的針灸病癥譜及總結(jié)針灸治療中風(fēng)后遺癥的腧穴譜,結(jié)果顯示針灸病癥譜分布呈偏向性,腧穴譜遍布十四經(jīng)脈,首選陽經(jīng)腧穴,常用腧穴以陽明少陽經(jīng)穴為主。邢晶晶等通過文獻(xiàn)比例、疾病比例對內(nèi)關(guān)及其常見配伍的針刺病譜進(jìn)行分析,總結(jié)出內(nèi)關(guān)針刺病譜主要分布于脾胃系和心系;單穴內(nèi)關(guān)針刺病譜中冠心病文獻(xiàn)比例最高;內(nèi)關(guān)配伍足三里針刺病譜中呃逆文獻(xiàn)比例最高;內(nèi)關(guān)配伍三陰交針刺病譜中焦慮抑郁文獻(xiàn)比例較高。黃宗雄等通過對清代及清以前昆侖穴相關(guān)文獻(xiàn)的整理,挖掘得出:昆侖單穴主治病證33種,篩選出2種優(yōu)勢病證;配伍主治病證45種,篩選出19種優(yōu)勢病證及其高頻配伍處方。陳文修等統(tǒng)計(jì)出百會(huì)單穴主治病證73種,篩選出22種優(yōu)勢病證;配伍主治病證106種,篩選出21種優(yōu)勢病證及其高頻配伍處方。

1.5名老中醫(yī)經(jīng)驗(yàn)挖掘

張華等對田從豁教授臨床病歷資料進(jìn)行整理,發(fā)現(xiàn)田從豁教授臨床應(yīng)用穴方共19個(gè),陰交、肓俞、水分配伍使用頻次最多。陳裕收集當(dāng)代名中醫(yī)針灸治療偏頭痛醫(yī)案247篇,總結(jié)出臨床與肝陽上亢型關(guān)聯(lián)密切的是足少陽膽經(jīng),血瘀阻絡(luò)型是手少陽三焦經(jīng),風(fēng)邪上擾型是足太陽膀胱經(jīng),氣血不足型是足陽明胃經(jīng)。并且,根據(jù)關(guān)聯(lián)規(guī)則挖掘提出的基本配穴規(guī)律與中醫(yī)經(jīng)絡(luò)理論相契合。

1.6針灸臨床決策支持系統(tǒng)構(gòu)建

針灸臨床決策支持系統(tǒng)對于實(shí)現(xiàn)針灸臨床決策模式的轉(zhuǎn)變有重大意義,基于數(shù)據(jù)挖掘方法,各學(xué)者在此方向進(jìn)行了有益的探索。任玉蘭等提出建立疾病癥狀、證候癥狀關(guān)系的樣本數(shù)據(jù)庫、概率數(shù)學(xué)模型;再通過遺傳算法進(jìn)行針灸治療最優(yōu)方案的選擇,構(gòu)建具有人工智能特征的針灸臨床循證診療決策輔助支持平臺(tái)。王佑林等利用復(fù)雜網(wǎng)絡(luò)的K核心思想并改進(jìn)來尋找針灸治療疾病所用穴位的主穴信息,使其更好地適應(yīng)中醫(yī)決策系統(tǒng)并提供支持。李云松等發(fā)現(xiàn)在決策系統(tǒng)中,使用一元字串和二元字串的特征更適合腧穴處方的自動(dòng)生成,提出了一種基于K近鄰方法的腧穴處方自動(dòng)生成算法,通過分析病歷庫中與目標(biāo)現(xiàn)病史最相似K條病歷的穴位配方,來自動(dòng)給出患者針灸治療的推薦方案。胡綠慧等提出使用Weka平臺(tái)進(jìn)行編程,分析穴位的支持度與置信度,找出適用于針灸臨床方案決策研究的最好方法,用以指導(dǎo)臨床醫(yī)生的方案決策。

2分析與展望

2.1數(shù)據(jù)挖掘結(jié)果能夠與傳統(tǒng)的中醫(yī)學(xué)理論相契

合并提供新知《席弘賦》云:“凡欲行針須審穴?!笨梢娕R證選穴及配伍的重要性。查閱近幾年針灸數(shù)據(jù)挖掘的結(jié)果,不難發(fā)現(xiàn),針灸處方的配伍仍大量選用“原絡(luò)配穴”“俞募配穴”“八脈交會(huì)配穴”“合募配穴”“遠(yuǎn)近配穴”等傳統(tǒng)配穴方法,遵循著“循經(jīng)取穴”的規(guī)則,體現(xiàn)了“經(jīng)脈所過,主治所及”“腧穴所在,主治所及”的規(guī)律。數(shù)據(jù)挖掘在驗(yàn)證傳統(tǒng)的中醫(yī)學(xué)理論的同時(shí),還能在海量的文獻(xiàn)中發(fā)掘出新知,如趙凌等挖掘偏頭痛文獻(xiàn)時(shí)即發(fā)現(xiàn)古代針灸治療該病多采用同名經(jīng)的配穴方法,發(fā)生疾病時(shí)即可在相聯(lián)系的手足同名經(jīng)的相應(yīng)部位針刺;趙華等挖掘田從豁教授治療痹癥經(jīng)驗(yàn)的結(jié)果提示上肢疼痛與寒凝、血瘀相關(guān),風(fēng)寒痹阻與下肢發(fā)涼相關(guān)。這些新的治療方法、不易發(fā)現(xiàn)的疾病、證候、癥狀之間的聯(lián)系,通過數(shù)據(jù)挖掘?yàn)榕R床提供了新的思路與治療模式。

2.2數(shù)據(jù)挖掘在針灸領(lǐng)域存在的不足及展望

針灸數(shù)據(jù)挖掘起步較晚,不同于中醫(yī)藥數(shù)據(jù)挖掘文獻(xiàn)量大、方法選用較多,針灸數(shù)據(jù)挖掘文獻(xiàn)量較少,且仍以關(guān)聯(lián)規(guī)則及頻次分析為主要挖掘方法。對針灸選方用穴的規(guī)律進(jìn)行關(guān)聯(lián)程度的分析,雖然能夠提供腧穴的使用頻率及處方的關(guān)聯(lián)度,但此方法對針灸核心處方及配伍的深層分析如增效、減效等卻無能為力。單一的處方關(guān)聯(lián)分析也制約著針灸數(shù)據(jù)挖掘的進(jìn)一步發(fā)展,其在生物學(xué)機(jī)制、腦功能分析等的應(yīng)用基本為空白。而復(fù)雜網(wǎng)絡(luò)分析卻在此方面提供了新的可能性。復(fù)雜網(wǎng)絡(luò)方法是通過穴位、疾病、證型等作為基礎(chǔ)節(jié)點(diǎn),構(gòu)筑復(fù)雜網(wǎng)絡(luò),通過冪律分析、小團(tuán)體分析、中心性分析等深入分析針灸處方特色的一種數(shù)據(jù)挖掘方法??梢蕴釤挸龊诵奶幏?,通過加權(quán)與無權(quán)的穴位疾病二分網(wǎng)絡(luò)從宏觀及動(dòng)態(tài)的角度揭示腧穴配伍規(guī)律。亦可進(jìn)一步以生物學(xué)中蛋白、基因或腦影像學(xué)數(shù)據(jù)作為節(jié)點(diǎn),通過節(jié)點(diǎn)間的拓?fù)渚W(wǎng)絡(luò),深入分析針灸在生物學(xué)及腦影像學(xué)領(lǐng)域的作用機(jī)制。另外,數(shù)據(jù)挖掘與仿真工程的結(jié)合,可以在針刺手法的測定、針灸臨床決策系統(tǒng)中發(fā)揮更重要的作用。

第2篇

目前,作為智能電網(wǎng)重要組成部分的智能配電網(wǎng),在能量流、信息流、業(yè)務(wù)流三個(gè)方面都表現(xiàn)出于傳統(tǒng)配電網(wǎng)不一樣的特質(zhì):

(1)傳統(tǒng)電網(wǎng)能量流由電網(wǎng)單方向流向客戶,智能配電網(wǎng)的能量流可雙向流動(dòng)。

(2)傳統(tǒng)電網(wǎng)信息流傳輸慢,信息不完整,存在較多信息孤島,智能配電網(wǎng)可以實(shí)現(xiàn)信息全面集成,高速雙向?qū)Φ韧ㄐ牛С址植际教幚怼?/p>

(3)傳統(tǒng)電網(wǎng)的業(yè)務(wù)流程局限于部門內(nèi)部,智能配電網(wǎng)的業(yè)務(wù)流程貫穿多個(gè)部門,支持互動(dòng)業(yè)務(wù)流程,全局角度的優(yōu)化決策。因此,涵蓋電源、電網(wǎng)、用戶的全流程,貫穿電網(wǎng)規(guī)劃、設(shè)計(jì)、建設(shè)、運(yùn)行維護(hù)、技術(shù)改造、退役的全過程,最終形成電力流、信息流、業(yè)務(wù)流的高度融合和一體化,將成為智能配電網(wǎng)發(fā)展、研究、建設(shè)的重點(diǎn)。

智能配電網(wǎng)的信息化建設(shè)已經(jīng)全面開始,但我們?nèi)匀徊荒芎雎源嬖诘膯栴}。

(1)對配網(wǎng)信息化的認(rèn)識(shí)和定位不清楚,應(yīng)用主體不明確,導(dǎo)致后期的應(yīng)用具體的受益者少或不明顯。

(2)對配電信息化系統(tǒng)缺乏統(tǒng)一細(xì)致的規(guī)劃,存在“盲人摸象”的現(xiàn)象,提不出完整而準(zhǔn)確的需求。

(3)容易套用調(diào)度自動(dòng)化的建設(shè)思路,過分強(qiáng)調(diào)實(shí)時(shí)應(yīng)用,而沒有針對配電信息量大面廣的特點(diǎn),忽視了對其它系統(tǒng)的相關(guān)數(shù)據(jù)利用和整合,造成配電系統(tǒng)的信息缺口很大,模型不完整,后期的應(yīng)用無法實(shí)用化。

(4)配電自動(dòng)化涉及供電企業(yè)內(nèi)部的生產(chǎn)管理環(huán)節(jié)較多,因此存在管理體制對自動(dòng)化基于實(shí)時(shí)歷史數(shù)據(jù)庫開展配電網(wǎng)數(shù)據(jù)挖掘的應(yīng)用與研究文/楊劭煒邱佳杰葉偉寶當(dāng)前全球能源開發(fā)利用正呈現(xiàn)多元化、清潔化的發(fā)展趨勢,我國經(jīng)濟(jì)快速發(fā)展,用電需求急速增加,而煤炭、風(fēng)能、水能、太陽能等傳統(tǒng)與新能源資源的分布與消費(fèi)呈逆向分布,因此,國家電網(wǎng)公司在2009年5月21日,提出了建設(shè)“堅(jiān)強(qiáng)智能電網(wǎng)”的發(fā)展戰(zhàn)略,并分三個(gè)階段逐步實(shí)現(xiàn)。國家電網(wǎng)“十二五”電網(wǎng)智能規(guī)劃中明確了“電網(wǎng)發(fā)展方式的轉(zhuǎn)變”是這一期間的核心,而作為“兩個(gè)薄弱點(diǎn)”之一的“配電網(wǎng)”將是重點(diǎn)需要解決的。本文以配電網(wǎng)為切入點(diǎn),引入數(shù)據(jù)挖掘技術(shù),圍繞最能體現(xiàn)配網(wǎng)管理水平的各類業(yè)務(wù),既提高了傳統(tǒng)配電網(wǎng)業(yè)務(wù)的執(zhí)行效率,又能發(fā)揮信息技術(shù)強(qiáng)大的智能決策優(yōu)勢。摘要系統(tǒng)的不適應(yīng),或者說是自動(dòng)化系統(tǒng)對不同的管理體制的適應(yīng)性不強(qiáng)。造成工作職責(zé)界定不清楚,運(yùn)行管理工作跟不上,系統(tǒng)應(yīng)用和數(shù)據(jù)維護(hù)工作很薄弱。另外,根據(jù)國網(wǎng)“十二五”規(guī)劃,國家電網(wǎng)公司明確要制定實(shí)施農(nóng)電發(fā)展戰(zhàn)略,大力加強(qiáng)農(nóng)網(wǎng)建設(shè)。本項(xiàng)目正是以縣公司這樣的基層供電公司為研究對象,綜合考慮配電網(wǎng)業(yè)務(wù)的復(fù)雜性,及縣公司覆蓋城網(wǎng)和農(nóng)網(wǎng)的特點(diǎn),力圖在建立一個(gè)有效配電網(wǎng)數(shù)據(jù)挖掘與分析模型的基礎(chǔ)上,依托先進(jìn)的技術(shù)手段,提高在縣公司對智能配電網(wǎng)的認(rèn)識(shí)和管理水平,并在可能的情況下,將研究成果在浙江省范圍內(nèi)的縣級(jí)供電企業(yè)進(jìn)行推廣。

2項(xiàng)目建設(shè)目標(biāo)

實(shí)現(xiàn)對配調(diào)圖形數(shù)據(jù)的智能化管理與各業(yè)務(wù)環(huán)節(jié)的正常流轉(zhuǎn);研究無線數(shù)據(jù)通信節(jié)點(diǎn)的接入及組網(wǎng)管理方式,接入包括可能的3G、GPRS、WIFI、RJ45、RS485、RS232等,基于星型、樹型等網(wǎng)絡(luò)結(jié)構(gòu),管理并維護(hù)多個(gè)節(jié)點(diǎn),對數(shù)據(jù)進(jìn)行預(yù)處理;應(yīng)用有源電子標(biāo)簽的電子標(biāo)識(shí)系統(tǒng)來定位現(xiàn)場配網(wǎng)設(shè)備,解決管理人員在日常巡檢和維護(hù)中,突發(fā)狀況時(shí)的準(zhǔn)確定位及地理環(huán)境變遷后的配網(wǎng)設(shè)備查找;為移動(dòng)終端上各類信息(地理背景、電力網(wǎng)架、電力用戶信息,配網(wǎng)設(shè)備臺(tái)帳等)提供圖形化的展示和管理;實(shí)現(xiàn)以文件或接口的方式導(dǎo)入電網(wǎng)拓?fù)洹㈦娏τ脩粜畔ⅰ⒃O(shè)備臺(tái)帳信息等。項(xiàng)目主要研究內(nèi)容:

(1)工作任務(wù)生成與流轉(zhuǎn)方式的研究。提出工作任務(wù)的概念,將其作為系統(tǒng)中業(yè)務(wù)流轉(zhuǎn)的唯一單元。設(shè)計(jì)并實(shí)現(xiàn)其具體流轉(zhuǎn)方式。

(2)無線數(shù)據(jù)網(wǎng)絡(luò)的研究。分析以無線數(shù)據(jù)網(wǎng)作為整個(gè)系統(tǒng)的通訊核心的技術(shù)可行性。研究無線數(shù)據(jù)通信節(jié)點(diǎn)的接入及組網(wǎng)管理方式,接入包括可能的3G、GPRS、WIFI、RJ45、RS485、RS232等,基于星型、樹型等網(wǎng)絡(luò)結(jié)構(gòu),管理并維護(hù)多個(gè)節(jié)點(diǎn),對數(shù)據(jù)進(jìn)行預(yù)處理。

(3)有源電子標(biāo)簽的研究與應(yīng)用。研究使用有源電子標(biāo)簽的電子標(biāo)識(shí)系統(tǒng)來定位現(xiàn)場配網(wǎng)設(shè)備的技術(shù)可行性,以解決管理人員在日常巡檢和維護(hù)中,對突發(fā)狀況時(shí)的準(zhǔn)確定位及地理環(huán)境變遷后的配網(wǎng)設(shè)備查找。

(4)移動(dòng)終端上配網(wǎng)信息可視化展現(xiàn)的研究。為移動(dòng)終端上各類信息(地理背景、電力網(wǎng)架、電力用戶信息,配網(wǎng)設(shè)備臺(tái)帳等)提供圖形化的展示和管理。

(5)與相關(guān)系統(tǒng)數(shù)據(jù)接口的研究與實(shí)現(xiàn)。研究電網(wǎng)拓?fù)?、電力用戶信息、設(shè)備臺(tái)帳信息等數(shù)據(jù)的載入方式及其技術(shù)可行性。涉及系統(tǒng)包括:GIS,PMS,營銷系統(tǒng)等。

3項(xiàng)目技術(shù)方案詳情

3.1系統(tǒng)架構(gòu)

(1)總體要求及架構(gòu)。系統(tǒng)將采用面向服務(wù)架構(gòu)(SOA),遵循IEC61970標(biāo)準(zhǔn)接口和CIM數(shù)據(jù)標(biāo)準(zhǔn),集成SCADA、市公司數(shù)據(jù)交換總線(IEB)、電力營銷、氣象網(wǎng)站、負(fù)控管理等相關(guān)系統(tǒng),采用數(shù)據(jù)倉庫技術(shù),有效解決多源頭復(fù)雜數(shù)據(jù)的采集、海量數(shù)據(jù)之上進(jìn)行快速準(zhǔn)確科學(xué)的數(shù)據(jù)分析的難題,貼近國內(nèi)供電企業(yè)電網(wǎng)運(yùn)行工況和負(fù)荷分析預(yù)測人員及電網(wǎng)規(guī)劃人員日常工作所需的基于省公司實(shí)時(shí)歷史數(shù)據(jù)庫開展配電網(wǎng)數(shù)據(jù)挖掘系統(tǒng)。

(2)技術(shù)路線。①基于IEC、CIM等標(biāo)準(zhǔn),建立資源中心,通過IEB企業(yè)總線接收來自PMS、ACADA、電力營銷、用電采集、氣象系統(tǒng)等的多維數(shù)據(jù);②采用C/A/S三層架構(gòu),保證平臺(tái)的穩(wěn)定性和時(shí)效性;③部署上滿足大范圍推廣應(yīng)用;

3.2集成框架

基于省公司實(shí)時(shí)歷史數(shù)據(jù)庫開展配電網(wǎng)數(shù)據(jù)挖掘平臺(tái)集成了SCADA、市公司數(shù)據(jù)交換總線(IEB)、電力營銷、氣象網(wǎng)站、負(fù)控管理等相關(guān)系統(tǒng)。集成框架如圖1所示。

4硬件架構(gòu)

平臺(tái)應(yīng)用采用單獨(dú)的應(yīng)用服務(wù)器獨(dú)立部署,需要配置相應(yīng)的軟硬件環(huán)境。應(yīng)用服務(wù)器通過F5實(shí)現(xiàn)均衡負(fù)載,當(dāng)用戶增加,已有服務(wù)器性能影響用戶體驗(yàn)時(shí),通過增加應(yīng)用服務(wù)器的方式提升系統(tǒng)整體性能。

5軟件架構(gòu)

基于省公司實(shí)時(shí)歷史數(shù)據(jù)庫開展配電網(wǎng)數(shù)據(jù)挖掘平臺(tái)將提供6大業(yè)務(wù)分析功能及3個(gè)基礎(chǔ)管理功能,共約40個(gè)分析子功能項(xiàng),滿足各級(jí)負(fù)荷分析預(yù)測人員的日常工作所要。

6結(jié)論

第3篇

首先,提高財(cái)務(wù)信息的利用能力。傳統(tǒng)財(cái)務(wù)數(shù)據(jù)查詢主要面向應(yīng)用,屬于一種支持日常操作的事務(wù)處理,沒有分析所查詢的數(shù)據(jù)信息的能力,決策者也無法在分析大量歷史數(shù)據(jù)的基礎(chǔ)上多維度的比較、分析某個(gè)主題的相關(guān)數(shù)據(jù)。而財(cái)務(wù)分析中應(yīng)用數(shù)據(jù)挖掘技術(shù)體現(xiàn)出序列導(dǎo)向及多維度的特點(diǎn),從而有效提高財(cái)務(wù)信息的應(yīng)用能力。其次,解決財(cái)務(wù)信息的噪聲問題。網(wǎng)絡(luò)環(huán)境下,企業(yè)可以方便、快捷的獲取企業(yè)內(nèi)部信息、各關(guān)聯(lián)方及外部信息,這個(gè)過程中難免會(huì)出現(xiàn)信息過量的問題,如何迅速從海量信息中獲取對決策有用的信息成為各決策者及管理者面臨的重要問題。這種情況下,數(shù)據(jù)挖掘技術(shù)可以在海量信息中分辨、挖掘出對財(cái)務(wù)決策有用的信息,最大程度上減少信息噪聲的影響。最后,提高財(cái)務(wù)分析的智能化水平。決策本身體現(xiàn)出動(dòng)態(tài)性、復(fù)雜性、多樣性的特點(diǎn),而決策者本身的綜合素質(zhì)也會(huì)對決策的準(zhǔn)確性產(chǎn)生影響,因此同一種情況可能產(chǎn)生不同的決策結(jié)果。隨著數(shù)據(jù)量的不斷增加,傳統(tǒng)依靠程序人員設(shè)計(jì)專用程序查詢數(shù)據(jù)的方法已經(jīng)相對滯后,決策者需要更加智能化的信息分析方法,數(shù)據(jù)挖掘技術(shù)便可滿足這一要求,其利用現(xiàn)有數(shù)據(jù)獲取新的、有用的信息,并對信息的查詢、存儲(chǔ)過程預(yù)以優(yōu)化,體現(xiàn)出強(qiáng)大的自我學(xué)習(xí)功能,從而最大程度上滿足財(cái)務(wù)信息分析智能化的要求。

二、數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)分析中的應(yīng)用

財(cái)務(wù)分析的主要目的是改善經(jīng)營管理,提高企業(yè)的經(jīng)濟(jì)效益,其主要目的是保證會(huì)計(jì)信息資料的正確可靠性,以保證企業(yè)財(cái)產(chǎn)的安全性、完整性。比如某生態(tài)園林企業(yè)需要投入大量資金完善生產(chǎn)基礎(chǔ)設(shè)施,并保證現(xiàn)場作業(yè)的有序,如有必要還要投資于企業(yè)產(chǎn)品周邊附屬產(chǎn)業(yè)的發(fā)展,因此財(cái)務(wù)決策的重要性不言而喻,而在財(cái)務(wù)決策中應(yīng)用數(shù)據(jù)挖掘技術(shù)十分必要。財(cái)務(wù)分析中應(yīng)用數(shù)據(jù)挖掘的基本流程包括問題識(shí)別、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)開采及結(jié)果表達(dá)與解釋等四個(gè)步驟,圖1可將財(cái)務(wù)分析數(shù)據(jù)挖掘的過程直觀的表達(dá)出來:

(一)問題識(shí)別

典型的財(cái)務(wù)決策包括投資決策、籌資決策、成本決策、銷售決策等,企業(yè)要進(jìn)行財(cái)務(wù)分析前必須識(shí)別決策問題,明確需要達(dá)到的決策目標(biāo)等,再將決策目標(biāo)轉(zhuǎn)換為數(shù)據(jù)挖掘的目標(biāo),最后進(jìn)行準(zhǔn)確的數(shù)據(jù)定義。如企業(yè)需要投資企業(yè)產(chǎn)品周邊附屬產(chǎn)業(yè),則需要利用數(shù)據(jù)挖掘技術(shù)明確以下問題:

(1)企業(yè)經(jīng)營中可隨時(shí)支配的資金額度,需要財(cái)務(wù)人員建立數(shù)據(jù)庫模型,將可用于投資的資金情況準(zhǔn)確、詳細(xì)的計(jì)算出來;

(2)編制投資方案,即與本企業(yè)實(shí)際情況相結(jié)合,考慮具體投資計(jì)劃,并對投資方案的可操作性進(jìn)行分析,比如上述園林生態(tài)企業(yè)需要投資進(jìn)口園林機(jī)械的項(xiàng)目,就需要在投資前對該項(xiàng)目的大小做出合理評估,了解該品牌園林機(jī)械在國際市場的占有份額、品質(zhì)、成本及銷售價(jià)格等信息;

(3)投資收益分析,投資的主要目的是獲得更高收益,因此在數(shù)據(jù)挖掘過程中,問題識(shí)別時(shí)必須做出可靠的收益預(yù)算。

(二)數(shù)據(jù)準(zhǔn)備

在完成問題識(shí)別后,需要根據(jù)不同的需求、從相關(guān)數(shù)據(jù)庫信息中選擇適用的數(shù)據(jù)信息,即進(jìn)行數(shù)據(jù)準(zhǔn)備,該過程需要收集大量與企業(yè)財(cái)務(wù)分析相關(guān)的數(shù)據(jù)信息,以保證數(shù)據(jù)挖掘的真實(shí)性、客觀性,比如花卉市場分布信息、裝飾裝潢市場信息、園林設(shè)計(jì)與市場銷售等信息。通常情況下,數(shù)據(jù)準(zhǔn)備又可分為數(shù)據(jù)集成、數(shù)據(jù)選擇及數(shù)據(jù)預(yù)處理等三個(gè)步驟,其中數(shù)據(jù)集成是把多數(shù)據(jù)庫運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,去除信息噪聲,剔除虛假數(shù)據(jù);而數(shù)據(jù)選擇則是分辨需要分析的數(shù)據(jù)集合,進(jìn)一步縮小數(shù)據(jù)處理的范圍,提高數(shù)據(jù)質(zhì)量,從而保證數(shù)據(jù)挖掘的有效性;數(shù)據(jù)預(yù)處理的主要目的是解決數(shù)據(jù)挖掘工具局限性的問題。

(三)數(shù)據(jù)挖掘

當(dāng)上述準(zhǔn)備工作完成后即可進(jìn)行深入的數(shù)據(jù)挖掘處理,挖掘過程中需要注意,必須以財(cái)務(wù)分析核心思想為指導(dǎo),明確數(shù)據(jù)挖掘的目的性,數(shù)據(jù)挖掘的主要內(nèi)容包括:選擇合適的挖掘工具、具體的挖掘操作及證實(shí)發(fā)現(xiàn)的知識(shí)等,其中選擇合適的挖掘工具至關(guān)重要,限于篇幅此處對神經(jīng)網(wǎng)絡(luò)及決策樹兩種方法進(jìn)行簡單介紹。神經(jīng)網(wǎng)絡(luò)是以自學(xué)習(xí)數(shù)學(xué)模型為基礎(chǔ)的,利用該方法可以很容易的解決具有上百個(gè)參數(shù)的問題,為高復(fù)雜度的問題提供一種相對簡單的方法;視經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí),也可以是無指導(dǎo)聚類,不過輸入神經(jīng)網(wǎng)絡(luò)中的值均為數(shù)值型的。實(shí)際應(yīng)用中通常采用該方法進(jìn)行財(cái)務(wù)預(yù)警分析。決策樹法是現(xiàn)階段應(yīng)用最廣泛的歸納推理算法之一,其提供了一種展示在何種條件下會(huì)獲得對應(yīng)值的規(guī)則的方法,是一種簡單的知識(shí)表示方法,在數(shù)據(jù)挖掘過程中,決策樹法主要用于數(shù)據(jù)挖掘的分類。

(四)結(jié)果表達(dá)

結(jié)果表達(dá)即是在處理數(shù)據(jù)庫信息的基礎(chǔ)上客觀的表達(dá)出數(shù)據(jù)挖掘的結(jié)果,以為企業(yè)財(cái)務(wù)分析提供可靠依據(jù)??梢哉f結(jié)果表達(dá)是數(shù)據(jù)挖掘的成果展示,其所表達(dá)的是最有價(jià)值的信息,如結(jié)果表達(dá)所提供的信息達(dá)不到?jīng)Q策的要求,則可重復(fù)挖掘過程,直至決策者滿意為止。

三、結(jié)語

第4篇

采用SQLServer2008軟件進(jìn)行統(tǒng)計(jì)分析,統(tǒng)計(jì)藥物使用頻次,并采用關(guān)聯(lián)規(guī)則對藥物配伍、藥-病、藥-癥關(guān)系進(jìn)行對應(yīng)分析,采用SQLServer2008AnalysisServices對癥狀、體征的常用藥物進(jìn)行多維數(shù)據(jù)分析。

2結(jié)果

2.1活血化瘀藥物使用頻次統(tǒng)計(jì)277份醫(yī)案中,陳院士使用的活血化瘀藥共20種,其中使用頻次排在前5位的依次為赤芍、延胡索、川芎、丹參、紅花,使用頻率均在23%以上;其次是生地黃、當(dāng)歸、牡丹皮、桃仁、牛膝、郁金,使用頻率在10%以上;其他如益母草、王不留行、三七、雞血藤、大黃、澤蘭、鬼箭羽使用頻率均在10%以下。具體見表1。

2.2活血化瘀藥物的配伍應(yīng)用配伍應(yīng)用的常見兩項(xiàng)關(guān)聯(lián)如川芎、赤芍為陳院士治療冠心病尤其是介入術(shù)后再狹窄的常用配伍,苦參、延胡索為治療心律失常的常用配伍,桔梗、川芎為治療氣滯血瘀證的常用配伍,三七、延胡索為治療瘀血疼痛的常用配伍。具體見表2。配伍應(yīng)用的常見三項(xiàng)關(guān)聯(lián)如桃仁、川芎、紅花,丹參、川芎、赤芍,紅花、川芎、赤芍,均反映了冠心Ⅱ號(hào)方(當(dāng)歸、丹參、川芎、赤芍、紅花、降香)藥物配伍;桔梗、紅花、川芎反映了血府逐瘀湯的藥物配伍,均為陳院士常用的活血瘀方藥。其他如鉤藤、川芎、天麻,、川芎、天麻,反映了治療血瘀兼肝陽上亢的常用配伍;藿香、川芎、佩蘭反映了治療血瘀兼濕濁的常用配伍;太子參、紅花、川芎反映了氣虛血瘀的常用配伍。具體見表3。

2.3藥-病關(guān)聯(lián)分析表4示,支架術(shù)后血瘀證應(yīng)用川芎、赤芍的置信度分別為0.89、0.83,置信度排在3至5位的依次為紅花、延胡索、丹參,再次為黃芪、薤白、桃仁、瓜蔞、半夏,說明陳院士治療冠心病介入術(shù)后除活血化瘀外,也重視益氣、化痰法的應(yīng)用,通補(bǔ)兼施。表5示,高血壓病血瘀證應(yīng)用活血化瘀藥物按置信度排序依次為牛膝、赤芍、生地黃、川芎、丹參、紅花,其中赤芍味苦微寒,可清熱涼血、散瘀止痛;生地黃甘苦涼,滋陰和血;牛膝苦酸性平,可補(bǔ)肝腎、引血下行,體現(xiàn)陳院士選方用藥注意照顧疾病病機(jī)的特點(diǎn)。表6示,心律失常血瘀證應(yīng)用活血化瘀藥物以延胡索置信度最高(0.39),其他常用的還有川芎、生地黃、丹參、當(dāng)歸。

2.4藥-癥關(guān)聯(lián)分析表7示,冠心病出現(xiàn)心痛癥狀時(shí),使用藥物置信度最高的是延胡索、丹參、薤白;出現(xiàn)紫暗舌、黃苔時(shí),赤芍的置信度最高;紫暗舌、畏寒同時(shí)出現(xiàn)時(shí),當(dāng)歸的置信度最高。高血壓病出現(xiàn)頭痛時(shí),使用天麻、鉤藤的置信度最高,頭痛與脈沉弦同時(shí)出現(xiàn)時(shí),天麻、鉤藤的置信度最高。表8示,陳院士活血化瘀治療心血管疾病血瘀證不同癥狀、體征所用藥物有一定差別,如治療瘀斑舌牡丹皮使用較多,治療心痛延胡索使用較多,治療頭痛川芎使用較多,治療半身不遂除當(dāng)歸、赤芍、川芎、生地黃、紅花、桃仁外,還常合并使用全蝎、蜈蚣、烏梢蛇等蟲類通絡(luò)藥物。

3討論

血瘀證因瘀血的原因、部位、所患疾病、體質(zhì)稟賦、病情輕重等不同,其臨床表現(xiàn)可多變,故治療上除血瘀證的通治法和方藥外,也要注意靈活變通,兼顧疾病、病位、兼證和兼癥的特點(diǎn)。陳院士臨診每細(xì)察舌脈,再結(jié)合證候之兼挾,病程之長短,體質(zhì)之虛實(shí),對病情進(jìn)行全面分析,辨證求因,審因論治,科學(xué)配伍。處方用藥或根據(jù)瘀血之因辨證地運(yùn)用行氣活血、益氣活血、養(yǎng)血活血、溫經(jīng)活血、化痰祛瘀、清熱活血、活血解毒等法;或結(jié)合病變部位而采用活血通腑、活血利水、清心活血、活血通竅等法;或結(jié)合疾病特點(diǎn)施以專方專藥。數(shù)據(jù)挖掘是從大量的、不完全的、模糊的數(shù)據(jù)中,抽取潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過程。運(yùn)用結(jié)構(gòu)化數(shù)據(jù)庫和數(shù)據(jù)挖掘方法有可能解決中醫(yī)特色研究和發(fā)展中的關(guān)鍵問題,為中醫(yī)特色各個(gè)信息單元之間內(nèi)在隱含關(guān)系的挖掘、規(guī)律的總結(jié)、問題的發(fā)現(xiàn)等提供技術(shù)和方法學(xué)上的支持[9]。數(shù)據(jù)挖掘的算法有多種,如關(guān)聯(lián)規(guī)則、聚類分析、決策樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)等[10]。在中醫(yī)醫(yī)案和臨床資料的研究中,以關(guān)聯(lián)規(guī)則和聚類分析應(yīng)用較多,頻數(shù)分析則常和其他算法一起使用。本研究采用關(guān)聯(lián)規(guī)則這一數(shù)據(jù)挖掘方法,對陳院士活血化瘀治療心血管疾病的用藥規(guī)律進(jìn)行了分析。其中對現(xiàn)代醫(yī)學(xué)病名與藥物進(jìn)行關(guān)聯(lián)分析發(fā)現(xiàn),冠心病支架術(shù)后血瘀證應(yīng)用川芎、赤芍的置信度最高,二者配伍可視為治療冠心病支架術(shù)后的專病專方專藥,其次常用的活血藥依次為紅花、延胡索、丹參;高血壓病血瘀證對應(yīng)的藥物依次為牛膝、赤芍、生地黃、川芎、丹參、紅花;心律失常血瘀證對應(yīng)的用藥依次為延胡索、川芎、生地黃、丹參、當(dāng)歸。分析結(jié)果與陳院士臨證注意兼顧疾病特點(diǎn)靈活選用活血化瘀藥和科學(xué)配伍的特色基本相符。其中丹參、紅花、川芎、赤芍可作為血瘀證的通用藥物;延胡索辛散溫通,“行血中氣滯,氣中血滯”,功能活血行氣,療一身諸痛,冠心病心絞痛、頭痛明顯者可選用;川芎辛溫香竄,走而不守,能上行巔頂,下達(dá)血海,為血中之氣藥,治療頭痛常選用之,并適當(dāng)配伍他藥;赤芍苦微寒,清熱涼血、祛瘀止痛,與川芎合用可佐其溫燥,而加強(qiáng)活血化瘀之功,陳院士常用二者配伍治療多種血瘀證尤其是冠心病介入術(shù)后,以川芎、赤芍的有效組分配伍組成的芎芍膠囊,經(jīng)多中心隨機(jī)雙盲對照研究證實(shí)具有預(yù)防介入術(shù)后再狹窄的作用[14]。

第5篇

在熔煉機(jī)組優(yōu)化運(yùn)行的過程中,機(jī)組的運(yùn)行性能指標(biāo)與人員的操作水平、負(fù)荷及運(yùn)行參數(shù)之間有著復(fù)雜的相互關(guān)系,這種關(guān)系在大量的生產(chǎn)歷史數(shù)據(jù)中與機(jī)組各數(shù)據(jù)項(xiàng)之間關(guān)聯(lián),因此可以通過數(shù)據(jù)挖掘的方式把其中的關(guān)聯(lián)關(guān)系定量的反映出來,最終反饋到實(shí)際運(yùn)行中。本文結(jié)合工廠的實(shí)際情況,分析由工廠的DCS系統(tǒng)采集的實(shí)時(shí)運(yùn)行數(shù)據(jù),來得到用戶期望的相關(guān)參數(shù)間定量的關(guān)聯(lián)規(guī)則。

2交互式關(guān)聯(lián)規(guī)則挖掘算法

關(guān)聯(lián)規(guī)則挖掘算法在數(shù)據(jù)庫的記錄或?qū)ο笾谐槿£P(guān)聯(lián)性,展示了數(shù)據(jù)間位置依賴關(guān)系,其目的是尋找在大量的數(shù)據(jù)項(xiàng)中隱藏著的聯(lián)系或相關(guān)性。其優(yōu)越性在于能將用戶的定制信息整合到挖掘過程中,以一種友好的方式引入約束,使挖掘出更加符合用戶需要的信息,并且提高了挖掘的效率和有效性。

2.1目標(biāo)數(shù)據(jù)庫的確定

數(shù)據(jù)挖掘應(yīng)熟悉對象的背景知識(shí),明確挖掘的目標(biāo),根據(jù)目標(biāo)確定相關(guān)數(shù)據(jù),以此作為目標(biāo)數(shù)據(jù)庫,來完成對數(shù)據(jù)的預(yù)處理、挖掘和規(guī)則評價(jià)。

2.2交互式關(guān)聯(lián)規(guī)則挖掘算法

表示A成立則B成立,其中給出了可信度C和支持度S??尚哦菴是對關(guān)聯(lián)規(guī)則準(zhǔn)確度的衡量,即在出現(xiàn)A的情況下出現(xiàn)B的概率;支持度S是對關(guān)聯(lián)規(guī)則重要性的衡量,即A和B同時(shí)出現(xiàn)的概率。

3熔煉機(jī)組數(shù)據(jù)挖掘的實(shí)現(xiàn)

本文采用的是冀某工廠于2013年5月運(yùn)行的數(shù)據(jù),采樣頻率為2~3秒/次,采樣模式為實(shí)時(shí)監(jiān)測值,得到7595組數(shù)據(jù)。在分析階段,對影響機(jī)組的主要可控參數(shù)進(jìn)行了提取及預(yù)處理,參數(shù)主要包括:轉(zhuǎn)速、有功功率、主蒸汽壓力、調(diào)節(jié)級(jí)壓力、中壓缸排汽壓力。以機(jī)組轉(zhuǎn)速設(shè)計(jì)值為3600r/min為例來分析。對各個(gè)可控參數(shù)數(shù)據(jù)進(jìn)行曲線化處理,作為分析它們之間的關(guān)聯(lián)規(guī)則的數(shù)據(jù)表。上述關(guān)聯(lián)規(guī)則表示,在三種負(fù)荷工況下,工廠熔煉機(jī)組有功功率與主蒸汽壓力、調(diào)節(jié)級(jí)壓力、中壓缸排汽壓力三者之間最優(yōu)變化區(qū)間的關(guān)聯(lián)。經(jīng)分析,在機(jī)組中應(yīng)用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)方法相比,優(yōu)點(diǎn)是其可以對不同的可測參數(shù)進(jìn)行挖掘,方法簡單有效、可操作性強(qiáng);運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行挖掘,對過程能夠較靈活控制,處理后的目標(biāo)值直觀,便于操作指導(dǎo)和提高運(yùn)行效率。

4結(jié)論

第6篇

數(shù)據(jù)挖掘技術(shù)是當(dāng)前數(shù)據(jù)分析和處理領(lǐng)域一項(xiàng)十分重要的技術(shù),具體而言數(shù)據(jù)挖掘技術(shù)可以看成是信息技術(shù)不斷發(fā)展和演進(jìn)的結(jié)果,是在人們對于數(shù)據(jù)庫技術(shù)不斷發(fā)展和創(chuàng)新的基礎(chǔ)上發(fā)展而來的。在初期階段,商業(yè)數(shù)據(jù)往往只是簡單的進(jìn)行存儲(chǔ),然后有了對相關(guān)數(shù)據(jù)的查詢功能,再繼續(xù)發(fā)展為對相關(guān)數(shù)據(jù)的即時(shí)遍歷。數(shù)據(jù)挖掘技術(shù)使得數(shù)據(jù)查詢已經(jīng)不僅僅局限于數(shù)據(jù)本身,同時(shí)還可以通過相關(guān)的算法和技術(shù)發(fā)現(xiàn)數(shù)據(jù)之間潛在的關(guān)聯(lián)性,從而在很大程度上增加了數(shù)據(jù)利用的深度和層次。隨著當(dāng)前大數(shù)據(jù)時(shí)代的到來以及高性能計(jì)算機(jī)和數(shù)據(jù)挖掘算法的成熟,數(shù)據(jù)挖掘技術(shù)開始在商業(yè)領(lǐng)域進(jìn)行應(yīng)用,并且取得了快速的發(fā)展。在目前的醫(yī)院信息管理系統(tǒng)中已經(jīng)積累了大量的數(shù)據(jù)信息,因此如何實(shí)現(xiàn)對這一部分信息的深層次數(shù)據(jù)挖掘是至關(guān)重要的,這也將直接決定著醫(yī)院將來的發(fā)展和命運(yùn)。在醫(yī)院信息管理系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘技術(shù)可以在更深層次上對醫(yī)院的管理數(shù)據(jù)進(jìn)行分析,從而可以為醫(yī)院從業(yè)人員的相關(guān)決策、管理以及研究提供更加有力的技術(shù)支持。因此數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息管理系統(tǒng)中的應(yīng)用具有十分重要的意義。在目前的數(shù)據(jù)挖掘技術(shù)中,其關(guān)鍵技術(shù)是數(shù)據(jù)的預(yù)處理。當(dāng)需要進(jìn)行分析的數(shù)據(jù)庫包含大量的噪聲或者存在數(shù)據(jù)不一致性時(shí),數(shù)據(jù)預(yù)處理就顯得更加有必要。根據(jù)對相關(guān)數(shù)據(jù)挖掘過程的統(tǒng)計(jì)顯示,超過一半的時(shí)間用于進(jìn)行數(shù)據(jù)預(yù)處理,而真正用于數(shù)據(jù)信息挖掘的時(shí)間則僅占到10%左右。目前的數(shù)據(jù)預(yù)處理技術(shù)主要分析對數(shù)據(jù)的清洗、集成、轉(zhuǎn)換以及消減等。另一關(guān)鍵技術(shù)是匿名化以及轉(zhuǎn)換技術(shù),這主要是由于在目前的醫(yī)院信息管理中涉及到病人的隱私問題,因此在進(jìn)行數(shù)據(jù)處理的同時(shí)需要對患者的相關(guān)記錄進(jìn)行匿名化處理,以更好的保護(hù)患者的個(gè)人隱私。

2基于數(shù)據(jù)挖掘技術(shù)的醫(yī)院信息管理系統(tǒng)

2.1基于數(shù)據(jù)挖掘技術(shù)的醫(yī)院信息管理系統(tǒng)

關(guān)聯(lián)規(guī)則是目前進(jìn)行數(shù)據(jù)挖掘的重要手段,在醫(yī)院信息管理系統(tǒng)中引入關(guān)聯(lián)規(guī)則可以進(jìn)一步發(fā)現(xiàn)數(shù)據(jù)之間的相互關(guān)聯(lián),并且在對病人的相關(guān)數(shù)據(jù)的分析和進(jìn)一步挖掘過程中,嘗試分析患者年齡與醫(yī)療費(fèi)用之間潛在的關(guān)聯(lián),并且進(jìn)一步通過這種關(guān)聯(lián)關(guān)系加強(qiáng)對醫(yī)院資源的合理優(yōu)化配置,實(shí)現(xiàn)對不同年齡段患者的醫(yī)療費(fèi)用的有效控制,進(jìn)而實(shí)現(xiàn)醫(yī)院效益的最大化。具體而言,將關(guān)聯(lián)數(shù)據(jù)集合記為D{=t1,t2,...tn},tk={i1,i2,im..ip},tk為數(shù)據(jù)庫中的事務(wù),im為數(shù)據(jù)庫中的項(xiàng)。在數(shù)據(jù)集合D中,其包含的集X的項(xiàng)數(shù)為集的支持?jǐn)?shù),將其記為σx,支持度為suppor(tX),則有suppor(tX)=σx/|D|×100%。假設(shè)X和Y為數(shù)據(jù)庫集合D中的項(xiàng)集,則有:假如XY,則有X項(xiàng)的支持度大于Y項(xiàng)的支持度,同時(shí)假如X是非頻繁項(xiàng),則此時(shí)Y項(xiàng)也是非頻繁;則假如Y項(xiàng)是頻繁的,則X項(xiàng)也是頻繁的。在數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則中有兩個(gè)至關(guān)重要的概念,即支持度與置信度。通常而言,支持度只要用于衡量采用的關(guān)聯(lián)規(guī)則的可信度,而置信度則用于表示在生成數(shù)據(jù)集中關(guān)聯(lián)規(guī)則的統(tǒng)計(jì)角色。在實(shí)際的應(yīng)用過程中,假如support(XY)大于支持集,并且置信度大于最小置信度,此時(shí)XY可以稱之為強(qiáng)規(guī)則,否則將其稱之為弱規(guī)則。在數(shù)據(jù)挖掘的過程中,尋找強(qiáng)規(guī)則是整個(gè)數(shù)據(jù)挖掘過程的關(guān)鍵。在強(qiáng)規(guī)則XY所對應(yīng)的項(xiàng)集中,必定存在著頻集?;陉P(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘模型如圖1所示,其中主要包括數(shù)據(jù)集D、關(guān)聯(lián)規(guī)則搜索算法、數(shù)據(jù)挖掘結(jié)果R以及用戶與數(shù)據(jù)挖掘之間的交互,對相關(guān)的數(shù)據(jù)挖掘結(jié)果信息結(jié)果進(jìn)行合理的評價(jià)。在實(shí)際的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘過程中還需要考慮到以下兩個(gè)方面的問題:其一,盡量減少I/O操作的次數(shù),這主要是由于數(shù)據(jù)挖掘過程中的數(shù)據(jù)量是非常大的,因此頻繁的進(jìn)行I/O操作將會(huì)對數(shù)據(jù)挖掘的效率產(chǎn)生很大的影響,其根本的方法就是減少對于數(shù)據(jù)庫集的掃描頻率和次數(shù);其二,避免候選集中項(xiàng)的數(shù)量過大,這主要是由于過多的項(xiàng)數(shù)將會(huì)使得存儲(chǔ)空間被大量占用,從而對數(shù)據(jù)挖掘的效率產(chǎn)生影響。

2.2基于數(shù)據(jù)挖掘技術(shù)的醫(yī)院信息管理系統(tǒng)的實(shí)現(xiàn)

數(shù)據(jù)準(zhǔn)備階段。在研究過程中采用某醫(yī)院信息管理系統(tǒng)中的口腔潰瘍數(shù)據(jù)進(jìn)行挖掘分析,其中數(shù)據(jù)準(zhǔn)備階段主要包括集成、清洗以及轉(zhuǎn)換三個(gè)階段。具體而言,數(shù)據(jù)集成主要是將不同的患者數(shù)據(jù)表格及其費(fèi)用數(shù)據(jù)整合到一起,并且對這些原始數(shù)據(jù)進(jìn)行集成,將其集成到統(tǒng)一的數(shù)據(jù)表格中,其中主要包含患者的性別、年齡以及編號(hào)等信息。數(shù)據(jù)清洗指的是對原始數(shù)據(jù)進(jìn)行進(jìn)一步的處理,其目的是去除原始數(shù)據(jù)中的噪聲以及不相關(guān)信息、補(bǔ)充遺漏數(shù)據(jù)、去除白噪聲等,并且根據(jù)實(shí)際情況完成對原始數(shù)據(jù)的轉(zhuǎn)換。同時(shí),由于醫(yī)院信息數(shù)據(jù)存在著其特殊性,醫(yī)院的數(shù)據(jù)往往產(chǎn)生于不同的場所,因此其產(chǎn)生的過程較為復(fù)雜,這就極易導(dǎo)致數(shù)據(jù)產(chǎn)生的過程中出現(xiàn)遺失或者出現(xiàn)數(shù)據(jù)錯(cuò)誤的情況,因此數(shù)據(jù)清洗階段對于醫(yī)院數(shù)據(jù)挖掘工作是至關(guān)重要的,同時(shí)為了更好的保證數(shù)據(jù)清洗階段的準(zhǔn)確性可以實(shí)行專業(yè)醫(yī)護(hù)人員監(jiān)督的模式,此種模式可以有效的降低數(shù)據(jù)清洗過程中的差錯(cuò)。數(shù)據(jù)轉(zhuǎn)換是針對數(shù)據(jù)的不同特征對數(shù)據(jù)進(jìn)行有效的轉(zhuǎn)換,其中主要的手段包括對數(shù)據(jù)的規(guī)格化處理、數(shù)據(jù)信息歸納、旋轉(zhuǎn)等。結(jié)合實(shí)際的醫(yī)院信息管理系統(tǒng)數(shù)據(jù)挖掘案例,可以對年齡數(shù)據(jù)信息進(jìn)分段編號(hào)處理,以更好的提高數(shù)據(jù)挖掘的效率。同時(shí),在數(shù)據(jù)轉(zhuǎn)換的過程中還可以將一些沒有意義的數(shù)據(jù)進(jìn)行刪減,以更好的保證數(shù)據(jù)挖掘的效率,同時(shí)還可以降低數(shù)據(jù)挖掘的誤差。

3結(jié)束語

第7篇

關(guān)鍵詞:數(shù)據(jù)挖掘電子商務(wù)應(yīng)用

當(dāng)今,國內(nèi)外電子商務(wù)類網(wǎng)站日益興起。許多電子商務(wù)類網(wǎng)站都提供了一定程度的個(gè)性化服務(wù),比如提供商品推薦服務(wù)。而構(gòu)成這些個(gè)性化服務(wù)的基礎(chǔ)就是數(shù)據(jù)挖掘技術(shù)。

一、數(shù)據(jù)挖掘分析

1.數(shù)據(jù)挖掘的定義。數(shù)據(jù)挖掘(datamining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識(shí)的過程。包括存儲(chǔ)和處理數(shù)據(jù),選擇處理大數(shù)據(jù)集的算法、解釋結(jié)果、使結(jié)果可視化。

2.數(shù)據(jù)挖掘的方法。從商業(yè)的角度來看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘的方法大致可以分成4類:關(guān)聯(lián)分析、概括分析、分類分析、聚類分析。(1)關(guān)聯(lián)分析:分析表面上不相關(guān)數(shù)據(jù)之間的內(nèi)在聯(lián)系,揭示各事之間的依賴性和相關(guān)性,分析范圍包括簡單關(guān)聯(lián)、因果關(guān)聯(lián)等。在電子商務(wù)中,用數(shù)據(jù)挖掘找到隱藏的關(guān)聯(lián)規(guī)則,當(dāng)客戶瀏覽、搜索關(guān)聯(lián)規(guī)則中的某種商品時(shí),就可以在頁面中以推薦商品的形式顯示關(guān)聯(lián)規(guī)則中的其它商品。在進(jìn)貨計(jì)劃和促銷計(jì)劃中,也可以將這個(gè)因素考慮進(jìn)去。(2)概括分析:即提取數(shù)據(jù)庫中指定的數(shù)據(jù)集合的一般特性,找出遍性規(guī)律。(3)分類分析:設(shè)置分類規(guī)則,把各個(gè)事務(wù)或?qū)嶓w按照性質(zhì)和特征不同進(jìn)行歸類,把數(shù)據(jù)層次化和規(guī)整化,從而建立數(shù)據(jù)的分類模型。(4)聚類分析:通過分析和歸納實(shí)體之間的特征差異,選出具相識(shí)特征的實(shí)體聚合成為一個(gè)類,并用某種規(guī)則來描述該類的相同屬性,形成一種聚類規(guī)則,實(shí)際上,它是與分類分析法互逆的過程。

3.數(shù)據(jù)挖掘的過程。該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的、可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí)。(1)確定業(yè)務(wù)對象:清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。(2)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)的選擇:搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。(3)數(shù)據(jù)挖掘:對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成。(4)結(jié)果分析:解釋并評估結(jié)果。其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù)。(5)知識(shí)的同化:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

二、數(shù)據(jù)挖掘與電子商務(wù)的關(guān)系

在電子商務(wù)企業(yè)中,數(shù)據(jù)挖掘運(yùn)用于客戶行為分析,企業(yè)從中受益體現(xiàn)在以下四個(gè)方面:(1)可以發(fā)現(xiàn)客戶和訪問者的愛好、生活模式。(2)可以爭取新顧客,怎樣使產(chǎn)品適銷對路、怎樣給產(chǎn)品定價(jià)、怎樣吸引單個(gè)客戶、怎樣優(yōu)化Web網(wǎng)站。(3)可以用相應(yīng)的信息確定顧客的消費(fèi)周期,針對不同的產(chǎn)品制定相應(yīng)的營銷策略。(4)可以確定客戶細(xì)分,為每一個(gè)客戶的獨(dú)特需求設(shè)計(jì)“量身定制”的產(chǎn)品。三、數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用

1.面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)。本系統(tǒng)電子商務(wù)平臺(tái)采用基于三層體系結(jié)構(gòu)構(gòu)建,服務(wù)器端采用先進(jìn)的J2EE平臺(tái)構(gòu)架,有完整的體系框架組成,具有很好的可擴(kuò)展性、互聯(lián)性和可維護(hù)性。因此面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)由數(shù)據(jù)庫服務(wù)器、應(yīng)用服務(wù)器和客戶端三層組成,整個(gè)體系結(jié)構(gòu)是以J2EE企業(yè)級(jí)的構(gòu)建技術(shù)為基礎(chǔ)。對數(shù)據(jù)挖掘過程中產(chǎn)生的數(shù)據(jù),采用獨(dú)立的數(shù)據(jù)挖掘庫表存放,這樣既不影響也不依賴數(shù)據(jù)挖掘的數(shù)據(jù)源。應(yīng)用服務(wù)器完成所有的數(shù)據(jù)挖掘運(yùn)算,通過接受客戶端的設(shè)置,完成所有對數(shù)據(jù)進(jìn)行探索、轉(zhuǎn)換、挖掘的工作。數(shù)據(jù)挖掘系統(tǒng)的每個(gè)功能模塊都以EJB的形式進(jìn)行封裝,以實(shí)現(xiàn)分布式計(jì)算和負(fù)載平衡等分布式計(jì)算的要求,把具有繁重計(jì)算任務(wù)的模塊和用戶交互模塊分開。客戶端要負(fù)責(zé)數(shù)據(jù)挖掘流程的創(chuàng)建工作、所有功能模塊參數(shù)的設(shè)定以及各種可視化結(jié)果的顯示。用戶可以根據(jù)自己的要求任意創(chuàng)建各種形式的挖掘流程,同時(shí)按照需要執(zhí)行某部分流程,獲取相應(yīng)的可視化分析結(jié)果,其系統(tǒng)體系結(jié)構(gòu)如圖所示。

面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu)圖

2.面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)功能設(shè)計(jì)。面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)主要以下幾大功能模塊:(1)用戶信息分析。運(yùn)用分類和聚類挖掘方法對用戶的信息分析,可以得到用戶的些特征。對用戶分類相當(dāng)于對具有某些公共屬性的用戶群體建立了概要特征描述,這些特征可以用來對新增的用戶進(jìn)行分類,可以發(fā)現(xiàn)未來的潛在用戶并開展有針對性的商務(wù)活動(dòng),如自動(dòng)給一類特定的用戶發(fā)送銷售郵件,當(dāng)屬于同一類的用戶再次訪問站點(diǎn)時(shí)為其動(dòng)態(tài)地改變站點(diǎn)的內(nèi)容等。通過這些舉措使商務(wù)活動(dòng)能夠在一定程度上滿足用戶的要求,實(shí)現(xiàn)目標(biāo)營銷。(2)商品信息分析。運(yùn)用關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)商品訪問中所有關(guān)聯(lián)和相聯(lián)系的規(guī)則,可以從交易事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)商品間的相互聯(lián)系。這對電子商務(wù)公司組織站點(diǎn)網(wǎng)頁結(jié)構(gòu)、開展有效的營銷策略非常有幫助。(3)物流信息分析。采用神經(jīng)網(wǎng)絡(luò)預(yù)測技術(shù),根據(jù)各物流配送點(diǎn)接到的網(wǎng)站用戶訂單來預(yù)測其庫存數(shù)量。預(yù)測信息可以給物流配送中心以參考,用來合理地確定各配送點(diǎn)倉庫的庫存量,使各配送點(diǎn)的補(bǔ)貨能更加合理有序,降低物流成本,節(jié)約庫存費(fèi)用。

四、結(jié)束語

數(shù)據(jù)挖掘是一個(gè)新興的領(lǐng)域,具有廣闊應(yīng)用前景,目前,電子商務(wù)在我國正處于快速發(fā)展和應(yīng)用階段,利用數(shù)據(jù)挖掘技術(shù),能夠強(qiáng)化對客戶的服務(wù)、促進(jìn)市場最優(yōu)化、加速資金周轉(zhuǎn)、實(shí)現(xiàn)企業(yè)的創(chuàng)新發(fā)展。電子商務(wù)平臺(tái)上的數(shù)據(jù)挖掘技術(shù)有待人們?nèi)ミM(jìn)行更深入的研究工作,這將不斷的推動(dòng)數(shù)據(jù)挖掘技術(shù)的深入發(fā)展和廣泛應(yīng)用,創(chuàng)造出更多的社會(huì)和經(jīng)濟(jì)價(jià)值。

參考文獻(xiàn):

[1]張?jiān)茲忊?數(shù)據(jù)挖掘原理與技術(shù).北京,電子工業(yè)出版社,2004年1月

[2]方真等:電子商務(wù)教程[M].北京:清華大學(xué)出版社.2004

第8篇

現(xiàn)有的醫(yī)院數(shù)據(jù)挖掘主要是從兩個(gè)方面進(jìn)行的,一個(gè)是從功能的角度,而另一個(gè)是從數(shù)據(jù)對象的角度進(jìn)行的。

(一)從功能角度

常用的數(shù)據(jù)挖掘可以分為統(tǒng)計(jì)分析、知識(shí)發(fā)現(xiàn)、和其他的數(shù)據(jù)挖掘技術(shù)這三類。

1.統(tǒng)計(jì)分析

統(tǒng)計(jì)分析是指運(yùn)用統(tǒng)計(jì)方法及與分析對象有關(guān)的知識(shí),從定量與定性的結(jié)合上進(jìn)行的研究活動(dòng)。在醫(yī)療數(shù)據(jù)挖掘中的應(yīng)用中,可對病人的各種醫(yī)學(xué)影像進(jìn)行自動(dòng)分析、對在院病人的監(jiān)護(hù)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析、分析中醫(yī)診斷和方劑、疾病危險(xiǎn)成因的研究等。

2.知識(shí)發(fā)現(xiàn)

它是一種間接地從數(shù)據(jù)中提取信息的方法,而且這些信息并不是直觀展現(xiàn)的。如通過關(guān)聯(lián)分析的方式來分析藥物治療的效果和預(yù)測手術(shù)術(shù)后的情況,可以分析某種疾病的發(fā)病因素,從而指導(dǎo)病人如何加強(qiáng)對該疾病的預(yù)防??梢酝ㄟ^患者的各項(xiàng)生化結(jié)果進(jìn)行分析,從結(jié)果的相互關(guān)系中得出比較準(zhǔn)確的預(yù)防與治療方案。

3.其他類型

隨著互聯(lián)網(wǎng)、數(shù)據(jù)庫等技術(shù)的發(fā)展,還出現(xiàn)了一些其他數(shù)據(jù)挖掘技術(shù)。如文本挖掘技術(shù)、Web挖掘技術(shù)、分類分析技術(shù)、分布式數(shù)據(jù)挖掘技術(shù)等。

(二)從數(shù)據(jù)對象的角度

按照不同的數(shù)據(jù)類型,數(shù)據(jù)挖掘通過時(shí)間序列、空間、文本、等方面進(jìn)行挖掘。如從時(shí)間的角度,對醫(yī)院門診及住院患者的數(shù)量進(jìn)行預(yù)測以判斷病人的變化量是季節(jié)性的還是因?yàn)槠渌颉?/p>

(三)從應(yīng)用層面的角度

醫(yī)院的數(shù)據(jù)挖掘可分為診療信息挖掘和管理信息挖掘。

1.診療信息挖掘

診療信息挖掘主要目的是通過對患者在醫(yī)院當(dāng)中的診療信息進(jìn)行分析,從而建立起對患者有針對性的診療方案。如通過對慢性病人長期的住院信息,我們可以分析出病人的發(fā)病周期,分析其發(fā)病規(guī)律,從而做出有效的預(yù)防診療方案。

2.管理信息挖掘:

(1)財(cái)務(wù)管理

通過對病人費(fèi)用的分析,我們可以得出病人各項(xiàng)費(fèi)用的組成比例,從而分析各個(gè)科室內(nèi)各種病人的費(fèi)用組成,從而能針對性的控制各個(gè)科室的費(fèi)用比例。使醫(yī)院管理部門能有效的控制醫(yī)療費(fèi)用。通過對不同時(shí)期的費(fèi)用進(jìn)行對比分析,可以按不同時(shí)間對各個(gè)科室的各種費(fèi)用進(jìn)行對比分析,并通過可視化技術(shù),直觀的展現(xiàn)出其變化趨勢,從而使得醫(yī)院的管理者能直觀的看到醫(yī)院的歷史變化,幫助其對醫(yī)院的長期發(fā)展做出一定的判斷。通過數(shù)據(jù)挖掘?qū)︶t(yī)院內(nèi)部的各種物資設(shè)備,資產(chǎn)負(fù)債進(jìn)行匯總,從而對醫(yī)院的盈利、負(fù)債狀況進(jìn)行分析,以便醫(yī)院管理者能真正把握醫(yī)院的經(jīng)營狀況,能正確的對醫(yī)院的經(jīng)營成本進(jìn)行全面分析。以便把握醫(yī)院的真實(shí)情況,從而提高醫(yī)院的經(jīng)濟(jì)效益。例如:通過對醫(yī)院資金的運(yùn)行情況進(jìn)行分析,可以有效的了解醫(yī)院資金的流向及醫(yī)院當(dāng)前的財(cái)務(wù)狀況,從而規(guī)避一些醫(yī)院的運(yùn)營風(fēng)險(xiǎn)。通過數(shù)據(jù)挖掘?qū)Ω黝愥t(yī)保病人的分析,可以有效掌握各類醫(yī)保病人的構(gòu)成,及醫(yī)保資金的運(yùn)行情況。通過分析病人的收治人數(shù)及住院天數(shù),并結(jié)合醫(yī)保資金的使用進(jìn)度??梢栽卺t(yī)保費(fèi)用定額的情況下,更好的指導(dǎo)醫(yī)院各個(gè)科室,收治各類醫(yī)保病人,提供更好的醫(yī)療服務(wù)。

(2)醫(yī)療質(zhì)量管理

如利用數(shù)據(jù)挖掘技術(shù)對住院患者的各項(xiàng)住院數(shù)據(jù)進(jìn)行分析,如住院天數(shù)、質(zhì)量費(fèi)用、診療方案等,從而為醫(yī)院的質(zhì)量管理通過方案,縮短病人的住院時(shí)間,減少病人的住院費(fèi)用。通過總結(jié)滅菌工作與消毒效果的規(guī)律,加強(qiáng)對手術(shù)室感染工作的管理。通過對手術(shù)室及各科室無菌物品及消毒器械的使用進(jìn)行動(dòng)態(tài)監(jiān)測從而掌握并加強(qiáng)手術(shù)室及各科室的院感管理。通過對醫(yī)院信息管理系統(tǒng)中各科室的藥品用量,用時(shí)間序列的方式進(jìn)行分析,從而得出各科室的藥品用量消耗趨勢,并進(jìn)一步指導(dǎo)科室用藥,為臨床科研提供更多有價(jià)值的資料。通過數(shù)據(jù)挖掘能夠有效地對抗生素的使用進(jìn)行有效的管理,并通過對病人使用過程中相關(guān)信息的采集,提前、分析。對抗生素的耐藥性、用量及治療效果能有一個(gè)動(dòng)態(tài)的實(shí)時(shí)監(jiān)控,從而有效的監(jiān)測抗生素的使用情況。

(3)醫(yī)院經(jīng)營目標(biāo)管理

通過對住院患者的職業(yè)、性別、年齡、地區(qū)等分布情況進(jìn)行分析,可以得到不同類型患者的醫(yī)療需求類型,經(jīng)濟(jì)狀況等信息,掌握患者差異對醫(yī)院收入的影響。從而能針對行的采取措施來提供服務(wù)質(zhì)量,增加門診及住院量。再比如通過分析門診病人的就診流程的時(shí)間及住院患者從入院到出院的各個(gè)就醫(yī)環(huán)節(jié)的時(shí)間分布。分析出患者的就醫(yī)瓶頸,掌握影響患者診療效率的因素,以便能針對這些因素采取措施來幫助醫(yī)院管理者進(jìn)行業(yè)務(wù)流程的更新和改進(jìn),提高患者的就診效率。

(4)經(jīng)營決策管理

通過對患者的季節(jié)性分布進(jìn)行分析,來預(yù)測未來時(shí)期門診及住院的人次。從而使醫(yī)院管理者能有效的分配醫(yī)院資源,有針對性的改善醫(yī)院診療服務(wù)項(xiàng)目。實(shí)現(xiàn)對醫(yī)院人員、設(shè)施的合理配置。

(5)醫(yī)院資源管理

充分利用數(shù)據(jù)挖掘技術(shù)對醫(yī)院各個(gè)科室的各項(xiàng)數(shù)據(jù)進(jìn)行綜合分析,從而制定出針對各科室的各種合理指標(biāo)。并從中分析出各科室的薄弱環(huán)節(jié),并采取相應(yīng)的措施,以提高科室的綜合水平。在采購醫(yī)療設(shè)備并投入使用后,可對其使用情況及效果進(jìn)行分析,實(shí)現(xiàn)對醫(yī)療設(shè)備從采購到報(bào)廢的全程決策支持,使醫(yī)院醫(yī)療設(shè)備的全部使用周期都能被管理者統(tǒng)籌管理,從而較好的解決醫(yī)療設(shè)備效益、代價(jià)、風(fēng)險(xiǎn)等互相制約的管理難題,充分發(fā)揮醫(yī)療設(shè)備的社會(huì)效益和經(jīng)濟(jì)效益。

二、結(jié)論

第9篇

1.1分布式框架下的圖計(jì)算工具

1.1.1Pregel為了解決MapReduce在一些機(jī)器學(xué)習(xí)算法中性能瓶頸問題,Google針對大規(guī)模圖運(yùn)算提出了Pregel框架,它是嚴(yán)格的BSP(bulksynchronousparallel)模型(BSP模型,即“大塊”同步模型,其概念由哈佛大學(xué)的Valiant和牛津大學(xué)的BillMcColl提出,是一種異步MIMD-DM模型,支持消息傳遞系統(tǒng),塊內(nèi)異步并行,塊間顯式同步),采用“計(jì)算-通信-同步”模式面向頂點(diǎn)的迭代方式完成機(jī)器學(xué)習(xí)的數(shù)據(jù)同步,這種靈活的面向頂點(diǎn)的方法和高效的容錯(cuò)機(jī)制的設(shè)計(jì)模式可以描述一系列的算法,并在有上千臺(tái)的計(jì)算節(jié)點(diǎn)的集群中得以實(shí)現(xiàn)。在集群環(huán)境中,從遠(yuǎn)程機(jī)器上讀取數(shù)據(jù)難以避免地會(huì)有延遲,Pregel選擇了一種純消息傳遞的模式,通過異步和批量的方式傳遞消息,通過共享內(nèi)存的方式,有效地緩解了遠(yuǎn)程讀取數(shù)據(jù)的延遲,提升了集群的性能,并且Pregel應(yīng)用一組抽象的API隱藏了分布式編程的相關(guān)細(xì)節(jié),展現(xiàn)給使用者一個(gè)易編程和易使用的大型圖算法處理計(jì)算框架。但是Google一直沒有將Pregel的具體實(shí)現(xiàn)開源,外界對Pregel的模仿實(shí)現(xiàn)在性能和穩(wěn)定性方面都未能達(dá)到工業(yè)級(jí)應(yīng)用的標(biāo)準(zhǔn)。同時(shí),在圖計(jì)算中,由于圖的頂點(diǎn)、邊密度的不平衡性的特點(diǎn),帶來BSP模型的“木桶效應(yīng)”(木桶效應(yīng)是由美國管理學(xué)家彼得提出的,本文指的是先完成的任務(wù)需要等待后完成的任務(wù),處理速度最慢的任務(wù)將成為整個(gè)系統(tǒng)的效率制約瓶頸)的限制,網(wǎng)絡(luò)、計(jì)算機(jī)硬件中的差異性也會(huì)使這種現(xiàn)象更加明顯。

1.1.2SparkSpark是UCBerkeleyAMP實(shí)驗(yàn)室開發(fā)的通用的并行計(jì)算框架,是Pregel的優(yōu)化模型,它是基于MapReduce算法實(shí)現(xiàn)的分布式計(jì)算框架。Spark擁有MapReduce所具有的優(yōu)點(diǎn),但不同于MapReduce的是,Spark采用了一種彈性分布式數(shù)據(jù)集(resilientdistributeddataset,RDD)的抽象數(shù)據(jù)結(jié)構(gòu),Spark是一個(gè)基于內(nèi)存計(jì)算的開源的集群計(jì)算系統(tǒng)。RDD是一個(gè)具有容錯(cuò)機(jī)制的特殊集合,它提供了一種抽象的數(shù)據(jù)架構(gòu),使用RDD邏輯轉(zhuǎn)換而來的可重復(fù)使用的共享內(nèi)存,而不再需要反復(fù)讀寫HDFS,解決了MapReduce框架在迭代計(jì)算式中要進(jìn)行大量磁盤I/O操作的問題,這讓數(shù)據(jù)分析更加快速,為構(gòu)建低延遲的并行性大數(shù)據(jù)分析處理框架提供了穩(wěn)定的基礎(chǔ)。同時(shí),Spark提供了REPL(read-eval-printloop)的交互式查詢以及函數(shù)式編程,支持圍繞RDD抽象的API,同時(shí)包括一套transformation(轉(zhuǎn)化)和action(動(dòng)作)操作以及針對大量流行編程語言的支持,比如Scala、Java和Python。在圖計(jì)算方面,Spark原生的Bagel以及Graphx提供了對于圖操作的API,為大規(guī)模的圖計(jì)算提供了低延遲,負(fù)責(zé)優(yōu)化交互式的大規(guī)模并行處理框架,但是Spark的磁盤索引是簡單的靜態(tài)機(jī)制,無法隨著迭代狀態(tài)的變化而動(dòng)態(tài)優(yōu)化。

1.1.3GraphlabGraphlab是CMU的Select實(shí)驗(yàn)室提出的基于內(nèi)存共享機(jī)制且面向機(jī)器學(xué)習(xí)的流處理并行框架,它的分布式處理是基于MPI(messagepassinginterface,消息傳遞接口)實(shí)現(xiàn)的,并且將數(shù)據(jù)抽象成圖結(jié)構(gòu),它是以圖的頂點(diǎn)為計(jì)算單元的大規(guī)模圖處理系統(tǒng),支持稀疏的計(jì)算依賴異步迭代計(jì)算等,解決了MapReduce不適應(yīng)需要頻繁數(shù)據(jù)交換的迭代機(jī)器學(xué)習(xí)算法問題,是繼Google的Pregel之后的第一個(gè)開源的大規(guī)模圖處理系統(tǒng)。Graphlab的核心思想是“以圖頂點(diǎn)的方式思考問題”,以最小化集群計(jì)算節(jié)點(diǎn)之間的通信量和均衡計(jì)算節(jié)點(diǎn)上的計(jì)算和存儲(chǔ)資源為原則,對圖的頂點(diǎn)進(jìn)行切分。類似于MapReduce中的map和reduce過程,它將機(jī)器學(xué)習(xí)抽象成GAS(gather(收集)、apply(運(yùn)算)、scatter(更新))3個(gè)步驟,然后按該抽象模型設(shè)計(jì)頂點(diǎn)程序?qū)崿F(xiàn)算法。在gather階段,當(dāng)前點(diǎn)收集鄰接點(diǎn)和邊的值,結(jié)合自身的值,進(jìn)行簡單的用戶定義的sum(求和)操作;在apply階段,當(dāng)前點(diǎn)根據(jù)sum得到的值及其前一時(shí)刻自身的值計(jì)算新的點(diǎn)值;scatter階段當(dāng)前點(diǎn)利用自己的新值,結(jié)合鄰接點(diǎn)/邊前一時(shí)刻的值來計(jì)算鄰接邊的新值,并更新鄰接邊。GraphLab的算法被應(yīng)用于很多推薦系統(tǒng),也包括銀行的欺詐偵測和電腦網(wǎng)絡(luò)中的入侵偵測等領(lǐng)域。

1.1.4PowerGraphPowerGraph是卡內(nèi)基梅隆大學(xué)設(shè)計(jì)的一種強(qiáng)大的圖計(jì)算分布式并行框架,它結(jié)合了Graphlab和Pregel關(guān)于圖計(jì)算的優(yōu)點(diǎn),有效改善了Pregel和Graphlab等框架的并行化受限于頂點(diǎn)的鄰居個(gè)數(shù)的問題?,F(xiàn)實(shí)世界中的圖,都是典型的Power-Law(冪律)分布圖,其中少部分頂點(diǎn)連接到圖中大部分的頂點(diǎn)上,這種圖的劃分對于并行的分布式框架來說是一個(gè)非常大的難題,并且圖的劃分效率直接影響系統(tǒng)的通信開銷。一般的并行框架采用的是散列隨機(jī)分配方案,但這種方案沒有考慮局部性,劃分完成后各任務(wù)負(fù)責(zé)的子圖之間的強(qiáng)耦合性導(dǎo)致后續(xù)的迭代計(jì)算過程產(chǎn)生大量的消息通信,嚴(yán)重影響負(fù)載均衡。PowerGraph使用了支持同步處理和異步處理機(jī)制的GAS模型,并且提出了一種P-路頂點(diǎn)切割分區(qū)方案,在減少計(jì)算中通信量的同時(shí)保證了負(fù)載均衡,很好地解決了圖的Power-Law問題。

1.2單機(jī)圖計(jì)算工具——Graphchi除了以上介紹的分布式圖計(jì)算框架外,還可以使用單機(jī)的圖算法庫,如BGL、LEAD、NetworkX、JDSL、StandfordGraphBase、FGL等進(jìn)行圖的挖掘和計(jì)算,但這種單機(jī)的方式由于內(nèi)存限制的原因,對圖本身的規(guī)模有了很大的限制[2]。為解決單機(jī)圖計(jì)算的內(nèi)存瓶頸問題,卡內(nèi)基梅隆大學(xué)的Select實(shí)驗(yàn)室開發(fā)了Graphchi,它是Graphlab的一個(gè)分支,采用基于磁盤的以頂點(diǎn)為中心的計(jì)算模型,它可以在PC上進(jìn)行大規(guī)模的類似于社會(huì)網(wǎng)絡(luò)分析的圖計(jì)算,而不需要分布式的集群和云服務(wù),也不需要考慮內(nèi)存的限制。

1.2.1基于磁盤的計(jì)算要想利用單機(jī)而不利用集群來并行地進(jìn)行大規(guī)模的圖計(jì)算,首當(dāng)其沖面臨的是存儲(chǔ)問題。龐大的圖數(shù)據(jù)在內(nèi)存中處理上百萬條邊需要幾十或幾百吉字節(jié)的DRAM,因?yàn)槠鋬r(jià)格昂貴,目前只對高端服務(wù)器有可用性,所以Graphchi將目光投向了價(jià)格低廉、容量大的磁盤作為其外部存儲(chǔ),用基于磁盤的計(jì)算模型減少內(nèi)存的使用和隨機(jī)存取問題。然而,如何從磁盤上處理大規(guī)模的圖數(shù)據(jù)是一個(gè)難題。為了處理這個(gè)問題,Graphchi采用了新穎的PSW(parallelslidingwindow,并行式滑動(dòng)窗口)模型,從磁盤上處理大的圖數(shù)據(jù)。

1.2.2PSW模型Graphchi采用了PSW模型從磁盤處理大的圖數(shù)據(jù),不同于分布式框架通用的BSP模型,PSW模型能夠異步處理存儲(chǔ)在硬盤上的可擴(kuò)展圖數(shù)據(jù),有效規(guī)避了“木桶效應(yīng)”。PSW模型中,邊的信息分區(qū)shard采用不相交子集(頂點(diǎn)集被分為P個(gè)子集interval(i))的形式關(guān)聯(lián)存儲(chǔ),這種存儲(chǔ)方式將每個(gè)子集以滑動(dòng)窗口的形式分別從硬盤裝入內(nèi)存。Graphchi分多次取節(jié)點(diǎn)子集interval(i),每次取1個(gè),并且根據(jù)節(jié)點(diǎn)子集中的點(diǎn)信息構(gòu)造子圖進(jìn)行計(jì)算。在第p次操作所需的子圖數(shù)據(jù)載入后,每個(gè)節(jié)點(diǎn)并行地執(zhí)行用戶定義的更新函數(shù),并更新節(jié)點(diǎn),節(jié)點(diǎn)子集更新后的塊文件將被寫入磁盤。圖2表示PSW模型進(jìn)行一次迭代的滑動(dòng)窗口示意,頂點(diǎn)被分為4個(gè)不相交的子集,每個(gè)自己都關(guān)聯(lián)一個(gè)分區(qū),計(jì)算過程是構(gòu)建一次子圖頂點(diǎn)的子集。從內(nèi)存的分區(qū)中讀取頂點(diǎn)的入邊,從每個(gè)滑動(dòng)的分區(qū)中讀取出邊,每個(gè)分區(qū)的最頂端為當(dāng)前的滑動(dòng)窗口。

1.2.3Graphchi基于PSW模型的改進(jìn)為了支持Graphchi的可擴(kuò)展性,Graphchi對PSW模型進(jìn)行了改進(jìn),通過實(shí)現(xiàn)一個(gè)簡化的、高效的I/O緩存樹來支持圖邊的增加和刪除,改進(jìn)的PSW模型如圖3所示。

2Graphchi應(yīng)用前景

2.1分布式圖計(jì)算局限性基于圖的分布式框架通過云平臺(tái)的計(jì)算資源處理上百萬條邊的圖數(shù)據(jù)有很高的效率,但是利用分布式集群進(jìn)行圖計(jì)算仍然面臨較高的硬件和技術(shù)要求,對于那些沒有分布式專業(yè)背景、沒有足夠的硬件資源的人來說,仍然是個(gè)巨大的挑戰(zhàn)。首先,使用分布式框架時(shí),使用者面臨如何將強(qiáng)耦合性的圖數(shù)據(jù)進(jìn)行分割,部署到集群計(jì)算節(jié)點(diǎn)上的問題[3]。其次,圖的分布式計(jì)算涉及復(fù)雜的處理過程,需要大量的迭代和數(shù)據(jù)通信,大多數(shù)分布式系統(tǒng)用到的是BSP模型,是一種同步計(jì)算模型,對于消息的處理容量有限,網(wǎng)絡(luò)的延遲以及節(jié)點(diǎn)間的通信會(huì)造成“木桶效應(yīng)”。再次,分布式框架處理需要計(jì)算耗時(shí)的大規(guī)模圖數(shù)據(jù)時(shí),重復(fù)計(jì)算以及系統(tǒng)故障使效率大大降低,同時(shí)系統(tǒng)的容錯(cuò)性也是制約運(yùn)算效率和穩(wěn)定性的關(guān)鍵瓶頸。最后,對于編程者來說,調(diào)試和優(yōu)化分布式算法有很大的難度。相對于復(fù)雜的分布式集群框架來說,簡單的單機(jī)進(jìn)行大規(guī)模的圖計(jì)算,能夠規(guī)避分布式框架的問題。使用者不需考慮強(qiáng)耦合性的圖數(shù)據(jù)如何分割放置到分布式的集群節(jié)點(diǎn)中,也不需管理和部署眾多的集群節(jié)點(diǎn),并且可以減少分布式集群節(jié)點(diǎn)中的通信開銷,規(guī)避網(wǎng)絡(luò)延遲、“木桶效應(yīng)”等問題。例如,企業(yè)如果想要在同一張圖上計(jì)算多種任務(wù)(個(gè)性化推薦、圖的社團(tuán)發(fā)現(xiàn)等),在不同的國家、不同的利益集團(tuán)都要計(jì)算同一個(gè)任務(wù)的情況下,企業(yè)要想提高運(yùn)算速度,就必須要增加集群節(jié)點(diǎn),也就是說要增加成本。但是,如果一臺(tái)機(jī)器上可以處理一個(gè)這樣的大任務(wù),企業(yè)可以為每臺(tái)機(jī)器分配一個(gè)任務(wù),每臺(tái)機(jī)器之間無需互相通信,當(dāng)增加機(jī)器數(shù)量時(shí),吞吐量也隨之增加,這樣多種任務(wù)的處理將會(huì)變得非常簡單、有效。僅僅需要一臺(tái)機(jī)器就可以對大規(guī)模的圖數(shù)據(jù)進(jìn)行分析處理和挖掘,這可以大大簡化分布式集群處理框架的復(fù)雜性,如圖5所示。本文對單機(jī)處理圖數(shù)據(jù)技術(shù)Graphchi的發(fā)展、應(yīng)用場景以及性能進(jìn)行了研究,并進(jìn)行了試驗(yàn)。

2.2單機(jī)Graphchi應(yīng)用前景在圖挖掘方面,Graphchi實(shí)現(xiàn)了PageRank、連通分支、社區(qū)發(fā)現(xiàn)等算法處理和分析現(xiàn)實(shí)世界中大規(guī)模的圖數(shù)據(jù);另外,應(yīng)用在協(xié)同過濾算法的推薦系統(tǒng)中,Graphchi從紛繁復(fù)雜的信息中找出可向用戶推薦的有價(jià)值的信息。不僅在圖挖掘和協(xié)同過濾方面,Graphchi還提供了通用的編程框架,支持使用者調(diào)用自己的算法對圖進(jìn)行分析和計(jì)算,這使得Graphchi使用起來更加靈活,也有更加個(gè)性化的可用性。當(dāng)前Graphchi中一些應(yīng)用的算法設(shè)計(jì)還不盡完善,但是隨著技術(shù)的發(fā)展以及應(yīng)用的普及,Graphchi因其在圖計(jì)算方面獨(dú)特的模型,其單機(jī)運(yùn)行的簡便、高可用和可觀的運(yùn)行效率,將在大規(guī)模圖計(jì)算方面表現(xiàn)出越來越廣闊的應(yīng)用前景。為了驗(yàn)證Graphchi在不同硬件環(huán)境下,不同數(shù)量級(jí)別社交網(wǎng)絡(luò)圖數(shù)據(jù)應(yīng)用中的可行性和可用性,下文對不同數(shù)量級(jí)的數(shù)據(jù)在兩種不同的環(huán)境進(jìn)行了相應(yīng)的測試,并且和其他分布式框架進(jìn)行了對比。

3Graphchi的可行性、可用性評估實(shí)驗(yàn)

3.1測試環(huán)境•Intel(R)Core(TM)2DuoCPUT6600@2.20GHz、RAM2GB、Ubuntu11.04。•Dell服務(wù)器QEMUVirtualCPUVersion(cpu64-rhel6)6核CPU、4GB內(nèi)存(未特殊注明,本文中數(shù)據(jù)測試環(huán)境均為服務(wù)器環(huán)境)、CentOS6.4。

3.2數(shù)據(jù)集說明本文采用的數(shù)據(jù)集來自斯坦福的Snap網(wǎng)站[4]以及Netflix網(wǎng)站。測試的數(shù)據(jù)集為Wiki、Twitter、Facebook、Friendster等流行的社交網(wǎng)站,數(shù)據(jù)集大小為40MB~30GB。表1是對實(shí)驗(yàn)中使用到的測試數(shù)據(jù)集的說明,其中|V|表示測試數(shù)據(jù)集的頂點(diǎn)數(shù)目,|E|表示測試數(shù)據(jù)集邊的數(shù)目。

3.3Graphchi測試結(jié)果圖6表示的是PageRank和CommunityDetection兩種算法對除Netflix數(shù)據(jù)集外所有數(shù)據(jù)集進(jìn)行的測試,X軸表示邊集的數(shù)量,Y軸表示對應(yīng)的運(yùn)行時(shí)間。從圖中可以看出,對于兩種不同算法,隨著數(shù)據(jù)集的增大,運(yùn)行時(shí)間大體呈線性增長。圖7表示PageRank和CommunityDetection兩種算法以及CommunityDetection分別在4次和10次迭代過程中,吞吐量隨邊數(shù)的變化。X軸為邊集的數(shù)量,Y軸表示吞吐量(系統(tǒng)每秒處理邊的數(shù)量)。Graphchi每秒可以處理的邊的數(shù)量為0.2×106~2×106個(gè)。Graphchi測試Twitter2010年所有的user-follower關(guān)系,14億條邊、4千萬個(gè)頂點(diǎn)共20GB的數(shù)據(jù),PageRank算法需要46min,CommunityDetection算法10次迭代需要70min,Trianglecounting算法需要130min;測試在線游戲Friendster,18億個(gè)頂點(diǎn)、6千萬條邊共30GB的數(shù)據(jù)集com-friendster.ungraph,PageRank算法4次迭代需要54min??梢姡珿raphchi可以在1h左右完成對社交網(wǎng)絡(luò)一年數(shù)據(jù)的分析。這種處理能力完全可以滿足使用者對大規(guī)模圖數(shù)據(jù)進(jìn)行計(jì)算的需求,并且具有較好的吞吐量。圖8表示的是Graphchi測試兩種數(shù)據(jù)集smallNetflix和Netflix協(xié)同過濾的7種算法進(jìn)行6次迭代的運(yùn)行時(shí)間。X軸表示7種協(xié)同過濾算法:SGD、ALS、RBM、SVD++、biasSGD、CCD++和PMF,Y軸對應(yīng)的是各種算法的運(yùn)行時(shí)間。Graphchi在協(xié)同過濾中的運(yùn)行時(shí)間最長為450s,Netflix數(shù)據(jù)集的時(shí)間不超過300s。圖9表示的是SGD算法運(yùn)行50次迭代的運(yùn)行時(shí)間以及RSME(rootsquaremeanerror)均方差的變化曲線。迭代20次時(shí),算法的RSME已經(jīng)趨于穩(wěn)定,無限接近于0.92,而此時(shí)的運(yùn)行時(shí)間約為350s??梢?,Graphchi在協(xié)同過濾方面表現(xiàn)出良好的性能,可以在幾百秒的時(shí)間內(nèi)處理2GB規(guī)模的數(shù)據(jù)。圖10表示的是PageRank、CommunityDetection和ConnectedComponents3種算法,wiki-Talk和com-orkut兩種測試集分別在2核CPU和6核CPU上運(yùn)行時(shí)間的對比。X軸表示運(yùn)行時(shí)間,Y軸表示3種算法以及兩種數(shù)據(jù)集。從圖10中可以看出,在相同數(shù)據(jù)集上6核CPU的運(yùn)行時(shí)間要比2核CPU運(yùn)行時(shí)間快了近10倍。圖11表示的是協(xié)同過濾的3種算法,Netflix測試集分別在2核CPU和6核CPU上運(yùn)行時(shí)間的對比。X軸表示運(yùn)行時(shí)間,Y軸表示協(xié)同過濾4種不同算法。Netflix數(shù)據(jù)集在6核CPU上的運(yùn)行時(shí)間比在2核CPU上的運(yùn)行時(shí)間快了5~10倍。圖11表示協(xié)同過濾4種算法在不同核數(shù)CPU運(yùn)行時(shí)間的對比。隨著CPU數(shù)目的增加,運(yùn)行速度也有明顯的提升。相信在配置更高的單機(jī)上運(yùn)行Graphchi將會(huì)有更加可觀的性能。

3.4可行性、可用性分析對比本文對比了一些分布式的圖處理框架,參考了一些其他文章的測試結(jié)果,見表2。在有50個(gè)節(jié)點(diǎn)、100個(gè)CPU的Spark框架下,在Twitter-2010數(shù)據(jù)集上運(yùn)行5次迭代的PageRank算法的時(shí)間比Graphchi在4核CPU的環(huán)境中運(yùn)行相同數(shù)據(jù)集快了大約5倍。在有1636個(gè)節(jié)點(diǎn)的Hadoop框架運(yùn)行Twitter-2010數(shù)據(jù)集的PageRank算法迭代一次,Graphchi比Hadoop快45倍,比Powergraph慢了155倍。與運(yùn)行在AMD服務(wù)器上的Graphlab相比,用ALS算法測試Netflix數(shù)據(jù)集,Graphchi運(yùn)行時(shí)間是Graphlab的2.5倍。Trianglecounting算法測試Twitter-2010數(shù)據(jù)集在1636個(gè)節(jié)點(diǎn)的Hadoop環(huán)境,Graphchi比Hadoop快了3倍。相對于Hadoop來說,Graphchi的大規(guī)模圖數(shù)據(jù)方面的性能遠(yuǎn)優(yōu)于Hadoop;在協(xié)同過濾方面,Graphchi和Graphlab性能相差不大;與性能較好的Spark相比,Graphchi的性能表現(xiàn)也在可以接受的范圍內(nèi);對于性能強(qiáng)大的Powergraph,Graphchi性能還是有一些差距??傮w來說,Graphchi以單機(jī)運(yùn)行方式進(jìn)行圖運(yùn)算所表現(xiàn)出的性能可以和一些分布式的框架相媲美,雖然不及性能強(qiáng)大的Powergraph,但是這樣的性能表現(xiàn)已經(jīng)可以滿足一定規(guī)模的圖運(yùn)算了。這樣的性能表現(xiàn)已足以為成本不足、硬件設(shè)備配置不高的中小企業(yè)或者個(gè)人提供高可行、高可用的社交關(guān)系網(wǎng)絡(luò)圖數(shù)據(jù)分析和挖掘平臺(tái)。

4Graphchi電信圖數(shù)據(jù)挖掘應(yīng)用

為驗(yàn)證Graphchi對電信大規(guī)模圖數(shù)據(jù)的處理能力,本文構(gòu)造了電信通話清單數(shù)據(jù)約20GB,有4000萬個(gè)頂點(diǎn)、14億條邊(已對數(shù)據(jù)進(jìn)行匿名處理),格式見表3。

4.1PageRank算法挖掘核心人物PageRank算法是Google用于用來標(biāo)識(shí)網(wǎng)頁的等級(jí)/重要性的一種方法,是Google用來衡量一個(gè)網(wǎng)站好壞的唯一標(biāo)準(zhǔn)。它基于馬爾科夫狀態(tài)轉(zhuǎn)移理論,通過網(wǎng)頁的鏈入數(shù)對網(wǎng)頁進(jìn)行投票來得出重要性排名。發(fā)展到目前,PageRank算法也被廣泛用于關(guān)鍵人物挖掘等社交關(guān)系網(wǎng)絡(luò)分析中。本文應(yīng)用Graphchi的Pagerank算法,對電信關(guān)系網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行Rank值的計(jì)算,從而找出關(guān)鍵人物。表4是采用Graphchi的Pagerank算法對電信數(shù)據(jù)集進(jìn)行計(jì)算Rank值的排名前10的結(jié)果,在4000萬個(gè)用戶中,標(biāo)號(hào)為1653的用戶的重要性最高,為核心用戶,應(yīng)該對其重點(diǎn)挖掘和營銷推廣。

4.2CommunityDetection算法進(jìn)行社區(qū)發(fā)現(xiàn)CommunityDetection社區(qū)發(fā)現(xiàn)算法用于發(fā)現(xiàn)網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),也可以看作是一種聚類算法。同一社區(qū)之間的節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系比較緊密,而社區(qū)與社區(qū)之間的關(guān)系比較稀疏。如果兩者之間的聯(lián)系越頻繁,那么其社交關(guān)系就越緊密。如圖12所示,可以找到3個(gè)關(guān)系緊密的社區(qū)。表5為采用Graphchi的CommunityDetection算法對電信數(shù)據(jù)集進(jìn)行社團(tuán)發(fā)現(xiàn)的結(jié)果,共發(fā)現(xiàn)社區(qū)1733613個(gè),最大社區(qū)有35558616個(gè)用戶。運(yùn)營商可以對每一個(gè)社團(tuán)分析其相似特征,進(jìn)行潛在客戶挖掘以及后續(xù)的客戶關(guān)系維護(hù)。

5結(jié)束語

av噜噜在线观看| 国产911在线观看| 视频在线一区| 99re视频| 欧美自拍视频| 性欧美.com| 奇米色欧美一区二区三区| 欧美成人在线免费观看| 亚洲成在人线免费观看| 中文字幕在线中文字幕日亚韩一区| 偷拍视屏一区| 欧美日韩国产综合在线| 精品午夜视频| 久久综合九色综合久99| 九九免费精品视频在线观看| 免费观看中文字幕| 亚洲美女黄网| 国产一级免费大片| 成人黄色在线看| 中文字幕人妻一区二| 亚洲精品国产精品乱码不99| 亚洲精品成人在线视频| 欧美在线观看一区二区| 韩国av在线免费观看| 中文字幕亚洲国产| 青春草视频在线| 国产精品com| 成人动态视频| 在线观看17c| 美腿丝袜亚洲色图| 国产特级黄色录像| 午夜久久福利影院| 欧美一级片免费| 久久精品国产亚洲7777| 一二三四视频在线中文| 精品亚洲欧美日韩| 成人中文在线| 日本一二三四区视频| 成人午夜免费电影| 日韩精品久久久久久久酒店| 精品国精品自拍自在线| 大地资源网3页在线观看| 91人成网站www| 亚洲国产精品久久久久蝴蝶传媒| 久久精品一二三四| 亚洲欧洲日韩在线| 好吊色视频一区二区| 欧美精品18videosex性欧美| 日韩精品成人| av观看免费在线| 国产日韩欧美不卡在线| 99久久精品无免国产免费| www.日韩不卡电影av| www.亚洲一二| 午夜久久久精品| 亚洲一区在线观看网站| 亚在线播放中文视频| 亚洲自拍另类欧美丝袜| 免费视频一区| 日本道在线观看| 亚洲精品电影在线| 啪啪av大全导航福利综合导航| 免费人成在线观看视频播放| 丁香激情综合国产| 国产精品一品二区三区的使用体验| 久久的精品视频| 日韩av三区| 国产人成视频在线观看| 6080yy午夜一二三区久久| 成入视频在线观看| 久久国产精品视频在线观看| 一区免费观看视频| 成人好色电影| 午夜精品区一区二区三| 99久久综合99久久综合网站| 亚洲国产www| 91网免费观看| 国产二区国产一区在线观看| 高潮毛片又色又爽免费| 久久久久国产精品一区| 综合久久亚洲| 日韩av在线播放观看| 久久免费视频观看| 亚洲激情综合| 91视频久久久| 国产精品久久久久久一区二区| 久久久久久9| 国产精品人人妻人人爽| 国产精品久久久久久久久影视| 午夜亚洲视频| 亚洲天堂狠狠干| 亚洲www在线| 国产jizzjizz一区二区| 日韩黄色网址| 亚洲精品一区二区三| 亚洲人成网站在线| 在线视频中文字幕第一页| 黄色免费观看视频网站| 在线视频一区二区三区| 亚洲人成777| 伊人网在线视频观看| 在线播放国产一区中文字幕剧情欧美 | 欧美精品在线观看播放| 综合欧美精品| 久久午夜精品视频| 九色精品免费永久在线| 亚洲一区二区三区四区五区午夜| 91影院在线播放| 精品视频一区二区三区四区| 国产精品你懂的在线欣赏| 日韩另类在线| 国产麻豆剧传媒精品国产| 亚洲精品福利免费在线观看| 免费看成人吃奶视频在线| 97成人资源站| 国产日韩欧美影视| 99re热这里只有精品免费视频| 青青影院在线观看| 成人性生交免费看| 最近的2019中文字幕免费一页| 亚洲久久一区| 有色激情视频免费在线| 天堂v在线视频| 日韩一区二区电影| 伊人久久大香线蕉综合网蜜芽| 久久久久亚洲av成人毛片韩| 国产精品中出一区二区三区| 一区二区三区不卡视频| 麻豆精品一区| 久草视频一区二区| 欧美精品国产精品久久久 | 亚洲欧美中文字幕| 日韩精品一二区| 岛国在线视频| 亚洲国产精品第一页| 久久久久国产精品www| 99久久亚洲一区二区三区青草| 国产丝袜精品丝袜| 男人的天堂av网| 亚洲自拍欧美色图| 欧美视频一二三| 成人羞羞网站| 亚洲av片在线观看| 香蕉视频网站入口| 欧美激情第三页| 91视频.com| 在线欧美激情| 亚洲欧美一区二区三区在线观看 | 亚洲一区二区三区观看| 欧美亚洲在线视频| 亚洲欧洲日韩在线| 国产一区二区在线| 五月婷婷在线观看视频| 两女双腿交缠激烈磨豆腐| 国产成人短视频| 午夜精彩视频在线观看不卡| 91精品国产调教在线观看| 精品三级久久久久久久电影聊斋| 欧美一区二区三区精美影视 | 国产精品xxxx| 日韩欧美色综合| 国产一区91精品张津瑜| 天天综合在线观看| 成人无码一区二区三区| 亚洲黄色片免费看| 99久久国产免费免费| 日韩午夜激情av| 精品一区二区在线观看| 成人毛片免费| 日本xxxxwww| 免费a v网站| 欧美激情导航| 日韩av网站电影| 丁香桃色午夜亚洲一区二区三区| 91麻豆精品国产91久久久久推荐资源| 国产极品999| 亚洲成人av免费在线观看| 精品视频第一区| 在线观看国产精品淫| 中文字幕亚洲不卡| 亚洲黄色天堂| 日韩成人亚洲| 少妇喷水在线观看| 女人黄色一级片| 在线播放 亚洲| 38少妇精品导航| 色综合久久综合网| 在线亚洲激情| 国产精品视频一区视频二区| 永久免费在线| 日本五十路女优| 999这里有精品| 视频在线精品一区| 国产综合在线视频| 日韩欧美中文一区| 国产精品成人免费在线| 免费在线亚洲欧美| 99久久免费精品国产72精品九九| 国产高清视频在线| 国语对白永久免费| 一级少妇精品久久久久久久| 影音先锋欧美在线| 国产精品嫩草视频| 日韩精品电影网| 精品成人av一区| 菠萝蜜视频在线观看一区| 综合久久精品| 日韩一区网站| 黑人极品ⅴideos精品欧美棵| 亚洲精品成av人片天堂无码| 日韩a级片在线观看| 人妻少妇偷人精品久久久任期| 亚洲欧美日韩另类精品一区二区三区| 久久艳片www.17c.com| 欧美精品久久一区| 亚洲摸摸操操av| thepron国产精品| 亚洲国产一区二区精品专区| 高潮久久久久久久久久久久久久 | 久久久天堂av| 青青草精品视频| 一区二区影院| 成人自拍在线| 97精品国产综合久久久动漫日韩| 撸视在线观看免费视频| 亚洲无码久久久久| 青青草原免费观看| 一本色道久久综合亚洲精品图片 | 黄色大片在线| 性欧美精品孕妇| 亚洲欧美激情另类| 中文字幕精品无码亚| 日本在线小视频| 日本在线观看网址| 亚洲第一页av| 日本一区二区免费视频| 色婷婷狠狠18| 国产精品第12页| 青青草成人免费在线视频| 婷婷久久青草热一区二区 | 国产偷人视频免费| 免费的一级黄色片| 亚洲三区视频| 视频一区视频二区视频三区视频四区国产 | 欧美极品少妇无套实战| 久久精品日产第一区二区三区乱码| 成人精品视频久久久久| 日韩女优人人人人射在线视频| 欧美精品18videos性欧| 精品国产自在精品国产浪潮| 亚洲人成网站777色婷婷| 日韩经典中文字幕在线观看| 欧美精品一区二区三区蜜臀| 欧美成人艳星乳罩| 欧美精品精品一区| 欧美视频在线播放| 欧美日韩国产在线观看| 欧美裸体一区二区三区| 日韩女同互慰一区二区| 91精品国产乱码久久蜜臀| 欧美一区二区精品久久911| 欧美日本一区二区| 欧美一区二区视频观看视频| 色欧美88888久久久久久影院| 色中色一区二区| 欧美一区二视频| 亚洲男人天堂av网| 久久综合九色| 午夜在线视频观看日韩17c| 国产精品中文字幕欧美| 成人免费va视频| 亚洲激情网站免费观看| 欧美激情在线看| 国产精品久久久久aaaa| 一区二区三区四区激情| 亚洲午夜精品在线| 偷窥少妇高潮呻吟av久久免费| 婷婷一区二区三区| 欧美日韩在线直播| 日韩免费一区二区| 亚洲一区www| 欧美精品国产精品日韩精品| 欧美一区二区视频97| 91精品国产综合久久男男| 亚洲a∨一区二区三区| 久久天天东北熟女毛茸茸| 日本在线观看a| 久操视频免费看| 成年人晚上看的视频| 久草在线官网| 日本中文字幕中出在线| 日韩欧美中文在线观看| 欧美 亚欧 日韩视频在线 | 九七久久人人| 开心久久婷婷综合中文字幕| 日韩精品一区二区三区免费观看| 美国一区二区三区在线播放| 最新欧美精品一区二区三区| 欧美一卡二卡三卡四卡| 欧美激情网站在线观看| 欧美国产一区二区三区| 亚洲无线码在线一区观看| 国产精品久久久亚洲| 国产aaa免费视频| 极品魔鬼身材女神啪啪精品| www香蕉视频| 欧美日韩免费看片| 精品视频黄色| 久久精品国产一区二区三| 亚洲日本在线视频观看| 色综合久久88色综合天天| 久久精品国产一区二区三区| 国产亚洲情侣一区二区无| 韩国日本美国免费毛片| 国产精品日日夜夜| 神马电影在线观看| 国产精久久一区二区| 久久精品一区| 懂色av影视一区二区三区| 日韩视频免费大全中文字幕| 国产精品一区二区三区在线 | 中文字幕丰满人伦在线| 福利视频在线看| 欧美一区 二区| 精品午夜久久福利影院| 日韩欧美的一区二区| 成人精品水蜜桃| 又黄又爽的网站| 最近中文字幕mv免费高清在线| 欧美成人一级| 粉嫩aⅴ一区二区三区四区五区| 欧美成人a视频| 久久精品美女| 粉嫩av懂色av蜜臀av分享| 亚洲国产精品无码久久| 涩爱av色老久久精品偷偷鲁 | 色成人在线视频| 国产成人在线视频| 激情网站五月天| 97超碰人人草| 日韩精品一区二区三区中文在线| www.亚洲精品| 中文字幕亚洲一区在线观看| 国产一级黄色录像片| 国产女主播喷水视频在线观看 | 中文幕一区二区三区久久蜜桃| 日韩一级黄色av| 爱福利视频一区二区| 波多野结衣黄色网址| 一级一片免费看| 激情成人四房播| 中文字幕亚洲欧美日韩2019| 神马电影在线观看| 亚洲最新视频在线| 麻豆系列在线观看| 九九热在线精品视频| av网址在线| 国产成人精品综合久久久| 秋霞国产精品| 99热在线国产| 羞羞色国产精品网站| 椎名由奈jux491在线播放 | 亚洲免费视频在线观看| 中文资源在线网| 曰本色欧美视频在线| 欧洲美女少妇精品| 91国产一区在线| 成人美女视频| 成人资源av| 超碰在线亚洲| 青青草影院在线观看| 欧美国产三区| 亚洲视频一二三四| 国产一区二区不卡在线| 麻豆视频免费在线播放| 亚洲人成小说网站色在线| 欧美黑人一级片| 亚洲高清视频中文字幕| 一区二区三区视频免费看| 欧美中文字幕一区二区三区| 性猛交xxxx乱大交孕妇印度| 亚洲天天在线日亚洲洲精| 日本激情在线观看| 国产成人综合亚洲| www欧美在线观看| 无遮挡亚洲一区| 欧美日韩一卡| 久久综合桃花网| hitomi一区二区三区精品| 波多野结衣不卡视频| 岛国av一区二区三区| 中文字幕第2页| 日韩国产在线播放| 中文日本在线观看| 国产精品三级久久久久久电影| 麻豆精品国产| 国产情侣第一页| 久久亚洲图片| 日本美女bbw| 亚洲va在线va天堂|