華中師范大學(xué)專升本數(shù)據(jù)挖掘概念和技術(shù)讀書筆記
時代的挑戰(zhàn)
近十幾年來,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千千萬萬個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等,這一勢頭仍將持續(xù)發(fā)展下去。于是,一個新的挑戰(zhàn)被提了出來:在這被稱之為信息爆炸的時代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發(fā)現(xiàn)有用的知識,提高信息利用率呢?要想使數(shù)據(jù)真正成為一個公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。需要是發(fā)明之母,因此,面對"人們被數(shù)據(jù)淹沒,人們卻饑餓于知識"的挑戰(zhàn),數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運而生,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。
這里所說的知識發(fā)現(xiàn),不是要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學(xué)定理和純數(shù)學(xué)公式,更不是什么機器定理證明。實際上,所有發(fā)現(xiàn)的知識都是相對的,是有特定前提和約束條件,面向特定領(lǐng)域的,同時還要能夠易于被用戶理解。最好能用自然語言表達(dá)所發(fā)現(xiàn)的結(jié)果。
歷史的必然
從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化過程中,每一步前進(jìn)都是建立在上一步的基礎(chǔ)上的。見下表。表中我們可以看到,第四步進(jìn)化是革命性的,因為從用戶的角度來看,這一階段的數(shù)據(jù)庫技術(shù)已經(jīng)可以快速地回答商業(yè)上的很多問題了。
從下表中還可以清晰得看到,數(shù)據(jù)挖掘的應(yīng)運而生是歷史必然的選擇,它符合人類社會的認(rèn)識事物的客觀發(fā)展規(guī)律,僅從這一點上來講,剛剛開始處于流行中的數(shù)據(jù)挖掘的前景還是非常樂觀的。
進(jìn)化階段 商業(yè)問題 支持技術(shù) 產(chǎn)品廠家 產(chǎn)品特點
數(shù)據(jù)搜集
年代) “過去五年中我的總收入是多少?” 計算機、磁帶和磁盤 IBM,CDC 提供歷史性的、靜態(tài)的數(shù)據(jù)信息
數(shù)據(jù)訪問
年代) “在紐約的分部去年三月的銷售額是多少?” 關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL),ODBC Oracle、Sybase、Informix、IBM、Microsoft 在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息
數(shù)據(jù)倉庫;
決策支持
年代) “在紐約的分部去年三月的銷售額是多少?洛杉磯據(jù)此可得出什么結(jié)論?” 聯(lián)機分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫 Pilot、Comshare、Arbor、Cognos、Microstrategy 在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息
數(shù)據(jù)挖掘
?。ㄕ诹餍校?“下個月洛杉磯的銷售會怎么樣?為什么?” 高級算法、多處理器計算機、海量數(shù)據(jù)庫 Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司 提供預(yù)測性的信息
數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。還有很多和這一術(shù)語相近似的術(shù)語,如從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。人們把原始數(shù)據(jù)看作是形成知識的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一門非常廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員。
簡而言之,數(shù)據(jù)挖掘其實是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,只不過在過去數(shù)據(jù)收集和分析的目的是用于科學(xué)研究,另外,由于當(dāng)時計算能力的限制,對大數(shù)據(jù)量進(jìn)行分析的復(fù)雜數(shù)據(jù)分析方法受到很大限制?,F(xiàn)在,由于各行業(yè)業(yè)務(wù)自動化的實現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于
商業(yè)運作而產(chǎn)生。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰?,更主要是為商業(yè)決策提供真正有價值的信息,進(jìn)而獲得利潤。但所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。
數(shù)據(jù)挖掘的知識分類
概化知識
概化知識指類別特征的概括性描述知識。根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質(zhì),是對數(shù)據(jù)的概括、精煉和抽象。
概化知識的發(fā)現(xiàn)方法和實現(xiàn)技術(shù)有很多,如數(shù)據(jù)立方體、面向?qū)傩缘臍w約等。數(shù)據(jù)立方體還有其他一些別名,如“多維數(shù)據(jù)庫”、“實現(xiàn)視圖”、“OLAP"等。該方法的基本思想是實現(xiàn)某些常用的代價較高的聚集函數(shù)的計算,諸如計數(shù)、求和、平均、最大值等,并將這些實現(xiàn)視圖儲存在多維數(shù)據(jù)庫中。既然很多聚集函數(shù)需經(jīng)常重復(fù)計算,那么在多維數(shù)據(jù)立方體中存放預(yù)先計算好的結(jié)果將能保證快速響應(yīng),并可靈活地提供不同角度和不同抽象層次上的數(shù)據(jù)視圖。另一種概化知識發(fā)現(xiàn)方法是加拿大SimonFraser大學(xué)提出的面向?qū)傩缘臍w約方法。這種方法以類SQL語言表示數(shù)據(jù)挖掘查詢,收集數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)集,然后在相關(guān)數(shù)據(jù)集上應(yīng)用一系列數(shù)據(jù)推廣技術(shù)進(jìn)行數(shù)據(jù)推廣,包括屬性刪除、概念樹提升、屬性閾值控制、計數(shù)及其他聚集函數(shù)傳播等。
關(guān)聯(lián)知識(Association)
它反映一個事件和其他事件之間依賴或關(guān)聯(lián)的知識。如果兩項或多項屬性之間存在關(guān)聯(lián),那么其中一項的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測。最為著名的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法是R.Agrawal提出的Apriori算法。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可分為兩步。第一步是迭代識別所有的頻繁項目集,要求頻繁項目集的支持率不低于用戶設(shè)定的最低值;
第二步是從頻繁項目集中構(gòu)造可信度不低于用戶設(shè)定的最低值的規(guī)則。識別或發(fā)現(xiàn)所有頻繁項目集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心,也是計算量最大的部分。
分類和聚類知識(Classification&
它反映同類事物共同性質(zhì)的特征型知識和不同事物之間的差異型特征知識。最為典型的分類方法是基于決策樹的分類方法。它是從實例集中構(gòu)造決策樹,是一種有指導(dǎo)的學(xué)習(xí)方法。該方法先根據(jù)訓(xùn)練子集(又稱為窗口)形成決策樹。如果該樹不能對所有對象給出正確的分類,那么選擇一些例外加入到窗口中,重復(fù)該過程一直到形成正確的決策集。最終結(jié)果是一棵樹,其葉結(jié)點是類名,中間結(jié)點是帶有分枝的屬性,該分枝對應(yīng)該屬性的某一可能值。最為典型的決策樹學(xué)習(xí)系統(tǒng)是ID3,它采用自頂向下不回溯策略,能保證找到一個簡單的樹。算法C4.5和C5.0都是ID3的擴展,它們將分類領(lǐng)域從類別屬性擴展到數(shù)值型屬性。
數(shù)據(jù)分類還有統(tǒng)計、粗糙集(RoughSet)等方法。線性回歸和線性辨別分析是典型的統(tǒng)計模型。為降低決策樹生成代價,人們還提出了一種區(qū)間分類器。最近也有人研究使用神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)庫中進(jìn)行分類和規(guī)則提取,其中的代表就是向后傳播分類。
預(yù)測型知識(Prediction)
它根據(jù)時間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認(rèn)為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識。
目前,時間序列預(yù)測方法有經(jīng)典的統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)等。1968年Box和Jenkins提出了一套比較完善的時間序列建模理論和分析方法,這些經(jīng)典的數(shù)學(xué)方法通過建立隨機模型,如自回歸模型、自回歸滑動平均模型、求和自回歸滑動平均模型和季節(jié)調(diào)整模型等,進(jìn)行時間序列的預(yù)測。由于大量的時間序列是非平穩(wěn)的,其特征參數(shù)和數(shù)據(jù)分布隨著時間的推移而發(fā)生變化。因此,僅僅通過對某段歷史數(shù)據(jù)的訓(xùn)練,建立單一的神經(jīng)
網(wǎng)絡(luò)預(yù)測模型,還無法完成準(zhǔn)確的預(yù)測任務(wù)。為此,人們提出了基于統(tǒng)計學(xué)和基于精確性的再訓(xùn)練方法,當(dāng)發(fā)現(xiàn)現(xiàn)存預(yù)測模型不再適用于當(dāng)前數(shù)據(jù)時,對模型重新訓(xùn)練,獲得新的權(quán)重參數(shù),建立新的模型。也有許多系統(tǒng)借助并行算法的計算優(yōu)勢進(jìn)行時間序列預(yù)測。
偏差型知識
此外,還可以發(fā)現(xiàn)其他類型的知識,如偏差型知識(Deviation),它是對差異和極端特例的描述,揭示事物偏離常規(guī)的異?,F(xiàn)象,如標(biāo)準(zhǔn)類外的特例,數(shù)據(jù)聚類外的離群值等。
所有這些知識都可以在不同的概念層次上被發(fā)現(xiàn),并隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。
數(shù)據(jù)挖掘的常用技術(shù)
人工神經(jīng)網(wǎng)絡(luò)
仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線形預(yù)測模型,通過學(xué)習(xí)進(jìn)行模式識別。粗略的說,神經(jīng)網(wǎng)絡(luò)是一組連接的神經(jīng)單元,其中每個連接都與一個權(quán)相聯(lián)。在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測輸入樣本的正確類標(biāo)號來學(xué)習(xí)。由于單元之間的連接,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)又稱連接者學(xué)習(xí)。它的優(yōu)點包括對噪聲數(shù)據(jù)的高承受力,以及它對未經(jīng)訓(xùn)練的數(shù)據(jù)分類模型的能力。
判定樹
“什么是判定樹?”判定樹(decision tree)是一個類似于流程圖的樹結(jié)構(gòu)。它和算法與數(shù)據(jù)結(jié)構(gòu)中的二叉判定樹的概念很類似。其中每個內(nèi)部節(jié)點表示在一個屬性上的測試,每個分枝代表一個測試輸出,而每個樹葉節(jié)點代表類或類分布。樹的最頂層界定就是根節(jié)點。
遺傳算法
基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計方法的優(yōu)化技術(shù)。根據(jù)適者生存的原則,形成由當(dāng)前群體中最合適的規(guī)則組成新的群體,以及這些規(guī)則的后代。典型情況下,規(guī)則的適合度(fitness)用它對訓(xùn)練樣本集的分類準(zhǔn)確率評估。后代通過使用諸如交叉和變異等遺傳操作來創(chuàng)建。
最近鄰算法
將數(shù)據(jù)集合中每一個記錄進(jìn)行分類的方法。最臨近分類是基于要求的或懶散的學(xué)習(xí)法,即它存放所有的訓(xùn)練樣本,并且直到新的(未標(biāo)記的)樣本需要分類時才建立分類。它也可用于預(yù)測,即返回給定的位置樣本的實數(shù)值預(yù)測。
算法
它是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。算法的名字基于這樣的事實:算法使用頻繁項集性質(zhì)的先驗知識。它用一種稱作逐層搜索的迭代方法,k-項集用于探索(k+1)-項集。首先找出頻繁1-項集的集合。然后利用前者找出2-項集的集合,如此迭代,直到不能找出頻繁k-項集。最后由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則。
頻繁模式增長(FP-增長
和上面的方法相比,它是一種不產(chǎn)生候選的挖掘頻繁項集的方法。它構(gòu)造一個高度壓縮的數(shù)據(jù)結(jié)構(gòu)(FP-增長),壓縮原來的事物數(shù)據(jù)庫。它聚焦于頻繁模式增長,避免了高代價的候選產(chǎn)生,獲得更好的效率。
采用上述技術(shù)的某些專門的分析工具已經(jīng)發(fā)展了大約十年的歷史,不過這些工具所面對的數(shù)據(jù)量通常較小。而現(xiàn)在這些技術(shù)已經(jīng)被直接集成到許多大型的工業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)倉庫和聯(lián)機分析系統(tǒng)中去了。
數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出前攝的、基于知識的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下五類功能。
自動預(yù)測趨勢和行為
數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個典型的例子是市場預(yù)測問題,數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶,其它可預(yù)測的問題包括預(yù)報破產(chǎn)以及認(rèn)定對指定事件最可能作出反應(yīng)的群體。
關(guān)聯(lián)分析
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)
聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有置信度和支持度。
相關(guān)性分析
數(shù)據(jù)中許多屬性可能與分類和預(yù)測任務(wù)不相關(guān)。例如:記錄銀行貸款申請是星期幾提出的數(shù)據(jù)可能與申請的成功不相關(guān)。此外,其他的屬性可能是冗余的。因此,可以進(jìn)行相關(guān)性分析,刪除學(xué)習(xí)過程中不相關(guān)的或冗余的屬性。在機器學(xué)習(xí)中,這一過程稱為特征選擇。
聚類分析
數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現(xiàn)實的認(rèn)識,是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括了劃分方法,層次的方法,基于密度的方法和基于模型的方法。還有一些聚類算法繼承了多種聚類方法的思想。
概念描述
概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性,它將大的任務(wù)相關(guān)的數(shù)據(jù)集從較低的概念層抽象到較高的概念層。大的數(shù)據(jù)集有效的,靈活的概化方法可以分成兩類:1:數(shù)據(jù)立方體(或OLAP)方法,和2:面向?qū)傩缘臍w納方法。生成區(qū)別性描述的方法很多,如判定樹方法、遺傳算法等。
偏差檢測
數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別。
相關(guān)推薦:
2.部分稿件來源于網(wǎng)絡(luò),如有不實或侵權(quán),請聯(lián)系我們溝通解決。最新官方信息請以湖北省教育考試院及各教育官網(wǎng)為準(zhǔn)!

自考押题资料领取
- 2024年3月華中師范大學(xué)自考學(xué)士學(xué)位外語考試報名須知
- 2023下半年華中師范大學(xué)自學(xué)考試社會長線實踐課報考及確認(rèn)通知
- 2023年下半年華中師范大學(xué)自考本科畢業(yè)生學(xué)士學(xué)位申請工作通知
- 2023年10月華中師范大學(xué)自學(xué)考試集中網(wǎng)絡(luò)綜合測試開展通知
- 2023年上半年華中師范大學(xué)自學(xué)考試實踐環(huán)節(jié)畢業(yè)論文寫作通知
- 2023上半年華中師范大學(xué)自學(xué)考試社會長線實踐課報考及確認(rèn)通知
- 2023年上半年華中師范大學(xué)自考成人本科畢業(yè)生學(xué)士學(xué)位申請工作通知
- 2023年4月華中師范大學(xué)自考華中師范大學(xué)考點考生須知
- 華中師范大學(xué)自考課程免考條件
- 華中師范大學(xué)自考網(wǎng)上報名入口
- 武漢紡織大學(xué)自考沒有及格能重考嗎?一共考幾門?
- 華中農(nóng)業(yè)大學(xué)自考本科適合哪些人報考?詳細(xì)解答~
- 華中農(nóng)業(yè)大學(xué)自考本科需要答辯嗎?畢業(yè)答辯指南~
- 武漢工程大學(xué)自考本科難度主要是哪方面?詳情解析~
- 武漢工程大學(xué)自考本科和全日制大專怎么選?哪種含金量更高?
- 武漢工程大學(xué)自考本科通過率是多少?附最新考情分析!
- 湖北中醫(yī)藥大學(xué)自考本科錄取率高嗎?速來了解~
- 湖北中醫(yī)藥大學(xué)自考哪些人可以報考?報名條件速看!
- 湖北中醫(yī)藥大學(xué)自考畢業(yè)證怎么樣的?和統(tǒng)招本科一樣嗎?
- 武漢紡織大學(xué)自考論文怎么選題?一文解答! 查看更多

湖北自考網(wǎng)微信公眾號
隨時獲取自考政策、通知、公告及各類學(xué)習(xí)資料、學(xué)習(xí)方法、課件。