国产香蕉视频在线播放,亚洲AV福利天堂一区二区三,草莓视频在线下载APP最新版

主頁(yè) > 知識(shí)庫(kù) > 什么是數(shù)據(jù)挖掘技術(shù)？

什么是數(shù)據(jù)挖掘技術(shù)？

1. 引言

數(shù)據(jù)挖掘(data mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。隨著信息技術(shù)的高速發(fā)展，人們積累的數(shù)據(jù)量急劇增長(zhǎng)，動(dòng)輒以tb計(jì)，如何從海量的數(shù)據(jù)中提取有用的知識(shí)成為當(dāng)務(wù)之急。數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運(yùn)而生發(fā)展起來(lái)的數(shù)據(jù)處理技術(shù)。是知識(shí)發(fā)現(xiàn)(knowledge discovery in database)的關(guān)鍵步驟。

2. 數(shù)據(jù)挖掘的任務(wù)

數(shù)據(jù)挖掘的任務(wù)主要是關(guān)聯(lián)分析、聚類分析、分類、預(yù)測(cè)、時(shí)序模式和偏差分析等。

⑴關(guān)聯(lián)分析(association analysis)

關(guān)聯(lián)規(guī)則挖掘是由rakesh apwal等人首先提出的。兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性，就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的、可被發(fā)現(xiàn)的知識(shí)。關(guān)聯(lián)分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個(gè)閥值來(lái)度量關(guān)聯(lián)規(guī)則的相關(guān)性，還不斷引入興趣度、相關(guān)性等參數(shù)，使得所挖掘的規(guī)則更符合需求。

⑵聚類分析(clustering)

聚類是把數(shù)據(jù)按照相似性歸納成若干類別，同一類中的數(shù)據(jù)彼此相似，不同類中的數(shù)據(jù)相異。聚類分析可以建立宏觀的概念，發(fā)現(xiàn)數(shù)據(jù)的分布模式，以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。

⑶分類(classification)

分類就是找出一個(gè)類別的概念描述，它代表了這類數(shù)據(jù)的整體信息，即該類的內(nèi)涵描述，并用這種描述來(lái)構(gòu)造模型，一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過(guò)一定的算法而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測(cè)。

⑷預(yù)測(cè)(predication)

預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律，建立模型，并由此模型對(duì)未來(lái)數(shù)據(jù)的種類及特征進(jìn)行預(yù)測(cè)。預(yù)測(cè)關(guān)心的是精度和不確定性，通常用預(yù)測(cè)方差來(lái)度量。

⑸時(shí)序模式(time-series pattern)

時(shí)序模式是指通過(guò)時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣，它也是用己知的數(shù)據(jù)預(yù)測(cè)未來(lái)的值，但這些數(shù)據(jù)的區(qū)別是變量所處時(shí)間的不同。

⑹偏差分析(deviation)

在偏差中包括很多有用的知識(shí)，數(shù)據(jù)庫(kù)中的數(shù)據(jù)存在很多異常情況，發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗(yàn)的基本方法就是尋找觀察結(jié)果與參照之間的差別。

3．?dāng)?shù)據(jù)挖掘?qū)ο?BR>
根據(jù)信息存儲(chǔ)格式，用于挖掘的對(duì)象有關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)以及internet等。

4．?dāng)?shù)據(jù)挖掘流程

⑴定義問題：清晰地定義出業(yè)務(wù)問題，確定數(shù)據(jù)挖掘的目的。

⑵數(shù)據(jù)準(zhǔn)備：數(shù)據(jù)準(zhǔn)備包括：選擇數(shù)據(jù)--在大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)目標(biāo)中提取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)集；數(shù)據(jù)預(yù)處理--進(jìn)行數(shù)據(jù)再加工，包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去噪聲，填補(bǔ)丟失的域，刪除無(wú)效數(shù)據(jù)等。

⑶數(shù)據(jù)挖掘：根據(jù)數(shù)據(jù)功能的類型和和數(shù)據(jù)的特點(diǎn)選擇相應(yīng)的算法，在凈化和轉(zhuǎn)換過(guò)的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘。

⑷結(jié)果分析：對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋和評(píng)價(jià)，轉(zhuǎn)換成為能夠最終被用戶理解的知識(shí)。

⑸知識(shí)的運(yùn)用：將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

5．?dāng)?shù)據(jù)挖掘的方法

⑴神經(jīng)網(wǎng)絡(luò)方法

神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲(chǔ)和高度容錯(cuò)等特性非常適合解決數(shù)據(jù)挖掘的問題，因此近年來(lái)越來(lái)越受到人們的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò)模型主要分3大類：以感知機(jī)、bp反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表的，用于分類、預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型；以hopfield的離散模型和連續(xù)模型為代表的，分別用于聯(lián)想記憶和優(yōu)化計(jì)算的反饋式神經(jīng)網(wǎng)絡(luò)模型；以art模型、koholon模型為代表的，用于聚類的自組織映射方法。神經(jīng)網(wǎng)絡(luò)方法的缺點(diǎn)是"黑箱"性，人們難以理解網(wǎng)絡(luò)的學(xué)習(xí)和決策過(guò)程。

⑵遺傳算法

遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法，是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用。

sunil已成功地開發(fā)了一個(gè)基于遺傳算法的數(shù)據(jù)挖掘工具，利用該工具對(duì)兩個(gè)飛機(jī)失事的真實(shí)數(shù)據(jù)庫(kù)進(jìn)行了數(shù)據(jù)挖掘?qū)嶒?yàn)，結(jié)果表明遺傳算法是進(jìn)行數(shù)據(jù)挖掘的有效方法之一[4]。遺傳算法的應(yīng)用還體現(xiàn)在與神經(jīng)網(wǎng)絡(luò)、粗集等技術(shù)的結(jié)合上。如利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，在不增加錯(cuò)誤率的前提下，刪除多余的連接和隱層單元；用遺傳算法和bp算法結(jié)合訓(xùn)練神經(jīng)網(wǎng)絡(luò)，然后從網(wǎng)絡(luò)提取規(guī)則等。但遺傳算法的算法較復(fù)雜，收斂于局部極小的較早收斂問題尚未解決。

⑶決策樹方法

決策樹是一種常用于預(yù)測(cè)模型的算法，它通過(guò)將大量數(shù)據(jù)有目的分類，從中找到一些有價(jià)值的，潛在的信息。它的主要優(yōu)點(diǎn)是描述簡(jiǎn)單，分類速度快，特別適合大規(guī)模的數(shù)據(jù)處理。最有影響和最早的決策樹方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要問題是：id3是非遞增學(xué)習(xí)算法；id3決策樹是單變量決策樹，復(fù)雜概念的表達(dá)困難；同性間的相互關(guān)系強(qiáng)調(diào)不夠；抗噪性差。針對(duì)上述問題，出現(xiàn)了許多較好的改進(jìn)算法，如 schlimmer和fisher設(shè)計(jì)了id4遞增式學(xué)習(xí)算法;鐘鳴，陳文偉等提出了ible算法等。

⑷粗集方法

粗集理論是一種研究不精確、不確定知識(shí)的數(shù)學(xué)工具。粗集方法有幾個(gè)優(yōu)點(diǎn)：不需要給出額外信息；簡(jiǎn)化輸入信息的表達(dá)空間；算法簡(jiǎn)單，易于操作。粗集處理的對(duì)象是類似二維關(guān)系表的信息表。目前成熟的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)和新發(fā)展起來(lái)的數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)，為粗集的數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)。但粗集的數(shù)學(xué)基礎(chǔ)是集合論，難以直接處理連續(xù)的屬性。而現(xiàn)實(shí)信息表中連續(xù)屬性是普遍存在的。因此連續(xù)屬性的離散化是制約粗集理論實(shí)用化的難點(diǎn)。現(xiàn)在國(guó)際上已經(jīng)研制出來(lái)了一些基于粗集的工具應(yīng)用軟件，如加拿大regina大學(xué)開發(fā)的kdd-r;美國(guó)kansas大學(xué)開發(fā)的lers等。

⑸覆蓋正例排斥反例方法

它是利用覆蓋所有正例、排斥所有反例的思想來(lái)尋找規(guī)則。首先在正例集合中任選一個(gè)種子，到反例集合中逐個(gè)比較。與字段取值構(gòu)成的選擇子相容則舍去，相反則保留。按此思想循環(huán)所有正例種子，將得到正例的規(guī)則(選擇子的合取式)。比較典型的算法有michalski的aq11方法、洪家榮改進(jìn)的aq15方法以及他的ae5方法。

⑹統(tǒng)計(jì)分析方法

在數(shù)據(jù)庫(kù)字段項(xiàng)之間存在兩種關(guān)系：函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示，但仍是相關(guān)確定性關(guān)系)，對(duì)它們的分析可采用統(tǒng)計(jì)學(xué)方法，即利用統(tǒng)計(jì)學(xué)原理對(duì)數(shù)據(jù)庫(kù)中的信息進(jìn)行分析。可進(jìn)行常用統(tǒng)計(jì)(求大量數(shù)據(jù)中的最大值、最小值、總和、平均值等)、回歸分析(用回歸方程來(lái)表示變量間的數(shù)量關(guān)系)、相關(guān)分析(用相關(guān)系數(shù)來(lái)度量變量間的相關(guān)程度)、差異分析(從樣本統(tǒng)計(jì)量的值得出差異來(lái)確定總體參數(shù)之間是否存在差異)等。

⑺模糊集方法

即利用模糊集合理論對(duì)實(shí)際問題進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類分析。系統(tǒng)的復(fù)雜性越高，模糊性越強(qiáng)，一般模糊集合理論是用隸屬度來(lái)刻畫模糊事物的亦此亦彼性的。李德毅等人在傳統(tǒng)模糊理論和概率統(tǒng)計(jì)的基礎(chǔ)上，提出了定性定量不確定性轉(zhuǎn)換模型--云模型，并形成了云理論。

6．評(píng)價(jià)數(shù)據(jù)挖掘軟件需要考慮的問題

越來(lái)越多的軟件供應(yīng)商加入了數(shù)據(jù)挖掘這一領(lǐng)域的競(jìng)爭(zhēng)。用戶如何正確評(píng)價(jià)一個(gè)商業(yè)軟件，選擇合適的軟件成為數(shù)據(jù)挖掘成功應(yīng)用的關(guān)鍵。

評(píng)價(jià)一個(gè)數(shù)據(jù)挖掘軟件主要應(yīng)從以下四個(gè)主要方面：

⑴計(jì)算性能：如該軟件能否在不同的商業(yè)平臺(tái)運(yùn)行；軟件的架構(gòu)；能否連接不同的數(shù)據(jù)源；操作大數(shù)據(jù)集時(shí)，性能變化是線性的還是指數(shù)的;算的效率；是否基于組件結(jié)構(gòu)易于擴(kuò)展；運(yùn)行的穩(wěn)定性等；

⑵功能性：如軟件是否提供足夠多樣的算法；能否避免挖掘過(guò)程黑箱化；軟件提供的算法能否應(yīng)用于多種類型的數(shù)據(jù)；用戶能否調(diào)整算法和算法的參數(shù)；軟件能否從數(shù)據(jù)集隨機(jī)抽取數(shù)據(jù)建立預(yù)挖掘模型；能否以不同的形式表現(xiàn)挖掘結(jié)果等；

⑶可用性：如用戶界面是否友好；軟件是否易學(xué)易用；軟件面對(duì)的用戶：初學(xué)者，高級(jí)用戶還是專家？錯(cuò)誤報(bào)告對(duì)用戶調(diào)試是否有很大幫助；軟件應(yīng)用的領(lǐng)域：是專攻某一專業(yè)領(lǐng)域還是適用多個(gè)領(lǐng)域等；

⑷輔助功能：如是否允許用戶更改數(shù)據(jù)集中的錯(cuò)誤值或進(jìn)行數(shù)據(jù)清洗；是否允許值的全局替代；能否將連續(xù)數(shù)據(jù)離散化；能否根據(jù)用戶制定的規(guī)則從數(shù)據(jù)集中提取子集；能否將數(shù)據(jù)中的空值用某一適當(dāng)均值或用戶指定的值代替；能否將一次分析的結(jié)果反饋到另一次分析中，等等。

在線存儲(chǔ)

標(biāo)簽：隴南廣東廈門南充宜賓那曲那曲曲靖

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《什么是數(shù)據(jù)挖掘技術(shù)？》，本文關(guān)鍵詞什么,是,數(shù)據(jù)挖掘,技術(shù),；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無(wú)關(guān)。