主頁 > 知識(shí)庫 > 數(shù)據(jù)挖掘(DM)的全視圖

數(shù)據(jù)挖掘(DM)的全視圖

熱門標(biāo)簽:臨沂移動(dòng)外呼系統(tǒng) 遼寧400電話全國辦理中心 杭州桐廬400企業(yè)電話申請(qǐng) 電銷防封卡全國通用 廣州電話外呼系統(tǒng)價(jià)格 深圳智能外呼系統(tǒng)平臺(tái) 南昌探意電話機(jī)器人 江蘇智能電銷機(jī)器人加盟 湖北外呼電銷機(jī)器人收費(fèi)

引言

無論是商業(yè)企業(yè)、科研機(jī)構(gòu)或者政府部門,在過去若干年的時(shí)間里都積累了海量的、以不同形式存儲(chǔ)的數(shù)據(jù)資料。但當(dāng)面對(duì)越來越多迅速膨脹的超級(jí)數(shù)據(jù)庫時(shí),人們卻無從著手去理解數(shù)據(jù)中包含的信息,更難以獲得有價(jià)值的知識(shí)!原有的決策支持系統(tǒng)(DSS)和領(lǐng)導(dǎo)執(zhí)行系統(tǒng)(EIS)已不能滿足需要。數(shù)據(jù)挖掘概念的提出,使人們有能力克服這些困難,去發(fā)掘出蘊(yùn)藏在數(shù)據(jù)中的信息和知識(shí)。數(shù)據(jù)挖掘是目前國際上數(shù)據(jù)庫和信息決策領(lǐng)域的最前沿研究方向之一,引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。一些國際上高級(jí)別的工業(yè)研究實(shí)驗(yàn)室,如IBM Almaden和GTE,和眾多的學(xué)術(shù)單位,如UC Berkeley,都在這個(gè)領(lǐng)域開展了各種各樣的研究計(jì)劃。

但人們對(duì)數(shù)據(jù)挖掘還存在認(rèn)識(shí)上的偏差。比如對(duì)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘與數(shù)據(jù)倉庫等的關(guān)系存在一定觀點(diǎn)上的分歧。本文總結(jié)了目前學(xué)術(shù)界和工業(yè)界的認(rèn)識(shí)和觀點(diǎn),并進(jìn)行了比較和總結(jié)。本文還就與數(shù)據(jù)挖掘有關(guān)的挖掘過程、數(shù)據(jù)挖掘在商業(yè)中的實(shí)現(xiàn)等方面闡述了自己的觀點(diǎn)。

1. 數(shù)據(jù)挖掘的概念

本文從探尋知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database)和數(shù)據(jù)挖掘的關(guān)系入手理解數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)是存在交叉的兩個(gè)概念。對(duì)這兩個(gè)概念之間的關(guān)系,流行有兩種觀點(diǎn):一種觀點(diǎn)認(rèn)為:數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)是等同的概念,只不過在不同的領(lǐng)域叫法不同而已。在科研領(lǐng)域,知識(shí)發(fā)現(xiàn)使用較多,在工程應(yīng)用領(lǐng)域多稱之為數(shù)據(jù)挖掘。另一種觀點(diǎn)認(rèn)為數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)的一個(gè)階段,而且是核心階段。該觀點(diǎn)給出的定義是:知識(shí)發(fā)現(xiàn),就是從大型數(shù)據(jù)庫中的數(shù)據(jù)中提取人們感興趣的知識(shí)。這些知識(shí)是隱含的、事先未知的、潛在有用的信息。本文更傾向于第二種觀點(diǎn)。本文從知識(shí)產(chǎn)生的過程這一角度看待知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘,得出以下結(jié)論:

(1)知識(shí)發(fā)現(xiàn)是把低級(jí)別的數(shù)據(jù)轉(zhuǎn)化為高級(jí)別數(shù)據(jù)的整個(gè)過程。所謂高級(jí)別數(shù)據(jù),是具有特殊含義的數(shù)據(jù)。在工程應(yīng)用中,根據(jù)不同的使用階段和價(jià)值,又細(xì)分為信息和知識(shí)。信息可被理解為有特殊意義的數(shù)據(jù);知識(shí)則表達(dá)為在特定應(yīng)用領(lǐng)域,通過使用有價(jià)值的信息而在人腦中形成的、具有概括和總結(jié)特性的認(rèn)識(shí)。知識(shí)可表示為概念(concepts),規(guī)則(rules),規(guī)律(regulations),模式(patterns)等形式。從知識(shí)發(fā)現(xiàn)的整個(gè)過程來看(圖1),數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)實(shí)現(xiàn)從數(shù)據(jù)到信息和知識(shí)轉(zhuǎn)變的關(guān)鍵一步。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取可信的、新穎的、有效的模式的高級(jí)處理過程。

模式:是一個(gè)用語言L來表示的一個(gè)表達(dá)式E,它可用來描述數(shù)據(jù)集F中數(shù)據(jù)的特性,E所描述的數(shù)據(jù)是集合的一個(gè)子集 。E作為一個(gè)模式,要求比列舉數(shù)據(jù)子集中所有元素的描述方法簡單。

模式是知識(shí)發(fā)現(xiàn)中的知識(shí)的一部分,它給出了數(shù)據(jù)的特性或數(shù)據(jù)之間的關(guān)系,是對(duì)數(shù)據(jù)所包含信息的更抽象描述。模式的表示方式很多,有時(shí)或者經(jīng)常無法用顯式的方法進(jìn)行描述,比如用神經(jīng)網(wǎng)絡(luò)挖掘出來的模式是通過連接權(quán)值體現(xiàn)出來的。知識(shí)發(fā)現(xiàn)的最后一步—結(jié)果表達(dá)和解釋負(fù)責(zé)將挖掘的模式用更容易理解的方式,如圖形、自然語言和可視化技術(shù)等展現(xiàn)在用戶面前。

(2)如果把知識(shí)發(fā)現(xiàn)理解為一個(gè)過程或系統(tǒng),數(shù)據(jù)挖掘是這一過程或系統(tǒng)的一個(gè)可自動(dòng)執(zhí)行的工具。挖掘算法是數(shù)據(jù)挖掘重要的組成部分。為解決特定的商業(yè)問題,一種或多種算法需要被選擇、編譯,在適于挖掘的數(shù)據(jù)環(huán)境下實(shí)施挖掘任務(wù)。從圖1看出,知識(shí)發(fā)現(xiàn)是需要人工參與的多環(huán)節(jié)的過程。

除以上談到的知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘的區(qū)別外,澄清存在于OLAP和數(shù)據(jù)挖掘之間認(rèn)識(shí)上的混淆會(huì)有助于對(duì)數(shù)據(jù)挖掘的理解:

Gartner Group等組織把OLAP視為數(shù)據(jù)挖掘的一部分。數(shù)據(jù)挖掘包含數(shù)據(jù)描述和數(shù)據(jù)建模。OLAP系統(tǒng)可以提供數(shù)據(jù)倉庫中數(shù)據(jù)的一般描述。但更多的認(rèn)識(shí)把OLAP和數(shù)據(jù)挖掘當(dāng)作互不相交的兩部分。OLAP是數(shù)據(jù)匯總/聚集工具,它幫助簡化數(shù)據(jù)分析。OLAP的功能基本上是用戶參與的匯總和比較(上鉆、下鉆、旋轉(zhuǎn)、切片、和其他操作);數(shù)據(jù)挖掘自動(dòng)發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的模式等有價(jià)值的知識(shí)。圖2從數(shù)據(jù)、信息和知識(shí)的角度形象地描述出OLAP和數(shù)據(jù)挖掘的邏輯關(guān)系。

另一點(diǎn),OLAP大多是限于數(shù)據(jù)倉庫中的數(shù)據(jù)。數(shù)據(jù)挖掘既可以分析現(xiàn)存的、比數(shù)據(jù)倉庫提供的匯總數(shù)據(jù)粒度更細(xì)的數(shù)據(jù),也可以分析事務(wù)的、文本的、空間的和多媒體數(shù)據(jù)。

2. 數(shù)據(jù)挖掘分類和知識(shí)發(fā)現(xiàn)過程

2.1. 數(shù)據(jù)挖掘分類

數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,有人工智能、數(shù)據(jù)統(tǒng)計(jì)、可視化、并行計(jì)算等。數(shù)據(jù)挖掘有多種分類方法。

2.1.1. 根據(jù)挖掘任務(wù)

可分為分類模型發(fā)現(xiàn)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列分析、偏差分析、數(shù)據(jù)可視化等。

(1) 分類(Classification)
其旨在生成一個(gè)分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。既可以用此模型分析已有的數(shù)據(jù),也可以用它來預(yù)測(cè)未來的數(shù)據(jù)。

(2) 聚集(Clustering)
聚集是對(duì)記錄分組,把相似的記錄在一個(gè)聚集里。聚集和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。

(3) 數(shù)據(jù)可視化(Description and Visualization)
數(shù)據(jù)可視化嚴(yán)格地講不是一個(gè)單獨(dú)的數(shù)據(jù)挖掘任務(wù),它被用來支持其他挖掘任務(wù)??梢暬遣捎脠D形、圖表等易于理解的方式表達(dá)數(shù)據(jù)挖掘結(jié)果。

(4) 關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
關(guān)聯(lián)規(guī)則是尋找數(shù)據(jù)庫中值的相關(guān)性,主要是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,比如在一次購買活動(dòng)中所買不同商品的相關(guān)性。

(5) 序列分析(Sequence Analysis)
序列模式分析同樣也是試圖找出數(shù)據(jù)之間的聯(lián)系。但它的側(cè)重點(diǎn)在于分析數(shù)據(jù)之間前后(因果)關(guān)系,因此對(duì)數(shù)據(jù)往往要求引入時(shí)間屬性。序列模式分析非常適于尋找事物的發(fā)生趨勢(shì)或重復(fù)性模式。

(6) 偏差分析(Deviation Analysis)
是用來發(fā)現(xiàn)與正常情況不同的異常和變化,并進(jìn)一步分析這種變化是否是有意的詐騙行為,還是正常的變化。如果是異常行為,則提示預(yù)防措施;如果是正常的變化,那么就需要更新數(shù)據(jù)庫記錄。

2.1.2. 根據(jù)挖掘?qū)ο?/P>

可分為關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時(shí)態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及環(huán)球網(wǎng)Web。

2.1.3. 根據(jù)挖掘方法

可粗略地分為:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法、決策樹、可視化、最近鄰技術(shù)等。在機(jī)器學(xué)習(xí)中,可細(xì)分為歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等;在統(tǒng)計(jì)方法中,可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動(dòng)態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。

2.2. 知識(shí)發(fā)現(xiàn)過程

數(shù)據(jù)挖掘包括商業(yè)需求、大量的數(shù)據(jù)和挖掘算法三部分。商業(yè)需求是真正的數(shù)據(jù)挖掘前期要明確的工作。挖掘算法是目前研究的熱點(diǎn)之一,主要圍繞采用新的挖掘算法解決特定商業(yè)問題和對(duì)挖掘算法的改進(jìn)上。由挖掘算法可形成挖掘工具。

知識(shí)發(fā)現(xiàn)過程可由三個(gè)主要階段組成:數(shù)據(jù)準(zhǔn)備、挖掘操作、結(jié)果表達(dá)和解釋,知識(shí)發(fā)現(xiàn)是這三個(gè)階段的反復(fù)。如圖1所示。

2.2.1. 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,解決語義模糊性、處理數(shù)據(jù)中的遺漏和清洗臟數(shù)據(jù)等。數(shù)據(jù)選擇確定需要分析的數(shù)據(jù)集合,提高數(shù)據(jù)挖掘的質(zhì)量。預(yù)處理是為了克服目前數(shù)據(jù)挖掘工具的局限性。

2.2.2. 數(shù)據(jù)挖掘

(1)先決定如何產(chǎn)生假設(shè)。是讓數(shù)據(jù)挖掘系統(tǒng)為用戶產(chǎn)生假設(shè),還是用戶自己參照數(shù)據(jù)庫可能包含的知識(shí)提出假設(shè)。前一種稱為發(fā)現(xiàn)型(discovery-driven)的數(shù)據(jù)挖掘,后一種稱為驗(yàn)證型(verification-driven)的數(shù)據(jù)挖掘。

(2)選擇合適的工具

(3)數(shù)據(jù)挖掘操作

(4)證實(shí)發(fā)現(xiàn)的知識(shí)

2.2.3. 結(jié)果表述和解釋

把提取的信息進(jìn)行分析,通過決策支持工具提交給決策者。這一階段不僅把結(jié)果表達(dá)出來,而且知識(shí)發(fā)現(xiàn)系統(tǒng)會(huì)采用解釋和推理機(jī)制,將這些知識(shí)直接提供給決策者,也可以提供給領(lǐng)域?qū)<?,修正已有知識(shí)庫供系統(tǒng)共享。如果不滿意,需要重復(fù)以上知識(shí)發(fā)現(xiàn)的過程。

3. 數(shù)據(jù)挖掘的研究熱點(diǎn)

目前,數(shù)據(jù)挖掘的研究熱點(diǎn)圍繞挖掘算法展開。數(shù)據(jù)挖掘是綜合了機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)統(tǒng)計(jì)等學(xué)科的研究領(lǐng)域。隨著數(shù)據(jù)挖掘工具在實(shí)際應(yīng)用中的迅速增長,相關(guān)學(xué)科成熟的算法實(shí)現(xiàn)不斷地加入到數(shù)據(jù)挖掘中來;挖掘算法的研究還包括對(duì)現(xiàn)有挖掘算法的優(yōu)化和改進(jìn),比如使用全局搜索算法優(yōu)化神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程。除此以外,數(shù)據(jù)挖掘還有以下研究熱點(diǎn):

3.1.數(shù)據(jù)挖掘原語

我們把數(shù)據(jù)挖掘原語可以理解為有效輔助數(shù)據(jù)挖掘?qū)嵤┲R(shí)發(fā)現(xiàn)功能的思想和做法,是知識(shí)發(fā)現(xiàn)的輔助工具。數(shù)據(jù)挖掘原語的研究是為了支持有效的知識(shí)發(fā)現(xiàn),為了讓用戶更加易于理解挖掘出來的知識(shí)。用戶能夠通過數(shù)據(jù)挖掘原語與數(shù)據(jù)挖掘系統(tǒng)通信,從不同的角度和深度審查發(fā)現(xiàn)結(jié)果,并指導(dǎo)挖掘過程。這組原語包括數(shù)據(jù)庫說明的部分或用戶感興趣的數(shù)據(jù)集、要挖掘的知識(shí)類型、用于指導(dǎo)挖掘過程的背景知識(shí)、模式評(píng)估以及度量和如何顯示所發(fā)現(xiàn)的知識(shí)等等。

3.2.數(shù)據(jù)挖掘語言及標(biāo)準(zhǔn)

數(shù)據(jù)挖掘行業(yè)是高度分散的,公司和研究機(jī)構(gòu)獨(dú)立開發(fā)各自的數(shù)據(jù)挖掘系統(tǒng)和平臺(tái),沒有形成開放性的標(biāo)準(zhǔn);同時(shí)數(shù)據(jù)挖掘本身是一門多學(xué)科綜合跨度非常大的技術(shù),這些造成了數(shù)據(jù)挖掘在通用性方面存在一系列問題 :①各種數(shù)據(jù)挖掘問題及挖掘方法基于不同的模型和技術(shù),彼此互相孤立,聯(lián)系很少;②缺少簡明精確的問題描述方法,挖掘的語義通常是由實(shí)現(xiàn)方法決定的;③數(shù)據(jù)挖掘系統(tǒng)僅提供孤立的知識(shí)發(fā)現(xiàn)功能,難于嵌入大型應(yīng)用;④數(shù)據(jù)挖掘引擎與數(shù)據(jù)庫系統(tǒng)是松散耦合的。數(shù)據(jù)挖掘語言和標(biāo)準(zhǔn)的開發(fā)有望解決上述問題。

目前,已實(shí)現(xiàn)的數(shù)據(jù)挖掘語言有DMQL、MSQL和MINE RULE等;數(shù)據(jù)挖掘語言標(biāo)準(zhǔn)有PMML(DMG:數(shù)據(jù)挖掘組織協(xié)會(huì))和OLE DB for Data Mining(微軟)。

3.3.數(shù)據(jù)挖掘系統(tǒng)

知識(shí)發(fā)現(xiàn)是一個(gè)有機(jī)的整體,各個(gè)部分之間有著密切的關(guān)系。我們稱圍繞某一數(shù)據(jù)挖掘任務(wù)的知識(shí)發(fā)現(xiàn)過程為數(shù)據(jù)挖掘系統(tǒng)。應(yīng)該說所有的算法是為某一個(gè)挖掘系統(tǒng)服務(wù)的。數(shù)據(jù)挖掘系統(tǒng)的研究是為了建立科學(xué)的系統(tǒng)結(jié)構(gòu),利于挖掘算法的重用、嵌入,利于算法與系統(tǒng)其他模塊有機(jī)結(jié)合。圖3是一個(gè)挖掘系統(tǒng)的原型結(jié)構(gòu)。

3.4.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘

把數(shù)據(jù)挖掘建立在數(shù)據(jù)倉庫之上,一方面能夠提高數(shù)據(jù)倉庫系統(tǒng)的決策支持能力,另一方面,由于數(shù)據(jù)倉庫完成了數(shù)據(jù)的清洗、ETL(抽取,轉(zhuǎn)換,裝載),數(shù)據(jù)挖掘面對(duì)的是經(jīng)過初步處理的數(shù)據(jù),更加有利于數(shù)據(jù)挖掘功能的發(fā)揮。這方面的研究集中在基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)的探討上。

3.5.OLAM

OLAM將OLAP和數(shù)據(jù)挖掘功能集成在一起,可以實(shí)現(xiàn)數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇,為用戶選擇所期望的數(shù)據(jù)挖掘功能、動(dòng)態(tài)地改變數(shù)據(jù)挖掘任務(wù)提供了靈活性。OLAM和OLAP通過圖形用戶界面GUI接受用戶指令,對(duì)數(shù)據(jù)立方體Cube進(jìn)行數(shù)據(jù)分析、挖掘。由于OLAM服務(wù)器可以執(zhí)行如關(guān)聯(lián)、分類、預(yù)測(cè)、聚類、時(shí)序分析等多種數(shù)據(jù)挖掘任務(wù),它通常由多個(gè)集成的數(shù)據(jù)挖掘模塊組成。

3.6.數(shù)據(jù)挖掘與具體應(yīng)用的結(jié)合

數(shù)據(jù)挖掘目前在醫(yī)學(xué)、電信、零售業(yè)等多個(gè)應(yīng)用領(lǐng)域均有成功的應(yīng)用案例。隨著越來越多的業(yè)務(wù)需求被不斷明確,數(shù)據(jù)挖掘應(yīng)用的領(lǐng)域和解決的問題會(huì)越來越廣泛;一些應(yīng)用系統(tǒng),如ERP、SCM、HR等系統(tǒng)也逐漸與數(shù)據(jù)挖掘集成起來,用以提高系統(tǒng)的決策支持能力。這方面的研究熱點(diǎn)包括數(shù)據(jù)挖掘與商業(yè)智能(BI)、CRM、WEB應(yīng)用的結(jié)合。

4.總結(jié)

數(shù)據(jù)挖掘是當(dāng)前計(jì)算機(jī)工業(yè)最熱門的研究領(lǐng)域之一。數(shù)據(jù)挖掘是一個(gè)不斷發(fā)展的、綜合交叉的學(xué)科。本文從知識(shí)的形態(tài)和知識(shí)產(chǎn)生的視角闡述了數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘與OLAP的區(qū)別與聯(lián)系,本文還總結(jié)了數(shù)據(jù)挖掘的分類以及數(shù)據(jù)挖掘在知識(shí)發(fā)現(xiàn)過程中的地位與作用。最后,對(duì)當(dāng)前數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)進(jìn)行了詳細(xì)的概括與總結(jié)。

來源:中國商業(yè)智能網(wǎng)

標(biāo)簽:濮陽 十堰 鎮(zhèn)江 湘潭 巴中 嘉峪關(guān) 蘭州 福州

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《數(shù)據(jù)挖掘(DM)的全視圖》,本文關(guān)鍵詞  數(shù)據(jù)挖掘,的,全,視圖,數(shù)據(jù)挖掘,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《數(shù)據(jù)挖掘(DM)的全視圖》相關(guān)的同類信息!
  • 本頁收集關(guān)于數(shù)據(jù)挖掘(DM)的全視圖的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章