非監(jiān)督學(xué)習(xí)方法大全
篇一:非監(jiān)督學(xué)習(xí)法
非監(jiān)督學(xué)習(xí)法
本章重點(diǎn)
1. 什么叫非監(jiān)督學(xué)習(xí)方法,什么叫有監(jiān)督學(xué)習(xí)方法?
2. 非監(jiān)督學(xué)習(xí)方法主要的用途
3. 非監(jiān)督學(xué)習(xí)方法的兩種基本處理方法:按分布密集程度劃分,與按相似度聚類(lèi)劃分
4. 按分布密度程度劃分的基本方法
5. 動(dòng)態(tài)聚類(lèi)方法與分級(jí)聚類(lèi)方法的概念
6. 典型的動(dòng)態(tài)聚類(lèi)方法C-均值算法與ISODATA算法
7. 使用非歐氏距離計(jì)算相似度的動(dòng)態(tài)聚類(lèi)方法
8. 分級(jí)聚類(lèi)方法
本章課前思考題
1. 如果給機(jī)器一維數(shù)據(jù),機(jī)器能自動(dòng)地找出其中存在的規(guī)律嗎?
2. 有人把非監(jiān)督學(xué)習(xí)方法叫無(wú)教師的學(xué)習(xí),而把第二章、第三章討論的內(nèi)容成為有監(jiān)督學(xué)習(xí),又稱有教師的學(xué)習(xí),你知道誰(shuí)是教師嗎?教師的作用體現(xiàn)在哪里?
3. 機(jī)器能總結(jié)數(shù)據(jù)中存在的哪些規(guī)律呢?
4. 機(jī)器能總結(jié)天氣變化的規(guī)律,給出天氣預(yù)報(bào)嗎?
5. 機(jī)器能炒股嗎?
6. 非監(jiān)督學(xué)習(xí)方法與數(shù)據(jù)有關(guān)系嗎?
知識(shí)樹(shù)
5.1 引 言
以前各章討論的分類(lèi)器設(shè)計(jì)方法都是在樣本集中的類(lèi)別標(biāo)簽已知的條件下進(jìn)行的,這些樣本稱為訓(xùn)練樣本。在樣本標(biāo)簽已知的情況下,可以統(tǒng)計(jì)出各類(lèi)訓(xùn)練樣本不同的描述量,如其概率分布,或在特征空間分布的區(qū)域等,利用這些參數(shù)進(jìn)行分類(lèi)器設(shè)計(jì),稱為有監(jiān)督的學(xué)習(xí)方法。然而在實(shí)際應(yīng)用中,不少情況下無(wú)法預(yù)先知道樣本的標(biāo)簽,也就是說(shuō)沒(méi)有訓(xùn)練樣本,因而只能從原先沒(méi)有樣本標(biāo)簽的樣本集開(kāi)始進(jìn)行分類(lèi)器設(shè)計(jì),這就是通常說(shuō)的無(wú)監(jiān)督學(xué)習(xí)方法。對(duì)一個(gè)具體問(wèn)題來(lái)說(shuō)有監(jiān)督與無(wú)監(jiān)督的作法是不相同的。
人們?nèi)粘I钪薪?jīng)常要觀察事物與分析事物,從中尋找其規(guī)律性,這就是非監(jiān)督學(xué)習(xí)方法要解決的問(wèn)題。例如人們見(jiàn)到圖5.1的道路圖時(shí),會(huì)發(fā)現(xiàn)中間有一條帶與圖中其它區(qū)域不同,見(jiàn)到圖5.3會(huì)發(fā)現(xiàn)在這個(gè)二維空間中有數(shù)據(jù)顯現(xiàn)出聚成兩類(lèi)的現(xiàn)象。這就是事物(對(duì)我們來(lái)說(shuō)就是數(shù)據(jù)集)自身體現(xiàn)出的一些規(guī)律性,非監(jiān)督學(xué)習(xí)方法就是尋找數(shù)據(jù)集中體現(xiàn)出來(lái)的規(guī)律性。從中我們可以強(qiáng)調(diào)非監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)方法的以下幾種不同點(diǎn):
1. 有監(jiān)督學(xué)習(xí)方法必須要有訓(xùn)練集與測(cè)試樣本。在訓(xùn)練集中找規(guī)律,而對(duì)測(cè)試樣本使用這種規(guī)律;而非監(jiān)督學(xué)習(xí)沒(méi)有訓(xùn)練集這一說(shuō),只有一組數(shù)據(jù),在該組數(shù)據(jù)集內(nèi)尋找規(guī)律。
2. 有監(jiān)督學(xué)習(xí)方法的目的就是識(shí)別事物,識(shí)別的結(jié)果表現(xiàn)在給待識(shí)別數(shù)據(jù)加上了標(biāo)號(hào)。因此訓(xùn)練樣本集必須由帶標(biāo)號(hào)的樣本組成。而非監(jiān)督學(xué)習(xí)方法只有要分析的數(shù)據(jù)集本身,預(yù)先沒(méi)有什么標(biāo)號(hào)。如果發(fā)現(xiàn)數(shù)據(jù)集呈現(xiàn)某種聚集性,則可按自然的聚集性分類(lèi),但不以與某種預(yù)先的分類(lèi)標(biāo)號(hào)對(duì)上號(hào)為目的。例如圖
5.1道路圖像,有監(jiān)督學(xué)習(xí)方法的目的是找到“道路”,而非監(jiān)督學(xué)習(xí)方法則只是將中間一條帶狀區(qū)域區(qū)分開(kāi)來(lái),本質(zhì)上講與“道路”這個(gè)標(biāo)號(hào)沒(méi)有關(guān)系。
3. 非監(jiān)督學(xué)習(xí)方法在尋找數(shù)據(jù)集中的規(guī)律性,這種規(guī)律性并不一定要達(dá)到劃分?jǐn)?shù)據(jù)集的目的,也就是說(shuō)不一定要“分類(lèi)”。這一點(diǎn)是比有監(jiān)督學(xué)習(xí)方法的用途要廣泛。譬如分析一堆數(shù)據(jù)的主分量,或分析數(shù)據(jù)集有什么特點(diǎn)都可以歸于非監(jiān)督學(xué)習(xí)方法的范疇。
4. 用非監(jiān)督學(xué)習(xí)方法分析數(shù)據(jù)集的主分量與用K-L變換計(jì)算數(shù)據(jù)集的主分量又有區(qū)別。應(yīng)該說(shuō)后者從方法上講不是一種學(xué)習(xí)方法。因此用K-L變換找主分量不屬于非監(jiān)督學(xué)習(xí)方法,即方法上不是。而通過(guò)學(xué)習(xí)逐漸找到規(guī)律性這體現(xiàn)了學(xué)習(xí)方法這一點(diǎn)。在人工神經(jīng)元網(wǎng)絡(luò)中尋找主分量的方法屬于非監(jiān)督學(xué)習(xí)方法。 以上四點(diǎn)是對(duì)非監(jiān)督學(xué)習(xí)方法的定義,及與有監(jiān)督學(xué)習(xí)方法的區(qū)別。
例如圖5.1表示對(duì)一幅道路圖像按路面與非路面分類(lèi)可用兩種不同做法,其中左圖是在圖像中路面區(qū)與非路面中各找一個(gè)窗口,將其中每個(gè)象素分別作為這兩類(lèi)的訓(xùn)練樣本集,用這兩個(gè)樣本集在特征空間的分布參數(shù)進(jìn)行設(shè)計(jì)。而無(wú)監(jiān)督學(xué)習(xí)方法則不同,它不預(yù)先選擇樣本類(lèi)別的樣本集,而是將整幅圖的像素都作為待分類(lèi)樣本集,通過(guò)它們?cè)谔卣骺臻g中表現(xiàn)出來(lái)的聚類(lèi)現(xiàn)象,把不同類(lèi)別劃分開(kāi)。
圖5.1的有監(jiān)督學(xué)習(xí)中,樣本集分布呈現(xiàn)交迭情況,而無(wú)監(jiān)督學(xué)習(xí)方法由于沒(méi)有類(lèi)別樣本指導(dǎo),無(wú)法確定它們的交迭情況,只能按分布的聚類(lèi)情況進(jìn)行劃分。在類(lèi)似于該例的實(shí)際應(yīng)用問(wèn)題中,預(yù)先選定不同類(lèi)別的樣本往往不可能,如時(shí)間不允許,或無(wú)法用人工干予等因素。另外在某些有監(jiān)督學(xué)習(xí)方法中,也往往需要
利用聚類(lèi)方法將樣本按其分布劃分成若干子類(lèi)等。聚類(lèi)方法就是無(wú)監(jiān)督學(xué)習(xí)方法的一個(gè)內(nèi)容,它是經(jīng)常應(yīng)用的一門(mén)技術(shù)。
圖 5.1 無(wú)監(jiān)督學(xué)習(xí)方法可以分成兩大類(lèi),一類(lèi)為基于概率密度函數(shù)估計(jì)的直接方法,指設(shè)法找到各類(lèi)別在特征空間的分布參數(shù)再進(jìn)行分類(lèi)。另一類(lèi)稱為基于樣本間相似性度量的間接聚類(lèi)方法,其原理是設(shè)法定出不同類(lèi)別的核心或初始類(lèi)核,然后依據(jù)樣本與這些核心之間的相似性度量將樣本聚集成不同類(lèi)別。下面分別討論這兩種方法。
最常用的基于概率密度估計(jì)的直接方法的例子是直方圖方法。例如我們統(tǒng)計(jì)一所學(xué)校中學(xué)生身高分布就往往可采用直方圖方法,把身高劃分成一段段,如1米到1米75算一段,然后對(duì)每一段統(tǒng)計(jì)身高在此范圍內(nèi)的學(xué)生數(shù),得到直方圖。如果這個(gè)學(xué)校的男女學(xué)生數(shù)目相近,則我們就會(huì)發(fā)現(xiàn)該直方圖會(huì)體現(xiàn)出有兩個(gè)分布高峰。那么找到兩高峰中的谷點(diǎn),就會(huì)將學(xué)生劃分成兩類(lèi)。
因此,使用概率統(tǒng)計(jì)方法的關(guān)鍵是能找出各個(gè)峰值區(qū),這就是5.2節(jié)中的主要內(nèi)容。另一種方法則在5.3節(jié)中再進(jìn)一步討論。5.2 單峰子類(lèi)的分離方法
對(duì)于樣本在某一種度量中的分布統(tǒng)計(jì),一般稱為直方圖統(tǒng)計(jì),在樣本數(shù)量很大時(shí),又可作為概率統(tǒng)計(jì)的估計(jì)。由于這種方法基于將樣本投影到某個(gè)坐標(biāo)軸上,因而稱為投影方法。 使用投影方法有兩個(gè)組成部分,一個(gè)是如何設(shè)計(jì)合適的坐標(biāo)系統(tǒng), 另一是如何設(shè)計(jì)直方圖。
如果對(duì)于各類(lèi)別的類(lèi)條件概率分布一無(wú)所知,我們只按待分類(lèi)樣本在特征空間的自然聚集進(jìn)行劃分。如圖5.2所示的一維特征空間中,樣本在整個(gè)特征空間中呈現(xiàn)出兩個(gè)分布高峰,如果從分布的谷點(diǎn)將此特征空間劃分為兩個(gè)區(qū),則對(duì)應(yīng)每個(gè)區(qū)域,樣本分布就只有一個(gè)峰值,這些區(qū)域被稱為單峰區(qū)域,而每個(gè)單峰區(qū)域則被看作不同的決策域。落在同一單峰區(qū)域的待分類(lèi)樣本就被劃分成同一類(lèi),稱為單峰子類(lèi)。下面討論一些單峰子類(lèi)的劃分算法。
圖 5.2
5.2.1 投影法
投影法的原理很簡(jiǎn)單,拿圖5.3顯示的一個(gè)二維空間為例。在該分類(lèi)問(wèn)題中,兩個(gè)類(lèi)別分別在其特征空間中形成兩個(gè)聚類(lèi),圖中用兩個(gè)區(qū)域的輪廓勾出這兩類(lèi)樣本聚類(lèi)的區(qū)域。對(duì)人來(lái)說(shuō)一旦畫(huà)出這兩類(lèi)的空間分布,可以很容易地判斷出這兩類(lèi)在特征空間聚集的區(qū)域,但是對(duì)計(jì)算機(jī)來(lái)說(shuō),要識(shí)別出這兩類(lèi)的分布情況,直接從二維的圖形來(lái)說(shuō)是很困難的,更不用說(shuō)在高維特征空間直接對(duì)樣本的分布作出判斷了。一個(gè)辦法是如果將樣本對(duì)某個(gè)方向的軸作投影,或換句話說(shuō)只取這些樣本的某一分量的統(tǒng)計(jì)值來(lái)看,樣本的分布往往顯現(xiàn)出高峰與低谷,找到低谷,將峰值分別劃分在不同的區(qū)域中,每個(gè)區(qū)域只有一個(gè)高峰,并把聚在同一高峰下的樣本劃分為一類(lèi),這是計(jì)算機(jī)容易做到的。對(duì)于樣本在某一種度量中的分布統(tǒng)計(jì),一般稱為直方圖統(tǒng)計(jì),在樣本數(shù)量很大時(shí),又可作為概率統(tǒng)計(jì)的估計(jì)。由于這種方法基于將樣本投影到某個(gè)坐標(biāo)軸上,因而稱為投影方法。
圖 5.3
使用投影方法有兩個(gè)組成部分,一個(gè)是如何設(shè)計(jì)合適的坐標(biāo)系統(tǒng),另一是如何設(shè)計(jì)直方圖。在樣本屬性完全不知的情況下,如何選擇坐標(biāo)系統(tǒng),是比較困難的,因?yàn)檫@時(shí)還沒(méi)有一個(gè)準(zhǔn)則函數(shù)來(lái)表征這樣一個(gè)坐標(biāo)系統(tǒng)的性質(zhì)。一種啟發(fā)式的辦法是使待分類(lèi)的樣本在某個(gè)坐標(biāo)軸方向具有最大的分散性,這可以采用上一章討論過(guò)的K-L變換方法。具體說(shuō)來(lái)是用混合樣本協(xié)方差矩陣作為K-L變換的產(chǎn)生矩陣,找到其特征值,并按大小排序,對(duì)應(yīng)最大特征值的特征向量對(duì)此混合樣本來(lái)說(shuō),離散程度最大,預(yù)期能發(fā)現(xiàn)明顯的峰值,但是這種方法并不能保證分出各個(gè)聚類(lèi),例如圖5.4所示情況,其兩個(gè)特征向量 都只呈現(xiàn)單峰狀態(tài),無(wú)法用此法將他們分開(kāi)。
圖 5.4
投影法的具體算法分以下幾個(gè)步驟:
步驟1: 計(jì)算樣本協(xié)方差矩陣具有最大特征值的特征向量Uj,把數(shù)據(jù)投影
到Uj軸上。
步驟2: 用直方圖方法求數(shù)據(jù)的邊緣概率密度函數(shù)。
步驟3: 在直方圖的峰值間求最小值,在這些最小點(diǎn)作垂直于Uj的各個(gè)超平面把數(shù)據(jù)劃分為若干個(gè)聚類(lèi)。
步驟4: 如果在這個(gè)軸上沒(méi)有這樣的最小值,則用下一個(gè)最大特征值對(duì)應(yīng)的特征向量重復(fù)以上過(guò)程。
步驟5: 對(duì)每個(gè)得到的子集(聚類(lèi))重復(fù)上述過(guò)程,直到每個(gè)集不能再分(為單峰)為止。
5.2.2 基于對(duì)稱集性質(zhì)的單峰子集分離法
不要求
在一個(gè)多維空間中給單峰區(qū)域下嚴(yán)格的定義是困難的。譬如一個(gè)單峰區(qū)域的數(shù)據(jù)集用Γ表示,峰值在處形成,則可寫(xiě)在
(5-1)
但是僅滿足(5-1)式的區(qū)域并不能保證是單峰區(qū)。另一方面,如果考慮數(shù)據(jù)Γ,其中任何一對(duì)點(diǎn)y1和y2之間的距離用
式的性質(zhì)外,還具有以下性質(zhì): 表示,該數(shù)據(jù)集Γ除了具備(5-1)
篇二:有監(jiān)督學(xué)習(xí)(supervised learning)和無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)
有監(jiān)督學(xué)習(xí)(supervised learning)和無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning) 機(jī)器學(xué)習(xí)的常用方法,主要分為有監(jiān)督學(xué)習(xí)(supervised learning)和無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)。監(jiān)督學(xué)習(xí),就是人們常說(shuō)的分類(lèi),通過(guò)已有的訓(xùn)練樣本(即已知數(shù)據(jù)以及其對(duì)應(yīng)的輸出)去訓(xùn)練得到一個(gè)最優(yōu)模型(這個(gè)模型屬于某個(gè)函數(shù)的集合,最優(yōu)則表示在某個(gè)評(píng)價(jià)準(zhǔn)則下是最佳的),再利用這個(gè)模型將所有的輸入映射為相應(yīng)的輸出,對(duì)輸出進(jìn)行簡(jiǎn)單的判斷從而實(shí)現(xiàn)分類(lèi)的目的,也就具有了對(duì)未知數(shù)據(jù)進(jìn)行分類(lèi)的能力。在人對(duì)事物的認(rèn)識(shí)中,我們從孩子開(kāi)始就被大人們教授這是鳥(niǎo)啊、那是豬啊、那是房子啊,等等。我們所見(jiàn)到的景物就是輸入數(shù)據(jù),而大人們對(duì)這些景物的判斷結(jié)果(是房子還是鳥(niǎo)啊)就是相應(yīng)的輸出。當(dāng)我們見(jiàn)識(shí)多了以后,腦子里就慢慢地得到了一些泛化的模型,這就是訓(xùn)練得到的那個(gè)(或者那些)函數(shù),從而不需要大人在旁邊指點(diǎn)的時(shí)候,我們也能分辨的出來(lái)哪些是房子,哪些是鳥(niǎo)。監(jiān)督學(xué)習(xí)里典型的例子就是KNN、SVM。無(wú)監(jiān)督學(xué)習(xí)(也有人叫非監(jiān)督學(xué)習(xí),反正都差不多)則是另一種研究的比較多的學(xué)習(xí)方法,它與監(jiān)督學(xué)習(xí)的不同之處,在于我們事先沒(méi)有任何訓(xùn)練樣本,而需要直接對(duì)數(shù)據(jù)進(jìn)行建模。這聽(tīng)起來(lái)似乎有點(diǎn)不可思議,但是在我們自身認(rèn)識(shí)世界的過(guò)程中很多處都用到了無(wú)監(jiān)督學(xué)習(xí)。比如我們?nèi)⒂^一個(gè)畫(huà)展,我們完全對(duì)藝術(shù)一無(wú)所知,但是欣賞完多幅作品之后,我們也能把它們分成不同的派別(比如哪些更朦朧一點(diǎn),哪些更寫(xiě)實(shí)一些,即使我們不知道什么叫做朦朧派,什么叫做寫(xiě)實(shí)派,但是至少我們能把他們分為兩個(gè)類(lèi))。無(wú)監(jiān)督學(xué)習(xí)里典型的例子就是聚類(lèi)了。聚類(lèi)的目的在于把相似的東西聚在一起,而我們并不關(guān)心這一類(lèi)是什么。因此,一個(gè)聚類(lèi)算法通常只需要知道如何計(jì)算相似度就可以開(kāi)始工作了。
那么,什么時(shí)候應(yīng)該采用監(jiān)督學(xué)習(xí),什么時(shí)候應(yīng)該采用非監(jiān)督學(xué)習(xí)呢?我也是從一次面試的過(guò)程中被問(wèn)到這個(gè)問(wèn)題以后才開(kāi)始認(rèn)真地考慮答案。一種非常簡(jiǎn)單的回答就是從定義入手,如果我們?cè)诜诸?lèi)的過(guò)程中有訓(xùn)練樣本(training data),則可以考慮用監(jiān)督學(xué)習(xí)的方法;如果沒(méi)有訓(xùn)練樣本,則不可能用監(jiān)督學(xué)習(xí)的方法。但是事實(shí)上,我們?cè)卺槍?duì)一個(gè)現(xiàn)實(shí)問(wèn)題進(jìn)行解答的過(guò)程中,即使我們沒(méi)有現(xiàn)成的訓(xùn)練樣本,我們也能夠憑借自己的雙眼,從待分類(lèi)的數(shù)據(jù)中人工標(biāo)注一些樣本,并把他們作為訓(xùn)練樣本,這樣的話就可以把條件改善,用監(jiān)督學(xué)習(xí)的方法來(lái)做。當(dāng)然不得不說(shuō)的是有時(shí)候數(shù)據(jù)表達(dá)的會(huì)非常隱蔽,也就是說(shuō)我們手頭的信息不是抽象的形式,而是具體的一大堆數(shù)字,這樣我們很難憑借人本身對(duì)它們簡(jiǎn)單地進(jìn)行分類(lèi)。這個(gè)說(shuō)的好像有點(diǎn)不大明白,舉個(gè)例子說(shuō)就是在bag-of-words模型的時(shí)候,我們利用k-means的方法聚類(lèi)從而對(duì)數(shù)據(jù)投影,這時(shí)候用k-means就是因?yàn)槲覀儺?dāng)前到手的只有一大堆數(shù)據(jù),而且是很高維的,當(dāng)我們想把他們分為50個(gè)類(lèi)的時(shí)候,我們已經(jīng)無(wú)力將每個(gè)數(shù)據(jù)標(biāo)記說(shuō)這個(gè)數(shù)應(yīng)該是哪個(gè)類(lèi),那個(gè)數(shù)又應(yīng)該是哪個(gè)類(lèi)了。所以說(shuō)遇到這種情況也只有無(wú)監(jiān)督學(xué)習(xí)能夠幫助我們了。那么這么說(shuō)來(lái),能不能再深入地問(wèn)下去,如果有訓(xùn)練樣本(或者說(shuō)如果我們可以獲得到一些訓(xùn)練數(shù)據(jù)的話),監(jiān)督學(xué)習(xí)就會(huì)比無(wú)監(jiān)督學(xué)習(xí)更合適呢?(照我們單純地想,有高人教總比自己領(lǐng)悟來(lái)的準(zhǔn),來(lái)的快吧!)我覺(jué)得一般來(lái)說(shuō),是這樣的,但是這要具體看看訓(xùn)練數(shù)據(jù)的獲取。本人在最近課題的研究中,手動(dòng)標(biāo)注了大量的訓(xùn)練樣本(當(dāng)然這些樣本基本準(zhǔn)確了),而且把樣本畫(huà)在特征空間中發(fā)現(xiàn)線性可分性非常好,只是在分類(lèi)面附近總有一些混淆的數(shù)據(jù)樣本,從而用線性分類(lèi)器進(jìn)行分類(lèi)之后這樣樣本會(huì)被誤判。然而,如果用混合高斯模型(GMM)來(lái)分的話,這些易混淆的點(diǎn)被正確分類(lèi)的更多了。對(duì)這個(gè)現(xiàn)象的一個(gè)解釋,就是不管是訓(xùn)練樣本,還是待聚類(lèi)的數(shù)據(jù),并不是所有數(shù)據(jù)都是相互獨(dú)立同分布的。換句話說(shuō),數(shù)據(jù)與數(shù)據(jù)的分布之間存在聯(lián)系。在我閱讀監(jiān)督學(xué)習(xí)的大量材料中,大家都沒(méi)有對(duì)訓(xùn)練數(shù)據(jù)的這一假設(shè)(獨(dú)立同分布)進(jìn)行說(shuō)明,直到我閱讀到一本書(shū)的提示后才恍然大悟。對(duì)于不同的場(chǎng)景,正負(fù)樣本的分布如果會(huì)存在偏移(可能是大的偏移,也可能偏移比較小),這樣的話用監(jiān)督學(xué)習(xí)的效果可能就不如用非監(jiān)督學(xué)習(xí)了。
篇三:監(jiān)督學(xué)習(xí)算法基礎(chǔ)知識(shí)整理
第三章 監(jiān)督學(xué)習(xí)算法
監(jiān)督學(xué)習(xí)又稱為分類(lèi)(Classification)或者歸納學(xué)習(xí)(Inductive Learning)。幾乎適用于所有領(lǐng)域,包括文本和網(wǎng)頁(yè)處理。給出一個(gè)數(shù)據(jù)集D,機(jī)器學(xué)習(xí)的目標(biāo)就是產(chǎn)生一個(gè)聯(lián)系屬性值集合A和類(lèi)標(biāo)集合C的分類(lèi)/預(yù)測(cè)函數(shù)(Classification/Prediction Function),這個(gè)函數(shù)可以用于預(yù)測(cè)新的屬性集合的類(lèi)標(biāo)。這個(gè)函數(shù)又被稱為分類(lèi)模型(Classification Model)、預(yù)測(cè)模型(Prediction Model)。這個(gè)分類(lèi)模型可以是任何形式的,例如決策樹(shù)、規(guī)則集、貝葉斯模型或者一個(gè)超平面。
在監(jiān)督學(xué)習(xí)(Supervised Learning)中,已經(jīng)有數(shù)據(jù)給出了類(lèi)標(biāo);與這一方式相對(duì)的是無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning),在這種方式中,所有的類(lèi)屬性都是未知的,算法需要根據(jù)數(shù)據(jù)集的特征自動(dòng)產(chǎn)生類(lèi)屬性。其中算法中用于進(jìn)行學(xué)習(xí)的數(shù)據(jù)集叫做訓(xùn)練數(shù)據(jù)集,當(dāng)使用學(xué)習(xí)算法用訓(xùn)練數(shù)據(jù)集學(xué)習(xí)得到一個(gè)模型以后,我們使用測(cè)試數(shù)據(jù)集來(lái)評(píng)測(cè)這個(gè)模型的精準(zhǔn)度。
機(jī)器學(xué)習(xí)的最基本假設(shè):訓(xùn)練數(shù)據(jù)的分布應(yīng)該與測(cè)試數(shù)據(jù)的分布一致。
訓(xùn)練算法:訓(xùn)練算法就是給定一組樣本,我們計(jì)算這些參數(shù)的方法。本節(jié)簡(jiǎn)要介紹以下幾種常用的機(jī)器學(xué)習(xí)算法,比如決策樹(shù),樸素貝葉斯,神經(jīng)網(wǎng)絡(luò),支持向量機(jī),線性最小平方擬合,kNN,最大熵等。
3.1 兩類(lèi)感知器
見(jiàn)課本
3.2 多類(lèi)感知器
見(jiàn)課本
3.3 決策樹(shù)算法
決策樹(shù)學(xué)習(xí)算法是分類(lèi)算法中最廣泛應(yīng)用的一種技術(shù),這種算法的分類(lèi)精度與其他算法相比具有相當(dāng)?shù)母?jìng)爭(zhēng)力,并且十分高效。
決策樹(shù)是一個(gè)預(yù)測(cè)模型;他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。樹(shù)中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象屬性,而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值,而每個(gè)葉結(jié)點(diǎn)則對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值(類(lèi)別)。決策樹(shù)僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹(shù)以處理不同輸出。
如何構(gòu)造精度高、規(guī)模小的決策樹(shù)是決策樹(shù)算法的核心內(nèi)容。決策樹(shù)構(gòu)造可以分兩步進(jìn)行。
決策樹(shù)的生成:由訓(xùn)練樣本集生成決策樹(shù)的過(guò)程。一般情況下,訓(xùn)練樣本數(shù)據(jù)集
是根據(jù)實(shí)際需要有歷史的、有一定綜合程度的,用于數(shù)據(jù)分析處理的數(shù)據(jù)集。
1. 樹(shù)以代表訓(xùn)練樣本的單個(gè)結(jié)點(diǎn)開(kāi)始。
2. 如果樣本都在同一個(gè)類(lèi).則該結(jié)點(diǎn)成為樹(shù)葉,并用該類(lèi)標(biāo)記。
3. 否則,算法選擇最有分類(lèi)能力的屬性作為決策樹(shù)的當(dāng)前結(jié)點(diǎn)。
4. 根據(jù)當(dāng)前決策結(jié)點(diǎn)屬性取值的不同,將訓(xùn)練樣本數(shù)據(jù)集分為若干子集,每個(gè)取值形成一個(gè)分枝。
5. 針對(duì)上一步得到的一個(gè)子集,重復(fù)進(jìn)行先前步驟,形成每個(gè)劃分樣本上的決策樹(shù)。
6. 遞歸劃分步驟僅當(dāng)下列條件之一成立時(shí)停止:
(a) 給定結(jié)點(diǎn)的所有樣本屬于同一類(lèi)。
(b) 沒(méi)有剩余屬性可以用來(lái)進(jìn)一步劃分樣本。以樣本組中個(gè)數(shù)最多的類(lèi)別作為類(lèi)別標(biāo)記。
決策樹(shù)的剪技:決策樹(shù)的剪枝是對(duì)上一階段生成的決策樹(shù)進(jìn)行檢驗(yàn)、校正和修下的過(guò)程,主要是用新的樣本數(shù)扼集(稱為測(cè)試數(shù)據(jù)集)中的數(shù)據(jù)校驗(yàn)決策樹(shù)生成過(guò)程中產(chǎn)生的初步規(guī)則,將那些影響預(yù)衡準(zhǔn)確性的'分枝剪除。由于數(shù)據(jù)表示不當(dāng)、有噪聲或者由于決策樹(shù)生成時(shí)產(chǎn)生重復(fù)的子樹(shù)等原因,都會(huì)造成產(chǎn)生的決策樹(shù)過(guò)大。因此,簡(jiǎn)化決策樹(shù)是一個(gè)不可缺少的環(huán)節(jié)。尋找一棵最優(yōu)決策樹(shù),主要應(yīng)解決以下3個(gè)最優(yōu)化問(wèn)題:
1. 生成最少數(shù)目的葉子節(jié)點(diǎn);
2. 生成的每個(gè)葉子節(jié)點(diǎn)的深度最小;
3. 生成的決策樹(shù)葉子節(jié)點(diǎn)最少且每個(gè)葉子節(jié)點(diǎn)的深度最小。
例如,對(duì)于表3-1所示的貸款申請(qǐng)的數(shù)據(jù)集,可以學(xué)習(xí)到一種決策樹(shù)結(jié)構(gòu),表示為圖3-1。
表3-1 貸款申請(qǐng)數(shù)據(jù)
根據(jù)數(shù)據(jù)集建立的一種決策樹(shù)結(jié)構(gòu)如下:
圖3-1 對(duì)應(yīng)與表3-1的決策樹(shù)
樹(shù)中包含了決策點(diǎn)和葉子節(jié)點(diǎn),決策點(diǎn)包含針對(duì)數(shù)據(jù)實(shí)例某個(gè)屬性的一些測(cè)試,而一個(gè)葉子節(jié)點(diǎn)則代表了一個(gè)類(lèi)標(biāo)。
一棵決策樹(shù)的構(gòu)建過(guò)程是不斷的分隔訓(xùn)練數(shù)據(jù),以使得最終分隔所得到的各個(gè)子集盡可能的純。一個(gè)純的子集中的數(shù)據(jù)實(shí)例類(lèi)標(biāo)全部一致。決策樹(shù)的建立并不是唯一的,在實(shí)際中,我們希望得到一棵盡量小且準(zhǔn)確的決策樹(shù)。
決策樹(shù)的典型算法有ID3,C4.5,CART(分類(lèi)與回歸樹(shù))等。依次得到改進(jìn)。相對(duì)于其它算法,決策樹(shù)易于理解和實(shí)現(xiàn),人們?cè)谕ㄟ^(guò)解釋后都有能力去理解決策樹(shù)所表達(dá)的意義。決策樹(shù)可以同時(shí)處理不同類(lèi)型的屬性, 并且在相對(duì)短的時(shí)間
內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。
3.4 貝葉斯分類(lèi)算法
貝葉斯分類(lèi)器的分類(lèi)原理是通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類(lèi)的概率,選擇具有最大后驗(yàn)概率的類(lèi)作為該對(duì)象所屬的類(lèi)。目前研究較多的貝葉斯分類(lèi)器主要有四種,分別是:Naive Bayes、TAN、BAN和GBN。
▲準(zhǔn)備知識(shí)
條件概率:設(shè)A, B是兩個(gè)事件,且Pr(A)?0稱Pr(B|A)?
發(fā)生的條件事件B發(fā)生的條件概率。
乘法公式: 設(shè)Pr(A)?0 則有Pr(AB)?Pr(B|A)Pr(A)
全概率公式:設(shè)隨機(jī)事件A1,A2,...,An以及 B滿足:(1) A1,A2,…,An兩兩互不相容;(2)?An?S或者B??An;(3) Pr(A)?0(n=1,2,…),則有
n?1n?1??Pr(AB)為在條件A下Pr(A)
Pr(B)??Pr(An)Pr(B|An),稱為全概率公式。
n?1?
全概率公式的應(yīng)用:把事件B看作是某一個(gè)過(guò)程的結(jié)果,把A1,A2,…,An看作該過(guò)程的若干個(gè)原因,根據(jù)歷史資料,每個(gè)原因發(fā)生的概率已知(即Pr(Ai)已知),且每一個(gè)原因?qū)Y(jié)果的影響已知(即Pr(B|Ai)已知)則可用全概率公式計(jì)算結(jié)果發(fā)生的概率,即求Pr(B)。
貝葉斯公式:設(shè)隨機(jī)事件A1,A2,…,An以及B滿足:(1) A1,A2,…,An兩兩互不相容;(2)
PrA(nB)?PrB()???An?1?n?S或者B??An;(3) Pr(A)?0(n=1,2,…),則n?1PrA(nB|?)PBr(An|
(?PrB
n?1A|jA)P)nr(,稱為貝葉斯公式。 )PAr)j(
貝葉斯公式的使用:把事件B看作某一過(guò)程的結(jié)果,把A1,A2,…,An看作該過(guò)程的若干原因,根據(jù)歷史資料,每一原因發(fā)生的概率已知(即Pr(An)已知),如果已知事件B已經(jīng)發(fā)生,要求此時(shí)是由第i個(gè)原因引起的概率,用貝葉斯公式(即求Pr(Ai|B))。
▲樸素貝葉斯(Naive Bayes,NB)算法
在貝葉斯分類(lèi)中,在數(shù)據(jù)集合D中,令A(yù)1,A2,…,An為用離散值表示的屬性
集合,設(shè)C具有|C|個(gè)不同值的類(lèi)別屬性,即c1,c2,…,c|c|,我們?cè)O(shè)所有的屬性都是條件獨(dú)立于類(lèi)別,給定一個(gè)測(cè)試樣例d,觀察到屬性值a1到a|A|,其中ai是Ai可能的一個(gè)取值,那么預(yù)測(cè)值就是類(lèi)別cj,使得Pr(C=cj | A=a1,…,A|A|=a|A|)最大。cj被稱為最大后驗(yàn)概率假設(shè)。
根據(jù)貝葉斯公式,有 Pr(C?cj)?Pr(Ai?ai|C?cj)|A|
Pr(A1?a1,...,A|A|?a|A||C?cj)??Pr(C?c)?Pr(A?a|C?c)kiik
k?1i?1|C|i?1|A|
因?yàn)榉帜笇?duì)每一個(gè)訓(xùn)練類(lèi)別都是一樣的,所以如果僅僅需要總體上最可能的類(lèi)別為所有測(cè)試樣例做預(yù)測(cè),那么只需要上式的分子部分即可。通過(guò)下式來(lái)判斷最有可能的類(lèi)別:
c?argmaxPr(C?cj)?Pr(Ai?ai|C?cj)
cji?1|A|
例如,假設(shè)我們有圖4-1中的訓(xùn)練數(shù)據(jù),有兩個(gè)屬性A和B,還有類(lèi)別C,對(duì)于一個(gè)測(cè)試樣例:A=m B=q 求
C=?
圖4-1 訓(xùn)練數(shù)據(jù)
計(jì)算如下:
對(duì)于類(lèi)別為t的概率
1222Pr(C?t)?Pr(Aj?aj|C?t)?Pr(C?t)?Pr(A?m|C?t)?Pr(B?q|C?t)????25525j?12
類(lèi)似的,對(duì)于類(lèi)別為f的概率 1121Pr(C?f)?Pr(Aj?aj|C?f)???? 25525j?12
因此C=t的可能性較大,因此將此種情況下的類(lèi)別判斷為t。
樸素貝葉斯分類(lèi)將每篇文檔看作一“袋子”的詞,需要做以下假設(shè),這也是
篇四:融合無(wú)監(jiān)督和監(jiān)督學(xué)習(xí)策略生成的多分類(lèi)決策樹(shù)
第25卷第4期小型微型計(jì)算機(jī)系統(tǒng) Vol.25 No.4 融合無(wú)監(jiān)督和監(jiān)督學(xué)習(xí)策略生成的多分類(lèi)決策樹(shù)
邱德紅,陳傳波
(華中科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢430074)
摘 要:提出了一種融合無(wú)監(jiān)督和監(jiān)督兩 種學(xué)習(xí)策略生成多分類(lèi)決策樹(shù)的方法 .它首先利用無(wú)監(jiān)督聚類(lèi)方法能夠發(fā)現(xiàn)待分類(lèi)樣本之間的內(nèi)在聯(lián)系和規(guī)律的特點(diǎn) ,確定出最為符合多類(lèi)樣本分布特征的決策樹(shù)的樹(shù)型 ,繼而利用監(jiān)督學(xué)習(xí)支持向量機(jī)的方法對(duì)樣本進(jìn)行準(zhǔn)確的分類(lèi) .通過(guò)采用核函數(shù)和不對(duì)稱的 L agrangian系數(shù)限制條件 ,支持向量機(jī)很好的解決了樣本特征空間上的線性不可分性和決策樹(shù)型確定過(guò)程中出現(xiàn)的訓(xùn)練樣本不對(duì)稱性的影響 .該方法具有較高的計(jì)算效率和準(zhǔn)確性 ,在實(shí)驗(yàn)中取得了比較好的結(jié)果.
關(guān) 鍵 詞:多分類(lèi)決策樹(shù);無(wú)監(jiān)督聚類(lèi);支持向量機(jī)
中圖分類(lèi)號(hào):TP391.41 文獻(xiàn)辨識(shí)碼:A 文章編號(hào):1000-1200(2004)04-0555-05
Construction of Multi-classification Decision Tree Combining
Unsupervised and Supervised Learning Strategy
QIU De-hong,CHENChuan-bo
(School of Comouter Science and Technology Huazhong University of Science and Technology,Wuhan 430074,china)
Abstract:In this paper,a new method which combines unsupervised and supervised learning steategy is put forward to construct the multi-classification decision tree,It firstly uses the unsupervised clustering to determine the structure of the multi-classification decision tree,whose each node has a binary branch.The unsupervised clustering is able to find out the relationship between the mulit-classes,therefore the decision tree’s structure determined by it is the best one that fits to the distribution of mulit-classes in feature space.Then,a supervised learning method,i.e.support vector machine,is used to classify the two groups of samples of each node of the decision tree.Most cases the multi-classes cannot be classified by a linear hyperplane,kernel functions are therefore introduced into to solve it.Simultaneously,unsymmetrical constrains of Lagrangian coefficients are set to overcome the negative influences of unbalanced train samples. These efforts guarantee the efficiency and accuracy of the multi-classification decision tree.Satisfying results were obtained in experiment.
Key words:multi-classification decision tree; unsupervised cluster support vector machine
1 引 言
多分類(lèi)問(wèn)題是一個(gè)比較常見(jiàn)的問(wèn)題,機(jī)器學(xué)習(xí)理論和方法
的研究在解決二分類(lèi)問(wèn)題上取得了比較滿意的結(jié)果
[3][1,2] 無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)方法研究的二大策略.無(wú)監(jiān)督學(xué)習(xí)方法如無(wú)監(jiān)督聚類(lèi)(UC)[8,9]是從樣本的特征向量出.多分發(fā),研究通過(guò)某種算法特征比較相似的樣本聚集在一起,從而達(dá)到區(qū)分具有不同特征的樣本的目的.無(wú)監(jiān)督聚類(lèi)的優(yōu)點(diǎn)是可
以發(fā)現(xiàn)樣本中隱含的共性和規(guī)律,但是由于沒(méi)有專家知識(shí)的監(jiān)
督,分類(lèi)的準(zhǔn)確性有限.監(jiān)督學(xué)習(xí)方法是通過(guò)對(duì)已知類(lèi)別的訓(xùn)
練樣本的學(xué)習(xí),實(shí)現(xiàn)對(duì)未知樣本的分類(lèi)判斷.支持向量機(jī)
(SVM)[1,2]類(lèi)問(wèn)題雖然也有研究,但在理論構(gòu)架和現(xiàn)實(shí)方法上還有相當(dāng)大的困難.目前解決多分類(lèi)問(wèn)題主要運(yùn)用多分類(lèi)決策數(shù),決策樹(shù)上的每一個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)二分類(lèi)器,實(shí)際上是利用二分類(lèi)方法解決多分類(lèi)問(wèn)題.生成類(lèi)分類(lèi)決策樹(shù)的方法有(1)‘一對(duì)其余’,決策樹(shù)上N個(gè)節(jié)點(diǎn)對(duì)應(yīng)的二分類(lèi)器只判斷是某一類(lèi)還是
其余類(lèi);(2)‘一對(duì)一’,決策樹(shù)上N(N-1)/2個(gè)節(jié)點(diǎn)對(duì)應(yīng)的二
分類(lèi)器只能對(duì)類(lèi)中的兩類(lèi)作出是否判斷;(3)‘一半對(duì)一半’,
即決策樹(shù)的節(jié)點(diǎn)對(duì)應(yīng)的二分類(lèi)器將節(jié)點(diǎn)上的類(lèi)二等分(允許一
類(lèi)別在兩個(gè)節(jié)點(diǎn)上出現(xiàn)),直至葉節(jié)點(diǎn).決策樹(shù)上節(jié)點(diǎn)的數(shù)目為,
其中為大于或等于log2(N)最小整數(shù).這三類(lèi)方法生成的決策
樹(shù)雖然具有不同的計(jì)算效率和分類(lèi)效果,但各自在應(yīng)用中取得
了比較好的結(jié)果[4~7]是一種主要用于二分類(lèi)的準(zhǔn)確率比較高的監(jiān)督學(xué)習(xí)方法,其基礎(chǔ)是統(tǒng)計(jì)學(xué)習(xí)理論中的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則.它在許多領(lǐng)域得到了很好的應(yīng)用[10~12]. 本文提出一種將無(wú)監(jiān)督聚類(lèi)和監(jiān)督學(xué)習(xí)的支持向量機(jī)方法結(jié)合起來(lái)生成多分類(lèi)決策樹(shù)的方法.它的基本思想如下:待方法的多類(lèi)樣本可以看成是某一宏觀層面之上的刺激機(jī)制激勵(lì)下,或者是在某個(gè)進(jìn)程中產(chǎn)生的.該宏觀層面之下刺激機(jī)制的差異,或者是進(jìn)程中的不同階段導(dǎo)致不同類(lèi)的出現(xiàn)。差異小.
收稿日期:2002-08-05 作者簡(jiǎn)介:邱德紅,博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)和生物測(cè)定學(xué);陳傳波,教授博士生導(dǎo)師,主要研究方向?yàn)閳D像處理和計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用。E-mail:qiudh.wh.hb.cn
的刺激機(jī)制,或者相鄰進(jìn)程階段產(chǎn)生的類(lèi)別之間的特征較為接
近,反之則分散.因而,多類(lèi)之間雖然具有向異性,但他們?cè)?/p>
特征空間的分布上有內(nèi)在規(guī)律.如果決策樹(shù)的樹(shù)形結(jié)構(gòu)能夠體
現(xiàn)多類(lèi)之間的內(nèi)在規(guī)律,就可能在計(jì)算效率和準(zhǔn)確性上獲得較
好的均衡,從而提高決策樹(shù)的性能.本文介紹的方法的目的是
通過(guò)無(wú)監(jiān)督聚類(lèi)確定反映多類(lèi)之間分布規(guī)律的決策樹(shù)的樹(shù)型,
繼而利用監(jiān)督學(xué)習(xí)支持向量機(jī)方法的準(zhǔn)確率高的特點(diǎn)對(duì)分布
接近的類(lèi)別進(jìn)行詳細(xì)分區(qū),使多分類(lèi)決策樹(shù)具有較高的計(jì)算效
率和準(zhǔn)確率.
2 多分類(lèi)決策樹(shù)的樹(shù)型確定
一個(gè)N(N≥3)類(lèi)的多分類(lèi)問(wèn)題可以描述為:給定組訓(xùn)練樣
本:(x1,y1),…(xl1,yl1),(x1,y2),…(xl2,y2),……(x1,yN),…
(xlN,ydN),L=l1+l2+…+lN為N類(lèi)訓(xùn)練樣本的總數(shù)目,xi∈R,
i=1,…,L是d維空間上的特征向量,yn∈
{1,2,…,N},n=1,…,N是N類(lèi)標(biāo)號(hào).多分類(lèi)問(wèn)題即函數(shù)F:Rd
→{1,2,…,N}確定待分類(lèi)向量x的類(lèi)別標(biāo)號(hào)y.多分類(lèi)問(wèn)題
可以通過(guò)由二分類(lèi)器為節(jié)點(diǎn)構(gòu)成的決策樹(shù)來(lái)解決.由于待分類(lèi)
的N類(lèi)樣本通常是其形成的刺激機(jī)制在某個(gè)宏觀層面之下的
差異,或者是同一進(jìn)程的不同階段形成的,刺激機(jī)制差異的大
小和進(jìn)程階段相隔時(shí)間的久遠(yuǎn)導(dǎo)致N類(lèi)樣本在特征空間上分
布有一定的規(guī)律.如圖1所示的N=6的多分類(lèi)問(wèn)題,左下三類(lèi)
(○、□、△)和右上三類(lèi)(+、×、*)之間的刺激機(jī)制相差較遠(yuǎn),
而左下三類(lèi)(○、□、△)之間、右上三類(lèi)(+、×、*)之間的刺
激機(jī)制相差較小.如果多分類(lèi)決策樹(shù)型能夠反映出類(lèi)樣本之間
的分布規(guī)律,繼而實(shí)施輕重有別的詳細(xì)區(qū)分,必將能獲得比較
優(yōu)秀的性能,為此設(shè)計(jì)以下利用無(wú)監(jiān)督聚類(lèi)確定決策樹(shù)型的方
法.
圖 1
多類(lèi)樣本的特征向量在特征空間上的分布
Fig.1 Distribution of multi-classes samples on
the feature space
第1步:計(jì)算N類(lèi)訓(xùn)練樣本共L個(gè)特征向量中的任何兩個(gè)特征
向量,比如xr,xs之間的Minkowski距離
dd1/p
r,s={?|x,r,s=1,…,m+1,且r≠s,p=2
sj?xrj|}
j?1
第2步: 將N類(lèi)訓(xùn)練樣本共L個(gè)特征向量編號(hào)為1,…,L
號(hào)葉節(jié)點(diǎn),從1號(hào)葉節(jié)點(diǎn)開(kāi)始在C2
L個(gè)距離之中找到最小距離,
將對(duì)應(yīng)的兩個(gè)葉節(jié)點(diǎn)(比如為xr,xs,)做個(gè)連接,形成一個(gè)二叉樹(shù)枝.將此連接‘看成’為一個(gè)新葉節(jié)點(diǎn),編號(hào)為L(zhǎng)+1.該新葉節(jié)點(diǎn)到其余某個(gè)葉節(jié)點(diǎn)xk,k≠r,s(即xr,xs,之外的節(jié)點(diǎn))之間的距離定義為已經(jīng)連接的兩個(gè)葉節(jié)點(diǎn)(xr,xs)與該節(jié)點(diǎn)之間的最小距離,即dL+1,k=min(dr,k,ds,k) . 第3步:按照第2步同樣的規(guī)則,在新生成的葉節(jié)點(diǎn)和其余葉節(jié)點(diǎn)之中繼續(xù)生成一個(gè)新的二叉連接,重復(fù) 直到生成最后一個(gè)二叉連接而成為一棵聚類(lèi)樹(shù).如圖2所示的一棵聚類(lèi)樹(shù),它對(duì)應(yīng)于圖1中的60個(gè)樣本. 圖2 無(wú)監(jiān)督聚類(lèi)生成的聚類(lèi)樹(shù) Fig.2 Decision tree produced by unsupervised clustering 第4步:將第3步中最后生成的一個(gè)二叉連接的左右兩個(gè)分枝連接的最底層的葉節(jié)點(diǎn)(即1,…,L葉節(jié)點(diǎn))對(duì)應(yīng)的特征向量劃分到的左右兩個(gè)集合SR,SL中.依次檢查待分類(lèi)的1,…,N類(lèi)樣本的特征向量, 如果第n類(lèi)的Ln個(gè)特征向量被聚類(lèi)到左右兩個(gè)集合SR、SL中,數(shù)目分別為lnR和lnL(lnR+lnL=ln)則依下情況處理: ·如果lnR大于或等于lnL,且集合SL中特征向量的個(gè)數(shù)大于lnL,則將集合SL中對(duì)應(yīng)的lnL個(gè)特征向量移至集合SR ·如果lnR大于或等于lnL,但集合SL中特征向量的個(gè)數(shù)等于lnL,則將集合SR中對(duì)應(yīng)的lnR個(gè)特征向量移至集合SL ·如果lnL大于lnR ,且集合SR中特征向量的個(gè)數(shù)大于lnR,則將集合SR中對(duì)應(yīng)的lnR個(gè)特征向量移至集合SL ·如果lnL大于lnR ,但集合SR中特征向量的個(gè)數(shù)等于lnR,則將集合SL中對(duì)應(yīng)的lnL個(gè)特征向量移至集合SR 至此可以確定決策樹(shù)上的一個(gè)二叉節(jié)點(diǎn),它的訓(xùn)練樣本是非空的左右兩個(gè)集合SR、SL,將集合SL中的特征向量的標(biāo)簽設(shè)定為-1,集合SR中的特征向量的標(biāo)簽設(shè)定為+1.它們將用于訓(xùn)練支持向量機(jī)來(lái)生成該節(jié)點(diǎn)對(duì)應(yīng)的二分類(lèi)器. 第5步:分別將左右兩個(gè)集合SR、SL中包含的特征向量看成一個(gè)新的分類(lèi)問(wèn)題,重復(fù)第1步到第4步,直到左右兩個(gè)集合SR、SL中均只包含N類(lèi)訓(xùn)練樣本中的某一類(lèi)樣本.從而確定出完整的N分類(lèi)決策樹(shù)的樹(shù)型.圖1所示的N=6的分類(lèi)問(wèn)題對(duì)應(yīng)的決策樹(shù)型如圖3所示. 無(wú)監(jiān)督聚類(lèi)方法確定決策樹(shù)樹(shù)型與‘一對(duì)其余’,‘一對(duì)一’和‘一半對(duì)一半’確定決策樹(shù)樹(shù)型方法上是不一樣.后三者對(duì)于所有N 的多分類(lèi)問(wèn)題采用的決策樹(shù)型均是固定的,
而這
里介紹的方法將依據(jù)N 類(lèi)樣本之間的聯(lián)系和分布規(guī)律生成相
應(yīng)的決策樹(shù)型.決策樹(shù)型本身在一定的程度上反映了N 類(lèi)樣本
之間的差異大小,可以一定程度的降低二分類(lèi)的難度.以此為
基礎(chǔ)的N 分類(lèi)問(wèn)題的計(jì)算效率將隨決策樹(shù)型有所變化.如果假
設(shè)這些方法均采用同樣的二分類(lèi)方法,二分類(lèi)器的計(jì)算復(fù)雜度
可大致描述為??cn?,其中為系數(shù), n 為訓(xùn)練樣本數(shù),λ
≈為復(fù)雜度指數(shù).則對(duì)于N 類(lèi)、樣本總數(shù)為L(zhǎng)的多分類(lèi)
圖3 無(wú)監(jiān)督聚類(lèi)生成的決策樹(shù)型
Fig.3The structure of decision tree produced
byunsupervised clustering
問(wèn)題,‘一對(duì)其余’生成的決策樹(shù)的計(jì)算復(fù)雜度為NL?;
‘一對(duì)一’生成的決策樹(shù)的計(jì)算復(fù)雜度為
0.5cN(N?1)(li?lj)?li和lj為對(duì)應(yīng)兩類(lèi)的訓(xùn)練樣
本的數(shù)目;‘一半對(duì)一半’生成的決策樹(shù)的計(jì)算復(fù)雜度約為c
( 2k-1)(l?)2 ,其中k為大于或等于log2(N)的最小整數(shù),訓(xùn)練
樣本數(shù)l′逐步遞減.無(wú)監(jiān)督聚類(lèi)生成的決策樹(shù)的節(jié)點(diǎn)數(shù)小于
‘一半對(duì)一半’和‘一對(duì)一’生成的決策樹(shù),其節(jié)點(diǎn)的訓(xùn)練樣
本數(shù)小于‘一對(duì)其余’的生成方法,遞減速度大于‘一半對(duì)一
半’的生成方法.綜合來(lái)說(shuō),無(wú)監(jiān)督聚類(lèi)生成的決策樹(shù)具有比較
高的計(jì)算效率.
3 支持向量機(jī)二分類(lèi)器
無(wú)監(jiān)督聚類(lèi)生成的決策樹(shù)上的每個(gè)二叉節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)
二分類(lèi)器.無(wú)監(jiān)督聚類(lèi)分類(lèi)的準(zhǔn)確率有限,這里采用準(zhǔn)確率高
的支持向量機(jī)來(lái)生成決策樹(shù)上每個(gè)二叉節(jié)點(diǎn)對(duì)應(yīng)的二分類(lèi)器,
它的訓(xùn)練樣本分別是該二叉節(jié)點(diǎn)連接的左右兩個(gè)集合SR、SL
中的樣本,它們可以統(tǒng)一表示為:(xd
i,yi),xi,∈R,yi∈{+1,-1}
,訓(xùn)練樣本數(shù)為l.支持向量機(jī)是一種建立在統(tǒng)計(jì)學(xué)習(xí)理論基
礎(chǔ)上的機(jī)器學(xué)習(xí)方法他采用學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小原則【1,2】
.其學(xué)習(xí)目的是在所有分割超平面中1確定最優(yōu)超平面
H:wx+b=0,該平面到兩類(lèi)之間的間隔最大,且滿足一下約束條
件:
1http:www.ics.uci.edu/^mlearn/MLR Repository,html
w?xi?b??1ifyi??1 w?xi?b??1 ifyi??1??w,b??2兩類(lèi)之間的間隔為w,因此, 確定最優(yōu)分割超平面即為求( w ,b)使得??w??1w2最小,它等效2求解二次優(yōu)化問(wèn)題,即求Lagrangian系數(shù)α使目標(biāo)函數(shù)W (α)最大: iW?a??i?a1li?(1) ,j?12??i?jyiyj?xi?xj? i?1滿足條件αi≥0(i=1,2,…,l)和?l?iyi?0.然后可求i?1得(w,b)為; lW???x1iyii,b?????x??x?? i?12X+和x-分別是兩類(lèi)向量的支持向量,與它們對(duì)應(yīng)的αi>0,其余的αi=0,支持向量機(jī)學(xué)習(xí)確定的分類(lèi)器為: f?x??sign???x?b??sign?l?????iyi?xi?x??b?i?1?無(wú)監(jiān)督聚類(lèi)確定的分類(lèi)決策樹(shù)的二叉節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練樣本往往不具有線性的可分性.此時(shí)可以引入適當(dāng)?shù)暮撕瘮?shù)K (xi,xj)=φ(xi)·φ(xj),將將原空間中的向量映射到另一特征內(nèi)積空間中去進(jìn)行分類(lèi).此時(shí)目標(biāo)函數(shù)(1)相應(yīng)修正為: iW?a???a1li???i?jyiyjK?xi?xj?(2) i,j?12i?1滿足約束條件: 引入核函數(shù)K?xi,xj?后新特征向量x的分類(lèi)器法則如下: f?x??sign?l????x??b?iyiK?xi??i?1? 核函數(shù)K(xi ,xj)需要滿足Mercer定理【2】,經(jīng)常采用的核函數(shù)有多項(xiàng)式函數(shù):K(x,y)=(x·y+1)d,高斯徑向基函數(shù)?x2K?x,y??exp??y?????2?2??和多層感知器函數(shù):K?x,y??tanh?k?x?y???? 訓(xùn)練樣本中如果存在不可分的樣本(噪音),就需要適度對(duì)待訓(xùn)練誤差.此時(shí),如果過(guò)份地強(qiáng)調(diào)減小訓(xùn)練誤差可以導(dǎo)致二分類(lèi)器的性能惡化.因?yàn)檫@樣生成的二分類(lèi)器可能過(guò)于傾向訓(xùn)練樣本的個(gè)性特征,而沒(méi)有體現(xiàn)出訓(xùn)練樣本整體共性,不利于對(duì)未知樣本的判斷.這時(shí)候需要采用柔性邊界,它依然可以通過(guò)求解最大目標(biāo)函數(shù)(2)得到,然而需要將約束條件αi>0改為0≤αi≤C. C可以協(xié)調(diào)訓(xùn)練誤差和分類(lèi)器的綜合能力,其物
第25卷第4期小型微型計(jì)算機(jī)系統(tǒng) Vol.25 No.4 理的解釋可以看成是與參數(shù)Ti對(duì)應(yīng)的訓(xùn)練樣本對(duì)分類(lèi)邊界的
作用力大小的變化范圍.無(wú)監(jiān)督聚類(lèi)生成的決策樹(shù)型時(shí)經(jīng)常會(huì)
出現(xiàn)的左右兩個(gè)集合SR、SL中的樣本數(shù)目的不均衡,數(shù)目少的一
邊對(duì)分類(lèi)邊界確定的作用合力的大小往往有限,因而對(duì)分類(lèi)邊
界的確定影響力弱.為此我們對(duì)數(shù)目不等的兩類(lèi)樣本確定不對(duì)
稱的作用力變化范圍,即使0≤Ti+ ≤C+,0≤Ti≤C-,C+和C-與訓(xùn)
練樣本數(shù)目相關(guān),以此來(lái)消除訓(xùn)練樣本數(shù)目不均衡性的影響. 決策樹(shù)型確定之后,采用監(jiān)督學(xué)習(xí)支持向量機(jī)的方法來(lái)生成決策樹(shù)中二叉節(jié)點(diǎn)對(duì)應(yīng)的二分類(lèi)器,采用的是徑向基核函數(shù)和非對(duì)稱的Lagrangian系數(shù)限制條件.調(diào)節(jié)徑向基的寬度和系數(shù)限制條件,可以得到對(duì)應(yīng)決策樹(shù)上每個(gè)二叉節(jié)點(diǎn)的性能很好的二分類(lèi)器.之后用5類(lèi)共74個(gè)心臟病變樣本的特征向量進(jìn)行了測(cè)試,測(cè)試結(jié)果列在表1之中.在表1中還給出了幾個(gè)其它研究人 表1 采用不同方法對(duì)Clev eland心臟病變
數(shù)據(jù)的處理結(jié)果
Table 1 Expermental results of cleveland
heartdisease datausing different classifer
方法
UC+SVM
UC+SVM
INC-NET
Na?ve Bayes
k-NN,VDM
GOT/SVM 準(zhǔn)確率 93.2% 85.1% 90.0% 82.8%±1.3% 82.6% 82.5% 說(shuō)明 本文方法,如果只區(qū)分病變和非病變 本文方法,區(qū)分所有類(lèi)別 病變和非病變分類(lèi),文獻(xiàn)[13] 病變和非病變分類(lèi),文獻(xiàn)[14] 病變和非病變分類(lèi),文獻(xiàn)[15] 樹(shù)型邊界分類(lèi)病變和非病變,文獻(xiàn)[16] 4 實(shí)驗(yàn)結(jié)果 我們采用Cleveland心臟病變數(shù)據(jù)來(lái)檢驗(yàn)上文介紹的融合無(wú)監(jiān)督聚類(lèi)和監(jiān)督學(xué)習(xí)支持向量機(jī)生成的多分類(lèi)決策樹(shù)的效果.Cleveland心臟病變數(shù)據(jù)在一個(gè)知名的有關(guān)機(jī)器學(xué)習(xí)研究的網(wǎng)站1 上公布,成為許多分類(lèi)方法的檢驗(yàn)數(shù)據(jù).這組數(shù)據(jù)包含有303個(gè)樣本,每個(gè)樣本的特征向量的維數(shù)為13.其中有6個(gè)樣本的特征向量不完整,這里將它們從樣本中剔出,因而可使用的樣本數(shù)據(jù)為297個(gè).樣本的特征向量被分為5類(lèi),其中心臟沒(méi)有病變的正常情況的樣本數(shù)目為160個(gè),標(biāo)號(hào)為0.其余的樣本為心臟有病變的特征樣本,標(biāo)號(hào)依此為1、2、3和
4,對(duì)應(yīng)的樣本數(shù)目分別為54、35、35和13,標(biāo)號(hào)遞增表示心
臟病變的程度越發(fā)厲害.我們對(duì)于每一類(lèi)樣本,選擇其中的四
分之三為訓(xùn)練樣本,數(shù)目共為223個(gè),其余的四分之一用來(lái)驗(yàn)
證,數(shù)目共為74個(gè).
利用第二節(jié)介紹的無(wú)監(jiān)督聚類(lèi)方法,首先從224個(gè)訓(xùn)練樣本
確定決策樹(shù)的樹(shù)型,結(jié)果如圖4所示.為了平衡樣本特征向量各
個(gè)特征值對(duì)決策樹(shù)型的影響程度,對(duì)所有樣本的特征向量的每
項(xiàng)特征值進(jìn)行了正規(guī)處理,即進(jìn)行了以下運(yùn)算:員采用不同的研究方法對(duì)Cleveland心臟病變數(shù)據(jù)的分類(lèi)結(jié)果,更多的有關(guān)該組數(shù)據(jù)的處理結(jié)果可以參閱文獻(xiàn)[17]或網(wǎng)站.這些結(jié)果準(zhǔn)確率均在85.1%之下,居多方法只區(qū)分樣本特征向量是病變還是非病變,是二分類(lèi)的研究結(jié)果.從表1的數(shù)據(jù)比較可以看出,本文提出的決策樹(shù)型確定和決策樹(shù)節(jié)點(diǎn)的二分類(lèi)器的生成方法一定程度的提高了分類(lèi)效果. 25 結(jié) 論 綜合利用多種學(xué)習(xí)策略來(lái)解決多分類(lèi)問(wèn)題是一種比較好
的指導(dǎo)思想,它可以提高解決問(wèn)題的效率和結(jié)果.本文利用無(wú)
監(jiān)督聚類(lèi)學(xué)習(xí)策略和監(jiān)督學(xué)習(xí)支持向量機(jī)的方法來(lái)生成多分
類(lèi)決策樹(shù),在實(shí)驗(yàn)中獲得了比較好的效果.該方法不僅能夠針
對(duì)待處理的多分類(lèi)問(wèn)題多類(lèi)之間的內(nèi)在聯(lián)系和分布特點(diǎn),生成
相應(yīng)的決策樹(shù)型,具有靈活解決問(wèn)題的能力,而且采用了準(zhǔn)確
率高的支持向量機(jī)對(duì)不易區(qū)分的類(lèi)別進(jìn)行分類(lèi),彌補(bǔ)了無(wú)監(jiān)督
聚類(lèi)分類(lèi)準(zhǔn)確率低的缺陷,實(shí)現(xiàn)了策略之間的優(yōu)勢(shì)互補(bǔ).該方
法在解決多分類(lèi)問(wèn)題上體現(xiàn)了問(wèn)題產(chǎn)生的刺激機(jī)制和人們區(qū)
分多種類(lèi)別時(shí)先易后難的思維習(xí)慣,實(shí)現(xiàn)了比較高的計(jì)算效率
和分類(lèi)效果. ?????min???,表示所有樣本特征向量的同max??min?一項(xiàng)特征值構(gòu)成的列向量.從圖4可見(jiàn),無(wú)監(jiān)督聚類(lèi)方法確定的決策樹(shù)型明確地反映出Cleveland心臟病變數(shù)據(jù)中幾類(lèi)樣本之間的關(guān)系,如正常的樣本向量(0)與病變樣本向量首先被區(qū)分開(kāi)來(lái),嚴(yán)重病變的樣本向量(3、4)將與輕度病變(1、2)的樣本向量區(qū)分開(kāi)來(lái),最后區(qū)分比較難以區(qū)分的兩類(lèi)樣本.無(wú)監(jiān)督聚類(lèi)方法生成的決策樹(shù)型不僅很好的體現(xiàn)了心臟病變這一進(jìn)程中不同階段的特點(diǎn),而且符合人們區(qū)分事物先易后難的習(xí)慣.
2References: 1. Vapnik V. The nature of statistical learning theory[M].NewYork: Springer-Verlag,1995. 2. Vapnik V. Statistical learning theory[M]. John Wiley &Sons,New York ,1998. 3. Weston J and Watkins . M ulti-class support vector machines
[R] .Technical Report CSD-T R-98-04, Royal Holloway,
University of London, Department of Computer 圖4 無(wú)監(jiān)督聚方法生成的Cleveland心臟病變?cè)\斷決策樹(shù)型
Fig .4 The structure of decisiontree of clev eland heart
disease data produced by unsupervised clustering Science,EBIOL 1998. Available on http://www. clrc.
1http://www.phys.uni.torun.pl/kmk/projects/datasets.html
篇五:監(jiān)督分類(lèi)是需要學(xué)習(xí)訓(xùn)練的分類(lèi)方法
監(jiān)督分類(lèi)是需要學(xué)習(xí)訓(xùn)練的分類(lèi)方法,如最大似然分類(lèi),人工神經(jīng)網(wǎng)絡(luò)分類(lèi),即是需要事先為每類(lèi)地物在遙感圖像上采集樣本數(shù)據(jù),之后通過(guò)學(xué)習(xí)訓(xùn)練過(guò)程才來(lái)分類(lèi);非監(jiān)督分類(lèi)不需要人工采集地物樣本點(diǎn)數(shù)據(jù),多是通過(guò)聚類(lèi)的方法來(lái)自動(dòng)分類(lèi),主要有isodata,k均值等.總體來(lái)說(shuō),監(jiān)督分類(lèi)的效果要優(yōu)于非監(jiān)督分類(lèi).
遙感影像的分類(lèi)方法按照是否有先驗(yàn)類(lèi)別可以分為監(jiān)督分類(lèi)和非監(jiān)督分類(lèi),這兩種分類(lèi)法有著本質(zhì)的區(qū)別但也存在一定的聯(lián)系.
監(jiān)督分類(lèi)的主要方法
最大似然判別法.也稱為貝葉斯(Bayes)分類(lèi),是基于圖像統(tǒng)計(jì)的監(jiān)督分類(lèi)法,也是典型的和應(yīng)用最廣的監(jiān)督分類(lèi)方法.它建立在Bayes準(zhǔn)則的基礎(chǔ)上,偏重于集群分布的統(tǒng)計(jì)特性,分類(lèi)原理是假定訓(xùn)練樣本數(shù)據(jù)在光譜空間的分布是服從高斯正態(tài)分布規(guī)律的,做出樣本的概率密度等值線,確定分類(lèi),然后通過(guò)計(jì)算標(biāo)本(像元)屬于各組(類(lèi))的概率,將標(biāo)本歸屬于概率最大的一組.用最大似然法分類(lèi),具體分為三步:首先確定各類(lèi)的訓(xùn)練樣本,再根據(jù)訓(xùn)練樣本計(jì)算各類(lèi)的統(tǒng)計(jì)特征值,建立分類(lèi)判別函數(shù),最后逐點(diǎn)掃描影像各像元,將像元特征向量代入判別函數(shù),求出其屬于各類(lèi)的概率,將待判斷像元?dú)w屬于最大判別函數(shù)值的一組.Bayes判別分類(lèi)是建立在Bayes決策規(guī)則基礎(chǔ)上的模式識(shí)別,它的分類(lèi)錯(cuò)誤最小精度最高,是一種最好的分類(lèi)方法.但是傳統(tǒng)的人工采樣方法由于工作量大,效率低,加上人為誤差的干擾,使得分類(lèi)結(jié)果的精度較差.利用GIS數(shù)據(jù)來(lái)輔助Bayes分類(lèi),可以提高分類(lèi)精度,再通過(guò)建立知識(shí)庫(kù),以知識(shí)來(lái)指導(dǎo)分類(lèi)的進(jìn)行,可以減少分類(lèi)錯(cuò)誤的發(fā)生[1],這正是Bayes分類(lèi)的發(fā)展趨勢(shì)和提高其分類(lèi)精度的有效途徑.
神經(jīng)元網(wǎng)絡(luò)分類(lèi)法.是最近發(fā)展起來(lái)的一種具有人工智能的分類(lèi)方法,包括BP神經(jīng)網(wǎng)絡(luò)、Kohonen神經(jīng)網(wǎng)絡(luò)、徑向基神經(jīng)網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)、小波神經(jīng)網(wǎng)絡(luò)等各種神經(jīng)網(wǎng)絡(luò)分類(lèi)法.BP神經(jīng)網(wǎng)絡(luò)模型(前饋網(wǎng)絡(luò)
型)是神經(jīng)網(wǎng)絡(luò)的重要模型之一,也是目前應(yīng)用最廣的神經(jīng)網(wǎng)絡(luò)模型,它由輸入層、隱含層、輸出層三部分組成,所采取的學(xué)習(xí)過(guò)程由正向傳播過(guò)程和反向傳播過(guò)程組成.傳統(tǒng)的BP網(wǎng)絡(luò)模型把一組樣本的輸入/輸出問(wèn)題作為一個(gè)非線性優(yōu)化問(wèn)題,它雖然比一般統(tǒng)計(jì)方法要好,但是卻存在學(xué)習(xí)速度慢,不易收斂,效率不高的缺點(diǎn).采用動(dòng)量法和學(xué)習(xí)率自適應(yīng)調(diào)整的策略,可以提高學(xué)習(xí)效率并增加算法的可靠性[3].
模糊分類(lèi)法.由于現(xiàn)實(shí)世界中眾多的自然或半自然現(xiàn)象很難明確劃分種類(lèi),反映在遙感影像上,也存在一些混合像素問(wèn)題,并有大量的同譜異物或者同物異譜現(xiàn)象發(fā)生,使得像元的類(lèi)別難以明確確定.模糊分類(lèi)方法忽略了監(jiān)督分類(lèi)的訓(xùn)練過(guò)程所存在的模糊性,沿用傳統(tǒng)的方法,假定訓(xùn)練樣本由一組可明確定義、歸類(lèi),并且具有代表性的目標(biāo)(像素)構(gòu)成.監(jiān)督分類(lèi)中的模糊分類(lèi)可以利用神經(jīng)元網(wǎng)絡(luò)所具有的良好學(xué)習(xí)歸納機(jī)制、抗差能力和易于擴(kuò)展成為動(dòng)態(tài)系統(tǒng)等特點(diǎn),設(shè)計(jì)一個(gè)基于神經(jīng)元網(wǎng)絡(luò)技術(shù)的模糊分類(lèi)法來(lái)實(shí)現(xiàn).模糊神經(jīng)網(wǎng)絡(luò)模型由ART發(fā)展到ARTMAP再到FasART、簡(jiǎn)化的FasART模型[4],使得模糊神經(jīng)網(wǎng)絡(luò)的監(jiān)督分類(lèi)功能不斷完善、分類(lèi)精確度不斷增加.
最小距離分類(lèi)法和Fisher判別分類(lèi)法.它們都是基于圖像統(tǒng)計(jì)的常用的監(jiān)督分類(lèi)法,偏重于幾何位置.最小距離分類(lèi)法的原則是各像元點(diǎn)劃歸到距離它最近距離的類(lèi)別中心所在的類(lèi),Fisher判別分類(lèi)采用Fisher準(zhǔn)則即“組間最大距離”的原則,要求組間距離最大而組內(nèi)的離散性最小,也就是組間均值差異最大而組內(nèi)離差平方和最小.用這兩種分類(lèi)法進(jìn)行分類(lèi),其分類(lèi)精度取決于對(duì)已知地物類(lèi)別的了解和訓(xùn)練統(tǒng)計(jì)的精度,也與訓(xùn)練樣本數(shù)量有關(guān).針對(duì)最小距離分類(lèi)法受模式散布影響、分類(lèi)精度不高的缺點(diǎn),人們提出了一種自適應(yīng)的最小距離分類(lèi)法,在訓(xùn)練過(guò)程中,將各類(lèi)樣本集合自適應(yīng)地分解為子集樹(shù),定義待分類(lèi)點(diǎn)到子集樹(shù)的距離作為分類(lèi)依據(jù)[2],這種方法有效地提高了最小距離法的分類(lèi)正確率和分類(lèi)速度,效率較高.Fisher判別分類(lèi)也可以通過(guò)增加樣本數(shù)量進(jìn)行嚴(yán)密的統(tǒng)計(jì)分類(lèi)來(lái)增加分類(lèi)精度。
非監(jiān)督分類(lèi)的主要方法
動(dòng)態(tài)聚類(lèi).它是按某些原則選擇一些代表點(diǎn)作為聚類(lèi)的核心,然后將其余待分點(diǎn)按某種方法(判據(jù)準(zhǔn)則)分到各類(lèi)中去,完成初始分類(lèi),之后再重新計(jì)算各聚類(lèi)中心,把各點(diǎn)按初始分類(lèi)判據(jù)重新分到各類(lèi),完成第一次迭代.然后修改聚類(lèi)中心進(jìn)行下一次迭代,對(duì)上次分類(lèi)結(jié)果進(jìn)行修改,如此反復(fù)直到滿意為止.動(dòng)態(tài)聚類(lèi)的方法是目前非監(jiān)督分類(lèi)中比較先進(jìn)、也較為常用的方法.典型的聚類(lèi)過(guò)程包括以下幾步:選定初始集群中心;用一判據(jù)準(zhǔn)則進(jìn)行分類(lèi);循環(huán)式的檢查和修改;輸出分類(lèi)結(jié)果.聚類(lèi)的方法主要有基于最鄰近規(guī)則的試探法、K-means均值算法、迭代自組織的數(shù)據(jù)分析法(ISODATA)等.其中比較成熟的是K-means和ISODATA算法,它們較之其他分類(lèi)方法的優(yōu)點(diǎn)是把分析判別的統(tǒng)計(jì)聚類(lèi)算法和簡(jiǎn)單多光譜分類(lèi)融合在一起,使聚類(lèi)更準(zhǔn)確、客觀.但這些傳統(tǒng)的建立在統(tǒng)計(jì)方法之上的分類(lèi)法存在著一定的缺點(diǎn):很難確定初始化條件;很難確定全局最優(yōu)分類(lèi)中心和類(lèi)別個(gè)數(shù);很難融合地學(xué)專家知識(shí).基于尺度空間的分層聚類(lèi)方法(SSHC)是一種以熱力學(xué)非線性動(dòng)力機(jī)制為理論基礎(chǔ)的新型聚類(lèi)算法[10],它與傳統(tǒng)聚類(lèi)算法相比最大的優(yōu)點(diǎn)是其樣本空間可服從自由分布,可獲取最優(yōu)聚類(lèi)中心點(diǎn)及類(lèi)別,可在
聚類(lèi)過(guò)程中融合后驗(yàn)知識(shí),有更多的靈活性和實(shí)用性.
模糊聚類(lèi)法.模糊分類(lèi)根據(jù)是否需要先驗(yàn)知識(shí)也可以分為監(jiān)督分類(lèi)和非監(jiān)督分類(lèi).事實(shí)上,由于遙感影像的復(fù)雜性和不精確性等特點(diǎn),預(yù)先很難獲得所有有代表性樣本的各類(lèi)別的精確含量,因此很多情況下用純粹的監(jiān)督方法作模糊分類(lèi)并不現(xiàn)實(shí).模糊聚類(lèi)屬于非監(jiān)督分類(lèi)的一種,它根據(jù)樣本間的統(tǒng)計(jì)量的相似程度作為模糊隸屬度,在無(wú)預(yù)知類(lèi)別的前提下對(duì)數(shù)據(jù)集中各點(diǎn)作含量劃分.模糊聚類(lèi)算法有多種,如基于模糊等價(jià)關(guān)系的模糊聚類(lèi)分析法、基于最大模糊支撐樹(shù)的模糊聚類(lèi)分析法等
[11],最典型的模糊聚類(lèi)法是模糊迭代自組織的數(shù)據(jù)分析法———Fussy-ISODATA.但純粹的非監(jiān)督分類(lèi)對(duì)影像一無(wú)所知的情況下進(jìn)行所得到的結(jié)果往往與實(shí)際特征存在一定的差異,因此聚類(lèi)結(jié)果的精度并不一定能夠滿足實(shí)際應(yīng)用的要求,還需要地學(xué)知識(shí)的輔助,也就是部分監(jiān)督的Fussy-ISODATA聚類(lèi).
系統(tǒng)聚類(lèi).這種方法是將影像中每個(gè)像元各自看作一類(lèi),計(jì)算各類(lèi)間均值的相關(guān)系數(shù)矩陣,從中選擇最相關(guān)的兩類(lèi)進(jìn)行合并形成新類(lèi),并重新計(jì)算各新類(lèi)間的相關(guān)系數(shù)矩陣,再將最相關(guān)的兩類(lèi)合并,這樣繼續(xù)下去,按照逐步結(jié)合的方法進(jìn)行類(lèi)與類(lèi)之間的合并.直到各個(gè)新類(lèi)間的相關(guān)系數(shù)小于某個(gè)給定的閾值為止.
分裂法.又稱等混合距離分類(lèi)法,它與系統(tǒng)聚類(lèi)的方法相反,在開(kāi)始時(shí)將所有像元看成一類(lèi),求出各變量的均值和均方差,按照一定公式計(jì)算分裂后兩類(lèi)的中心,再算出各像元到這兩類(lèi)中心的聚類(lèi),將像元?dú)w并到距離最近的那一類(lèi)去,形成兩個(gè)新類(lèi).然后再對(duì)各個(gè)新類(lèi)進(jìn)行分類(lèi),只要有一個(gè)波段的均方差大于規(guī)定的閾值,新類(lèi)就要分裂.
遙感影像的監(jiān)督分類(lèi)是在已知類(lèi)別的訓(xùn)練場(chǎng)地上提取各類(lèi)別訓(xùn)練樣本,通過(guò)選擇特征變量、確定判別函數(shù)或判別式把影像中的各個(gè)像元點(diǎn)劃歸到各個(gè)給定類(lèi)的分類(lèi).它的基本思想是:首先根據(jù)類(lèi)別的先驗(yàn)知識(shí)確定判別函數(shù)和相應(yīng)的判別準(zhǔn)則,利用一定數(shù)量的已知類(lèi)別樣本的觀測(cè)值確定判別函數(shù)中的待定參數(shù),然后將未知類(lèi)別的樣本的觀測(cè)值代入判別函數(shù),再根據(jù)判別準(zhǔn)則對(duì)該樣本的所屬類(lèi)別做出判定.遙感影像的非監(jiān)督分類(lèi)也稱為聚類(lèi),它是事先無(wú)法知道類(lèi)別的先驗(yàn)知識(shí),在沒(méi)有類(lèi)別先驗(yàn)知識(shí)的情況下將所有樣本劃分為若干類(lèi)別的方法.它的基本思想是事先不知道類(lèi)別的先驗(yàn)知識(shí),僅根據(jù)地物的光譜特征的相關(guān)性或相似性來(lái)進(jìn)行分類(lèi),再根據(jù)實(shí)地調(diào)查數(shù)據(jù)比較后確定其類(lèi)別屬性.
遙感影像的監(jiān)督分類(lèi)和非監(jiān)督分類(lèi)方法,是影像分類(lèi)的最基本、最概括的兩種方法.傳統(tǒng)的監(jiān)督分類(lèi)和非監(jiān)督分類(lèi)方法雖然各有優(yōu)勢(shì),但是也都存在一定的不足.新方法、新理論、新技術(shù)的引入,為遙感影像分類(lèi)提供了廣闊的前景,監(jiān)督分類(lèi)與非監(jiān)督分類(lèi)的混合使用更是大大的提高了分類(lèi)的精度.
計(jì)算機(jī)技術(shù)對(duì)影像分類(lèi)的促進(jìn)與發(fā)展.計(jì)算機(jī)技術(shù)的引進(jìn),解決了影像分類(lèi)中海量數(shù)據(jù)的計(jì)算與管理問(wèn)題;計(jì)算機(jī)技術(shù)支持下的GIS用來(lái)輔助影像分類(lèi),主要通過(guò)四種模式進(jìn)行[12]:GIS數(shù)據(jù)作為影像分析的訓(xùn)練樣本和先驗(yàn)信息;利用GIS技術(shù)對(duì)研究區(qū)域場(chǎng)景和影像分層分析;GIS建立面向?qū)ο蟮挠跋穹诸?lèi);提取和挖掘GIS中的知識(shí)進(jìn)行專家分析.這些模式促進(jìn)了GIS與遙感的結(jié)合,提高了影像分類(lèi)精確性和準(zhǔn)確性,使得影像分類(lèi)邁入了新的天地.
數(shù)學(xué)方法的引入和模型研究的進(jìn)展為影像分類(lèi)注入了新的活力.不同的數(shù)學(xué)方法被引用到模型研究上來(lái),為模型研究的發(fā)展提供了廣闊的天地,相應(yīng)地,在遙感影像分類(lèi)中也產(chǎn)生了大量不同形式的分類(lèi)模型.如徑向基函數(shù)(RBF)與粗糙理論結(jié)合的基于粗糙理論的RBF網(wǎng)絡(luò)模型應(yīng)用于遙感分類(lèi)[5],對(duì)于提供分類(lèi)精度、增加收斂性都有很好的作用;而基于RBF映射理論的神經(jīng)網(wǎng)絡(luò)模型更是融合了參數(shù)化統(tǒng)計(jì)分布模型和非參數(shù)化線性感知器映射模型的優(yōu)點(diǎn),不僅學(xué)習(xí)速度快,而且有高度復(fù)雜的映射能力[6].又如模糊數(shù)學(xué)理論應(yīng)用于影像分類(lèi)產(chǎn)生模糊聚類(lèi),對(duì)影像中混合像元的分類(lèi)有很好的效果;模糊理論與各種模型結(jié)合,更使得影像分類(lèi)方法的不斷完善,分類(lèi)精度不斷提高.
人工智能技術(shù)對(duì)影像分類(lèi)的促進(jìn).專家分類(lèi)系統(tǒng)被用于影像分類(lèi)中,利用地學(xué)知識(shí)和專家系統(tǒng)來(lái)輔助遙感影像分類(lèi)
[12],大大提高了影像分類(lèi)和信息提取的精度.人工神經(jīng)網(wǎng)絡(luò)由大量神經(jīng)元相互連接構(gòu)成網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)模擬人腦神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能應(yīng)用于影像分類(lèi),具有一定的智能推理能力.同時(shí),它還引入了動(dòng)量法和學(xué)習(xí)自適率調(diào)整的策略,并與地學(xué)知識(shí)集成,很好的解決了專一的BP神經(jīng)網(wǎng)絡(luò)法分類(lèi)的缺點(diǎn)和不足,提高了分類(lèi)效率和分類(lèi)精度.
監(jiān)督分類(lèi)與非監(jiān)督分類(lèi)的結(jié)合.由于遙感數(shù)據(jù)的數(shù)據(jù)量大、類(lèi)別多以及同物異譜和同譜異物現(xiàn)象的存在,用單一的分類(lèi)方法對(duì)影像進(jìn)行分類(lèi)其精確度往往不能滿足應(yīng)用目的要求.用監(jiān)督分類(lèi)與非監(jiān)督分類(lèi)相結(jié)合的方法來(lái)對(duì)影像進(jìn)行分類(lèi),卻常常可以到達(dá)需要的目的.利用這種方法分類(lèi)時(shí)首先用監(jiān)督分類(lèi)法如多層神經(jīng)網(wǎng)絡(luò)的BP算法將遙感圖像概略地劃分為幾個(gè)大類(lèi),再用非監(jiān)督分類(lèi)法如K-Means聚類(lèi)和ISODATA聚類(lèi)對(duì)第一步已分出的各個(gè)大類(lèi)進(jìn)行細(xì)分,直到滿足要求為止[13].監(jiān)督分類(lèi)與非監(jiān)督分類(lèi)的結(jié)合的復(fù)合分類(lèi)方法,改變了傳統(tǒng)的單一的分類(lèi)方法對(duì)影像進(jìn)行分類(lèi)的弊端,彌補(bǔ)了其不足,為影像分類(lèi)開(kāi)辟了廣闊的前景.
【非監(jiān)督學(xué)習(xí)方法大全】相關(guān)文章:
非誠(chéng)勿擾經(jīng)典臺(tái)詞大全11-23
亞偉速錄學(xué)習(xí)方法大全08-09
超強(qiáng)的韓語(yǔ)學(xué)習(xí)方法大全09-10
小提琴學(xué)習(xí)方法大全10-04
英語(yǔ)口語(yǔ)學(xué)習(xí)方法技巧大全08-19
韓語(yǔ)初學(xué)者學(xué)習(xí)方法大全11-13