論粗糙集與其他軟計(jì)算理論進(jìn)行結(jié)合
論粗糙集與其他軟計(jì)算理論進(jìn)行結(jié)合
隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展與廣泛應(yīng)用,人類社會(huì)進(jìn)入了信息爆炸的時(shí)代,如何處理并有效利用這些信息已經(jīng)成為世界各國(guó)學(xué)者研究的熱點(diǎn)問題。軟計(jì)算就是在這種需求背景下出現(xiàn)的一種新技術(shù)。軟計(jì)算最初是由模糊集理論的創(chuàng)始人Zadeh[1]在1994年提出的,它是一種通過對(duì)不確定、不精確及不完全真值的數(shù)據(jù)進(jìn)行容錯(cuò)處理從而取得低代價(jià)、易控制處理以及魯棒性高的方法的集合。目前,軟計(jì)算的理論與方法主要包括神經(jīng)網(wǎng)絡(luò)、模糊集、粗糙集、遺傳算法、證據(jù)理論等。
粗糙集是在最近幾年發(fā)展較快的一門理論,它是一種用于分析和處理不確定、不精確問題的數(shù)學(xué)理論,是由波蘭數(shù)學(xué)家Pawlak[2]在1982年提出的。它的基本思想是通過論域上的等價(jià)關(guān)系將論域劃分成若干個(gè)等價(jià)類,然后利用這些知識(shí)對(duì)所需處理的不精確或不確定的事物進(jìn)行一個(gè)近似的刻畫。
粗糙集理論最大的特點(diǎn)是它對(duì)論域的劃分只依賴于所需處理的數(shù)據(jù)集合本身,不需要任何先驗(yàn)信息,所以對(duì)問題不確定性的描述或處理是比較客觀的。這一點(diǎn)也是它與其他軟計(jì)算理論之間的顯著區(qū)別。不過,粗糙集在原始數(shù)據(jù)不精確或不確定時(shí),是無法處理數(shù)據(jù)的,這恰好與軟計(jì)算中的其他理論有很強(qiáng)的互補(bǔ)性。因此,粗糙集與其他軟計(jì)算理論和方法的結(jié)合已成為粗糙集研究中的一個(gè)重要內(nèi)容。本文將對(duì)粗糙集與模糊集、神經(jīng)網(wǎng)絡(luò)、概念格以及證據(jù)理論等軟計(jì)算理論的結(jié)合研究情況進(jìn)行介紹,并指出這方面未來的研究發(fā)展方向。
1 粗糙集理論概述
粗糙集是一種用于解決不確定性問題的數(shù)學(xué)工具。粗糙集理論中知識(shí)被理解為對(duì)事物進(jìn)行區(qū)分的能力,在形式上表現(xiàn)為對(duì)論域的劃分,因而通過論域上的等價(jià)關(guān)系表示。粗糙集通過一對(duì)上、下近似算子來刻畫事物,它不需要數(shù)據(jù)以外的任何先驗(yàn)知識(shí),因此具有很高的客觀性。目前,粗糙集被廣泛用于決策分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域[3~8]。
1.1 粗糙集中的基本概念
定義1 論域、概念。設(shè)U是所需研究的對(duì)象組成的非空有限集合,稱為一個(gè)論域,即論域U。論域U的任意一個(gè)子集XU,稱為論域U的一個(gè)概念。論域U中任意一個(gè)子集簇稱為關(guān)于U的知識(shí)。
定義2 知識(shí)庫。給定一個(gè)論域U和U上的一簇等價(jià)關(guān)系S,稱二元組K=(U,S)是關(guān)于論域U的知識(shí)庫或近似空間。
定義3 不可分辨關(guān)系。給定一個(gè)論域U和U上的一簇等價(jià)關(guān)系S,若PS,且P≠?,則∩P仍然是論域U上的一個(gè)等價(jià)關(guān)系,稱為P上的不可分辨關(guān)系,記做IND(P)。
稱劃分U/IND(P)為知識(shí)庫K=(U,S)中關(guān)于論域U的P-基本知識(shí)。
定義4 上近似、下近似。設(shè)有知識(shí)庫K=(U,S)。其中U為論域,S為U上的一簇等價(jià)關(guān)系。對(duì)于?X∈U和論域U上的一個(gè)等價(jià)關(guān)系R∈IND(K),則X關(guān)于R的下近似和上近似分別為
下近似 R(X)=∪{Y∈U/R|YX}
上近似 R(X)=∪{Y∈U/R|Y∩X=?}
集合的上近似和下近似是粗糙集中最核心的概念,粗糙集的數(shù)字特征以及拓?fù)涮卣鞫际怯伤鼈儊砻枋龊涂坍嫷?。?dāng)R=(X)時(shí),稱X是R-精確集;當(dāng)R(X)≠(X)時(shí),稱X是R-粗糙集,即X是粗糙集。
1.2 粗糙集中的知識(shí)約簡(jiǎn)
在一個(gè)信息系統(tǒng)中,有些描述對(duì)象的屬性可能是不必要的,因此需要將這些冗余的屬性予以刪除來提高系統(tǒng)的效率。
給定一個(gè)知識(shí)庫K=(U,S),對(duì)于PS,?R∈P,如果IND(P)=IND(P-{R})成立,則稱R為P中不必要的,否則稱R為P中必要的。如果P中的每個(gè)R都是必要的,則稱P是獨(dú)立的。
定義5 約簡(jiǎn)、核。給定一個(gè)知識(shí)庫K=(U,S)和知識(shí)庫上的一簇等價(jià)關(guān)系PS,對(duì)于任意GP,如果G是獨(dú)立的,并且IND(G)=IND(P),則稱G是P的一個(gè)約簡(jiǎn),記為G∈RED(P)。P中所有必要的知識(shí)組成的集合稱為P的核,記為Core(P)。約簡(jiǎn)與核的關(guān)系為Core(P)=∩RED(P),即核是約簡(jiǎn)的交集。
常見的粗糙集中知識(shí)約簡(jiǎn)的算法主要有盲目刪除約簡(jiǎn)法、基于Pawlak屬性重要度的約簡(jiǎn)法和基于差別矩陣的約簡(jiǎn)法。其中,盲目刪除法是通過任意選擇一個(gè)屬性,看其是否是必要的,如果是必要的則保留,否則刪除該屬性,這種方法簡(jiǎn)單直觀,但約簡(jiǎn)的結(jié)果卻不一定讓人滿意;基于Pawlak屬性重要度的方法是根據(jù)屬性的重要度來進(jìn)行約簡(jiǎn),其特點(diǎn)是用這種方法可以得到信息系統(tǒng)的最優(yōu)約簡(jiǎn)或次優(yōu)約簡(jiǎn),但它卻存在找不到一個(gè)約簡(jiǎn)可能性;基于差別矩陣的方法是把論域中區(qū)分任意兩個(gè)對(duì)象的屬性集合用矩陣的形式表示出來,通過這個(gè)矩陣可以直觀地得出信息系統(tǒng)的核和所有約簡(jiǎn),這種方法雖然能很直觀地得出信息系統(tǒng)的所有約簡(jiǎn)和核,但當(dāng)問題規(guī)模較大時(shí)會(huì)產(chǎn)生組合爆炸。此外,也有學(xué)者對(duì)知識(shí)的約簡(jiǎn)提出了一些改進(jìn)的新算法。文獻(xiàn)[10, 11]基于鄰域?qū)Υ植诩膶傩院蛯傩灾档募s簡(jiǎn)進(jìn)行了優(yōu)化處理;文獻(xiàn)[12]提出了一種新的屬性約簡(jiǎn)方法ReCA,提高了對(duì)連續(xù)性屬性的數(shù)據(jù)的知識(shí)約簡(jiǎn)性能。
粗糙集在處理不確定問題中新穎獨(dú)特的方法引起了大量學(xué)者的興趣,很多學(xué)者對(duì)該理論作出了擴(kuò)展性的研究[13~17],包括覆蓋粗糙集[18~21]、變精度的粗糙集[22]等很多新的內(nèi)容。文獻(xiàn)[23]對(duì)粗集的公理化進(jìn)行了深入的研究,得到了兩個(gè)關(guān)于粗集的最小公理組;文獻(xiàn)[24]通過松弛對(duì)象之間的不可分辨和相容性條件,給出了一種新的基于和諧關(guān)系的粗糙集模型;文獻(xiàn)[25]構(gòu)造了關(guān)于決策表對(duì)象的區(qū)分條件,并借助區(qū)分矩陣與區(qū)分函數(shù)提出了一種完備的約簡(jiǎn)方法;文獻(xiàn)[16]將組合熵和組合粒度的概念引入到了粗糙集中,確立了兩者之間的關(guān)系;文獻(xiàn)[26]提出了在不協(xié)調(diào)目標(biāo)信息系統(tǒng)中知識(shí)約簡(jiǎn)的新方法;文獻(xiàn)[27]提出了屬性左劃分和屬性右劃分的觀點(diǎn),設(shè)計(jì)了一種基于劃分的屬性約簡(jiǎn)算法ARABP;文獻(xiàn)[28]從屬性和信息熵的角度探討了粗糙集的不確定性的度量。這些研究極大地推動(dòng)了粗糙集理論的發(fā)展和應(yīng)用。
2 粗糙集與模糊集
模糊集理論是由美國(guó)學(xué)者Zadeh于1965年提出的,模糊集指的是這樣一種集合,這個(gè)集合中的每個(gè)元素都是在一定程度上隸屬于或者不隸屬于這個(gè)集合,用于衡量這種隸屬程度的函數(shù)被稱為隸屬函數(shù)。模糊集中的任意一個(gè)元素都是通過隸屬函數(shù)來確定一個(gè)隸屬度與之一一對(duì)應(yīng)。
2.1 模糊集理論的基本概念
定義6 隸屬度、隸屬函數(shù)。設(shè)U是一個(gè)論域,A是U上的一個(gè)模糊集,如果?x∈U,均能確定一個(gè)數(shù)μ?A(x)∈[0,1]來表示x隸屬于A的程度,稱這個(gè)數(shù)是x對(duì)A的隸屬度。其中μ?A(x)是這樣一個(gè)映射:μ?A:U→[0,1],x|→μ?A(x)∈[0,1],?μ?A(x)稱為A的隸屬函數(shù)。
隸屬函數(shù)是模糊集的核心基礎(chǔ)概念,由它來確定和描述一個(gè)模糊集。對(duì)于同一個(gè)論域,不同的隸屬函數(shù)確定不同的模糊集,如μ?A(x)和μ?B(x)是論域U上的兩個(gè)不同的隸屬函數(shù),則由它們可以確定兩個(gè)不同的模糊集A和B。模糊集是經(jīng)典集合理論的擴(kuò)展,當(dāng)一個(gè)模糊集的隸屬度只能取0或1時(shí),即μ?A(x)∈{0,1},模糊集A便退化為一個(gè)經(jīng)典集合論中的普通集合。
2.2 模糊集與粗糙集的互補(bǔ)性
在模糊集中,隸屬函數(shù)一般是根據(jù)專家的經(jīng)驗(yàn)知識(shí)或者通過一些統(tǒng)計(jì)數(shù)據(jù)結(jié)果來確定,具有很大的主觀性,而缺乏一定的客觀性,這也是模糊集的一個(gè)根本缺陷。粗糙集中的上近似和下近似是由已知知識(shí)庫中客觀存在的對(duì)象來確定的,不需要任何先前的假設(shè)條件,具有很強(qiáng)的客觀性。但是,在實(shí)際的生活中,有很多已知的、確定的而無須再去進(jìn)行判斷的先驗(yàn)知識(shí),如果能直接利用這些知識(shí)來解決問題,會(huì)帶來很高的效率,而這一點(diǎn)又正是粗糙集所欠缺的。由此可見,粗糙集與模糊集各自的特點(diǎn)之間具有很強(qiáng)的互補(bǔ)性,把它們結(jié)合起來解決問題通常都會(huì)比單獨(dú)使用它們更為有效。在這方面的研究已經(jīng)有了很大的進(jìn)展和很多的具體應(yīng)用,粗糙模糊集和模糊粗糙集[29]便是其中兩個(gè)重要的研究成果。
粗糙模糊集主要是通過對(duì)模糊集中的隸屬函數(shù)采用粗糙集中集合的上近似與下近似的方法來進(jìn)行描述,以此來增強(qiáng)模糊集處理問題的客觀性。它是把粗糙集中的上下近似的特點(diǎn)融入到了模糊集當(dāng)中,將模糊集中的隸屬函數(shù)概念擴(kuò)展成上近似的隸屬函數(shù)和下近似的隸屬函數(shù),由這兩個(gè)隸屬函數(shù)所確定的隸屬度值來形成一個(gè)區(qū)間;用這個(gè)區(qū)間來描述一個(gè)元素隸屬于一個(gè)模糊集的可能性范圍,而不再是之前的元素與隸屬度之間一一對(duì)應(yīng)的情況,即x∈A的隸屬度不再是μ?A(x)∈[0,1],而是在[下近似的隸屬度,上近似的隸屬度]這個(gè)區(qū)間。粗糙模糊集的基本定義如下:
定義7 粗糙模糊集。設(shè)U是一個(gè)論域,R是U上的一個(gè)等價(jià)關(guān)系,A是U上的一個(gè)模糊集,μ?A(x)是A的隸屬度函數(shù),R(A)和(A)分別表示A的上近似和下近似,它們對(duì)應(yīng)的隸屬函數(shù)是:
a)下近似的隸屬函數(shù)μR(A)([x]?R)=inf{μ?A(x)|x∈[x]?R},?x∈X;
b)上近似的隸屬函數(shù)μ(A)=sup{μ?A(x)|x∈[x]?R},??x∈X。
稱R(X)=(R(X),(X))為粗糙模糊集。
模糊粗糙集是把模糊集中的隸屬函數(shù)的概念應(yīng)用到了粗糙集當(dāng)中,根據(jù)模糊集中的隸屬函數(shù)來確定粗糙集中的一個(gè)等價(jià)關(guān)系,即把由隸屬函數(shù)得到的隸屬度相同的元素歸屬于同一等價(jià)類,從而得到論域U上的一個(gè)劃分。這其實(shí)就是將模糊集中已知的、確定的而無須再判斷的知識(shí)轉(zhuǎn)變?yōu)榇植诩械牡葍r(jià)關(guān)系,得到粗糙集上的一簇等價(jià)類,提高粗糙集處理問題的效率。模糊粗糙集的基本概念定義如下:
定義8 模糊粗糙集。給定一個(gè)論域U,A是U的一個(gè)模糊集,μ?A(x)是A的隸屬函數(shù)。設(shè)R?A為U上的一個(gè)等價(jià)關(guān)系,且滿足對(duì)于?x,y∈U,xR?Ay?μ?A(x)=μ?A(y)。令[x]R??A表示以x為代表元素的等價(jià)類,若XU,X≠?,則X關(guān)于R?A的下近似和上近似分別為
下近似 R?A(X)=∪{[x]R??A|[x]R??AX}
上近似 ?A(X)=∪{[x]R??A|[x]R??A∩X≠?}
若R?A(X)=?A(X),稱X是R?A-可定義集;若R?A(X)≠?A(X),稱X是R?A-模糊粗糙集。
粗糙模糊集和模糊粗糙集對(duì)粗糙集和模糊集進(jìn)行很好的互補(bǔ)性處理,已經(jīng)在很多領(lǐng)域得到了實(shí)際應(yīng)用[30~33],并取得了很好的效果。有很多學(xué)者對(duì)它們進(jìn)行了進(jìn)一步的比較研究[34~37],作了一些改進(jìn)和擴(kuò)展。文獻(xiàn)[38]在覆蓋粗糙集的基礎(chǔ)上,結(jié)合模糊集的最近尋常集,引入了覆蓋廣義粗糙集模糊度的概念,給出了一種模糊度計(jì)算方法,并證明了該模糊度的一些重要性質(zhì);文獻(xiàn)[39]提出了模糊不可分辨關(guān)系的概念,加強(qiáng)了粗糙集對(duì)模糊值屬性處理能力。
3 粗糙集與神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是在現(xiàn)代神經(jīng)生物學(xué)研究成果的基礎(chǔ)上發(fā)展起來的一種模仿人腦信息處理機(jī)制的網(wǎng)絡(luò)系統(tǒng)。它具有在有監(jiān)督或無監(jiān)督的情況下從輸入數(shù)據(jù)中進(jìn)行學(xué)習(xí)的能力,被廣泛地應(yīng)用于數(shù)據(jù)挖掘[40~42]、模式識(shí)別[43~47]、信號(hào)處理[48,49]、預(yù)測(cè)[50, 51]等領(lǐng)域。
3.1 神經(jīng)網(wǎng)絡(luò)基本知識(shí)
神經(jīng)網(wǎng)絡(luò)[52]是一個(gè)由簡(jiǎn)單處理單元構(gòu)成的規(guī)模宏大的并行分布式處理器,天然具有存儲(chǔ)經(jīng)驗(yàn)知識(shí)和使之可用的特性。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)最基本的信息處理單元,它具有接收和傳遞信息的功能。一個(gè)神經(jīng)網(wǎng)絡(luò)是由眾多的神經(jīng)元組成,每個(gè)神經(jīng)元接收其他神經(jīng)元和外界的輸入信息。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)通常都是以層的方式來組織的,一般包含一個(gè)輸入層、任意多個(gè)隱藏層和一個(gè)輸出層,每層都由眾多的神經(jīng)元組成。其基本原理是輸入層神經(jīng)元接收外界環(huán)境的信息輸入,隱藏層神經(jīng)元將隱藏層單元的信息輸出至輸出層,輸出層將信息輸出至外界。根據(jù)神經(jīng)元信息的輸出是否存在反饋,又將神經(jīng)網(wǎng)絡(luò)分為前饋神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)。
3.2 粗糙集與神經(jīng)網(wǎng)絡(luò)的聯(lián)系
粗糙集對(duì)事物的識(shí)別和判斷是基于論域上的不可辨關(guān)系,它不需要任何先驗(yàn)的信息。通過系統(tǒng)參數(shù)的重要度函數(shù)來獲得描述事物各個(gè)屬性的重要度,依此不僅可以進(jìn)行屬性的約簡(jiǎn),而且也可以用于把握事物的主要特征,提高識(shí)別能力。粗糙集可以實(shí)現(xiàn)對(duì)信息系統(tǒng)的知識(shí)約簡(jiǎn),去除冗余的信息,減少輸入信息的空間維度,提高處理效率。不過粗糙集的抗干擾能力較差,對(duì)于噪聲較為敏感,在噪聲較大的環(huán)境中就表現(xiàn)得不盡如人意。
神經(jīng)網(wǎng)絡(luò)的特點(diǎn)就是通過訓(xùn)練和學(xué)習(xí)產(chǎn)生一個(gè)非線性的映射,模擬人的思維方式,具有很好的自適應(yīng)性,可以實(shí)現(xiàn)有監(jiān)督和無監(jiān)督的學(xué)習(xí),并能夠?qū)π畔⑦M(jìn)行并行處理;同時(shí),它具有很好的抑制噪聲的能力。但是神經(jīng)網(wǎng)絡(luò)也有很明顯的缺陷,它無法對(duì)輸入的信息進(jìn)行有用性或冗余性的判斷,因此不能對(duì)輸入的信息進(jìn)行簡(jiǎn)化,這使得它在處理空間維數(shù)較大的信息時(shí)會(huì)很困難和低效。
粗糙集與神經(jīng)網(wǎng)絡(luò)各自的長(zhǎng)處和短處讓人們發(fā)現(xiàn)它們具有很好的互補(bǔ)性;另外,從對(duì)人類思維模擬的角度看,粗糙集方法模擬人類的抽象邏輯思維,而神經(jīng)網(wǎng)絡(luò)方法模擬人類的形象直覺思維。因此,將兩者結(jié)合起來,用粗糙集的特點(diǎn)去彌補(bǔ)神經(jīng)網(wǎng)絡(luò)在處理髙維度數(shù)據(jù)上的不足,而用神經(jīng)網(wǎng)絡(luò)的抗干擾強(qiáng)的特性去彌補(bǔ)粗糙集對(duì)噪聲的敏感性,將模擬人的抽象思維與形象直覺思維相結(jié)合,就會(huì)得到更好的效果。目前,這方面的研究已成為一個(gè)重要的研究方向。
3.3 粗糙集與神經(jīng)網(wǎng)絡(luò)的結(jié)合
粗糙集與神經(jīng)網(wǎng)絡(luò)最常見的結(jié)合方式主要有兩種:a)將粗糙集作為神經(jīng)網(wǎng)絡(luò)的前端處理器[53],通過利用粗糙集先對(duì)原始信息進(jìn)行屬性及屬性值的約簡(jiǎn),去除冗余信息,降低信息空間的維度,為神經(jīng)網(wǎng)絡(luò)提供一個(gè)較為簡(jiǎn)化的訓(xùn)練集,然后再構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)。這樣的結(jié)合方式不僅縮短了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和訓(xùn)練的時(shí)間,提高了系統(tǒng)反應(yīng)速度,而且也可以充分發(fā)揮神經(jīng)網(wǎng)絡(luò)在抗噪性和容錯(cuò)性的優(yōu)勢(shì),達(dá)到提高神經(jīng)網(wǎng)絡(luò)整體性能的目的。b)通過在神經(jīng)網(wǎng)絡(luò)中引入一種粗糙神經(jīng)元來進(jìn)行,將粗糙神經(jīng)元與普通神經(jīng)元混合起來使用構(gòu)成粗糙神經(jīng)網(wǎng)絡(luò)。
粗糙神經(jīng)元是Lingras[54]設(shè)計(jì)的一種由一對(duì)重疊的普通神經(jīng)元——上神經(jīng)元和下神經(jīng)元r組成,如圖1所示。粗糙神經(jīng)元中上神經(jīng)元和下神經(jīng)元r整體看成是一個(gè)神經(jīng)元r,神經(jīng)元之間的連線表示信息的相互交換。圖2~4分別表示粗糙神經(jīng)r與s之間的全連接、抑制連接和激勵(lì)連接三種常見連接方式。粗糙神經(jīng)元的輸出是具有上近似和下近似的一對(duì)數(shù)值,而普通神經(jīng)元只有一個(gè)輸出值。下近似或上近似的神經(jīng)元輸入根據(jù)以下公式計(jì)算權(quán)值:
input?i=?nj=1wji×output?j
其中:wji為神經(jīng)元j到i神經(jīng)元間的連接權(quán)值,n表示i與j間存在的連接個(gè)數(shù)。
若f(u)為神經(jīng)元激勵(lì)函數(shù),則粗糙神經(jīng)元的上下神經(jīng)元的輸出值分別為
output?=max(f(input?), f(inputr))
output?r=min(f(input?), f(inputr))
計(jì)算普通神經(jīng)元i的單個(gè)輸出值的公式:
output?i=f(input?i)
函數(shù)f(input)為sigmoid型函數(shù),定義如下:
f(u)=1/(1+e??-gain×u)
其中:增益系數(shù)gain是由系統(tǒng)的設(shè)計(jì)者確定的斜率。f(u)采用sigmoid型轉(zhuǎn)移函數(shù)是因這種轉(zhuǎn)移函數(shù)在0~1具有連續(xù)的取值。
有關(guān)粗糙集與神經(jīng)網(wǎng)絡(luò)的結(jié)合研究,還有其他學(xué)者研究提出的一些新的結(jié)合方式,如強(qiáng)耦合集成[55]方式,為解決神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中的網(wǎng)絡(luò)的隱層數(shù)、隱層節(jié)點(diǎn)數(shù)和初始權(quán)值的確定及網(wǎng)絡(luò)語義提供了一種便于實(shí)現(xiàn)的新思路。隨著軟計(jì)算理論中的各種理論和技術(shù)的不斷發(fā)展和創(chuàng)新,將神經(jīng)網(wǎng)絡(luò)與諸如進(jìn)化算法、概念格、證據(jù)理論及混沌學(xué)等加強(qiáng)結(jié)合研究,相信會(huì)取得更加讓人振奮的成就。
4 粗糙集與遺傳算法
遺傳算法[56]是一種自然進(jìn)化系統(tǒng)的計(jì)算機(jī)模型,也是一種通用的求解優(yōu)化問題的適應(yīng)性搜索方法。它的本質(zhì)特征在于群體搜索策略和簡(jiǎn)單的遺傳算子,是目前進(jìn)化算法中最為重要的一種算法,廣泛地應(yīng)用于人工智能、數(shù)據(jù)挖掘、自動(dòng)控制及商業(yè)等領(lǐng)域。
4.1 遺傳算法基本原理
遺傳算法通過模擬自然選擇和遺傳機(jī)制,以迭代的方式對(duì)其研究的對(duì)象群體進(jìn)行適應(yīng)性評(píng)價(jià)、選擇、重組,直到目標(biāo)群體滿足預(yù)定的要求或者達(dá)到最大迭代次數(shù),從而得到其希望的最優(yōu)解。遺傳算法的關(guān)鍵問題是對(duì)問題空間中個(gè)體的編碼方式的選擇、適應(yīng)函數(shù)的確定,以及遺傳策略中選擇、交叉、變異三個(gè)遺傳算子和選擇概率p?s、交叉概率p?c、變異概率p?m等遺傳參數(shù)的確定。下面是一個(gè)標(biāo)準(zhǔn)遺傳算法的算法描述[56]:
迭代開始(iteration):t=0
初始化(initialize):P(0)={a?1(0),a?2(0),…,a?n(0)}
適應(yīng)性評(píng)價(jià)(evaluate):P(0)={f(a?1(0)),…, f(a?n(0))}
while(循環(huán))T(P(t))≠true do
選擇(select):P′(t)=s(P(t),p?s)
交叉(crossover):P″(t)=c(P′(t),p?c)
變異(mutate):P?(t)=m(P″(t),p?m)
新一代群體:P(t+1)=P?(t),t=t+1
適應(yīng)性評(píng)價(jià)(evaluate):
P(t+1)={f(a?1(t+1)),…, f(a?n(t+1))}
結(jié)束(end do)
4.2 粗糙集與遺傳算法的結(jié)合
粗糙集與遺傳算法的結(jié)合主要應(yīng)用在屬性的約簡(jiǎn)[57~59]、數(shù)據(jù)挖掘[60]等方面。粗糙集中對(duì)于屬性的約簡(jiǎn)通常采用啟發(fā)式算法,如基于Pawlak屬性重要度的屬性約簡(jiǎn)算法、基于差別矩陣的屬性約簡(jiǎn)算法等。這種方法在一定的問題規(guī)模范圍內(nèi)會(huì)較為有效,但隨著問題的規(guī)模增大,其最小約簡(jiǎn)的求解難度也會(huì)大幅增加。遺傳約簡(jiǎn)算法是求取信息系統(tǒng)最小約簡(jiǎn)或者相對(duì)最小約簡(jiǎn)的一種算法。所謂最小約簡(jiǎn)或者相對(duì)最小約簡(jiǎn),就是屬性集的所有約簡(jiǎn)或者相對(duì)約簡(jiǎn)中,包含屬性個(gè)數(shù)最少的屬性集。由于遺傳算法是一種基于全局優(yōu)化的搜索方法,并具有并行性和很好的魯棒性,能夠防止搜索陷入局部最優(yōu)解的困境,更利于處理大規(guī)模問題的約簡(jiǎn)。
文獻(xiàn)[57]根據(jù)可辨別關(guān)系的下三角矩陣,利用遺傳算法提出一種基于遺傳算法的粗糙集知識(shí)約簡(jiǎn)算法,這種算法不僅可以得到正確的約簡(jiǎn),而且也能解決粗糙集中啟發(fā)式算法無法求解的部分問題;文獻(xiàn)[61]將信息論角度定義的屬性重要性度量作為啟發(fā)式信息引入遺傳算法,并構(gòu)造一個(gè)新的算子modifypop(t+1)來對(duì)種群進(jìn)行修復(fù),既保證了算法的整體優(yōu)化性,也提高了算法的收斂速度。在數(shù)據(jù)挖掘方面,文獻(xiàn)[60]將粗糙集與遺傳算法相結(jié)合,提出一種從大型數(shù)據(jù)表中獲取決策規(guī)則的方法。該方法利用粗糙集中屬性的重要度和核的思想得到屬性的約簡(jiǎn),然后借助遺傳算法來求得最優(yōu)解。
此外,對(duì)連續(xù)屬性的離散化處理是粗糙集中的一個(gè)重要問題。屬性離散化處理的關(guān)鍵在于選取合適的斷點(diǎn)對(duì)條件屬性構(gòu)成的空間進(jìn)行劃分以減少搜索空間。文獻(xiàn)[62]針對(duì)該問題利用遺傳算法將最小斷點(diǎn)集作為優(yōu)化目標(biāo),并構(gòu)造一個(gè)新的算子來保證所選斷點(diǎn)能保持原決策系統(tǒng)的不可分辯關(guān)系。
5 粗糙集與概念格
概念格理論也被稱做形式概念分析理論,是由德國(guó)數(shù)學(xué)家While提出的一種基于概念和概念層次的數(shù)學(xué)化表達(dá)[63],對(duì)于數(shù)據(jù)分析和規(guī)則提取非常有效。目前廣泛應(yīng)用于機(jī)器學(xué)習(xí)[64]、軟件工程[65]等領(lǐng)域。
5.1 概念格理論的基本知識(shí)
定義9[66] 形式背景。稱(U,A,I)為一個(gè)形式背景,其中U={x?1,x?2,…,x?n}為對(duì)象集,每個(gè)x?i(i≤n)稱為一個(gè)對(duì)象;A={a?1,a?2,…,a?n}為屬性集,每個(gè)a?j(j≤m)稱為一個(gè)屬性;I為U與A之間的二元關(guān)系,IU×A。若(x,a)∈I ,則說x具有屬性a,記為xIa。
在形式背景(U,A,I)下,若對(duì)象子集XU,屬性子集BA,分別定義運(yùn)算算子X?*和B?*為
X?*={a|a∈A,?x∈X,xIa}
B?*={x|x∈U,?a∈B,xIa}
其中:X?*表示X中所有對(duì)象共同具有的屬性的集合,B?*表示共同具有B中所有屬性的對(duì)象集合。
定義10 形式概念。設(shè)(U,A,I)為形式背景,如果一個(gè)二元組(X,B)滿足X?*=B且B?*=X,則稱(X,B)是一個(gè)形式概念,簡(jiǎn)稱概念。其中,X稱為概念的外延,B稱為概念的內(nèi)涵。
定義11[67] 子概念、父概念。如果(X?1,B?1)≤(X?2,B?2),且兩者之間不存在與它們不同的概念(Y,C),滿足(X?1,?B?1)≤(Y,C)≤(X?2,B?2),則稱(X?1,B?1)是(X?2,B?2)的子概念,(X?2,B?2)是(X?1,B?1)的父概念。
5.2 粗糙集與概念格的聯(lián)系
粗糙集與概念格之間都是基于二元關(guān)系的數(shù)據(jù)表來展開研究的。粗糙集是根據(jù)其論域上的不可辨關(guān)系實(shí)現(xiàn)對(duì)論域的劃分,產(chǎn)生若干個(gè)等價(jià)類。概念格是基于形式概念,結(jié)合序理論和完備格理論進(jìn)行概念分層討論。概念格的每個(gè)概念就是具有最大共同屬性的對(duì)象的集合,這一點(diǎn)與粗糙集的等價(jià)類非常相似。在形式背景中,外延即是由內(nèi)涵所確定的等價(jià)類。因此,粗糙集的一些性質(zhì)包括等價(jià)類,上、下近似等都可以通過概念來描述;同時(shí),利用概念格的特殊結(jié)構(gòu)可以得到函數(shù)依賴,從而可以用概念格來直觀地進(jìn)行條件屬性的約簡(jiǎn)。
粗糙集與概念格的相似性讓兩個(gè)理論之間有了密切的聯(lián)系,很多學(xué)者將它們結(jié)合起來研究。魏玲等人[67]分析研究了形式概念與等價(jià)類、概念格與劃分之間的相互關(guān)系,得出粗糙集中的劃分和概念格理論中的概念格可以進(jìn)行相互轉(zhuǎn)換的結(jié)論;文獻(xiàn)[68]將粗糙集理論中屬性約簡(jiǎn)和辨識(shí)矩陣的概念引入到形式概念分析中,實(shí)現(xiàn)了形式背景中冗余知識(shí)的約簡(jiǎn);Yao[69,70]基于對(duì)象定向概念的概念格討論了概念格和粗糙集理論之間的對(duì)應(yīng)關(guān)系,將粗糙集理論中上下近似的思想引入到形式概念分析中,分別討論了形式概念分析中的幾種近似算子。文獻(xiàn)[71]將包含度和偏序集的概念引入到形式概念分析中,對(duì)形式概念分析中的一些基本概念分別用包含度和偏序集加以表示。文獻(xiàn)[72]利用形式概念分析中的名義梯級(jí)背景(nominal scale)和平面梯級(jí)(plain scaling)的概念,論證了粗糙集理論中的上下近似、屬性依賴等核心概念都可以在相應(yīng)的衍生背景中進(jìn)行表示,并指出利用梯級(jí)的概念可以對(duì)粗糙集理論進(jìn)行擴(kuò)展,為兩者的融合提供了一個(gè)理論平臺(tái)。文獻(xiàn)[73]的研究結(jié)合粗糙集與概念格理論,給出了在形式背景下概念集合上的元素之間的二元運(yùn)算,使一般意義下的概念格成為帶有算子的概念格。
6 粗糙集與證據(jù)理論
證據(jù)理論[74]也常稱做D-S理論,是一種利用一組函數(shù)來處理不確定性問題的理論。證據(jù)理論中的證據(jù)指的是研究對(duì)象的屬性或者專家經(jīng)驗(yàn)等。
6.1 證據(jù)理論基礎(chǔ)
設(shè)Θ表示對(duì)一個(gè)問題的所有可能答案的集合,其中的每一個(gè)答案θ都是Θ的一個(gè)子集,子集之間是無交集的,稱Θ為辨識(shí)框架。
定義12[75] 基本可信度分配函數(shù)。設(shè)Θ是一個(gè)辨識(shí)框架,如果集函數(shù)m:2?Θ→[0,1]滿足m(Φ)=0,并且?A?Θm(A)=1,則稱m為Θ上的基本可信度分配函數(shù);?A?Θ,m(A)稱為A的基本可信度。
在定義12的基礎(chǔ)上,本文定義Θ的冪集2?Θ上的三個(gè)測(cè)度?函數(shù):
a)信任函數(shù)Bel,Bel(X)=?AXm(A),?XΘ;
b)似然函數(shù)pl,pl(X)=?A∩X≠?m(A);
c)公共函數(shù)Q,Q(X)=?X?Am(X)。
其中:信任函數(shù)Bel表達(dá)了對(duì)每個(gè)命題的信度;似然函數(shù)pl(X)表示對(duì)命題X不懷疑的程度;公共函數(shù)Q(X)反映了包含X的集合的所有基本可信度之和。
6.2 粗糙集與證據(jù)理論的聯(lián)系
證據(jù)理論根據(jù)可信度分配函數(shù)來定義信任函數(shù)、似然函數(shù),通過這對(duì)函數(shù)在給定證據(jù)下對(duì)假設(shè)進(jìn)行估計(jì)和評(píng)價(jià)。在證據(jù)理論中,證據(jù)主要是已知的事物的屬性或者專家經(jīng)驗(yàn)等一些先驗(yàn)知識(shí),這使得證據(jù)推理具有較強(qiáng)主觀性,限制了其使用范圍。證據(jù)理論的這些特征與粗糙集存在明顯的互補(bǔ)性和相似性。粗糙集對(duì)于問題的解決是基于一對(duì)客觀的近似算子,具有很強(qiáng)的客觀性;而粗糙集中的下、上近似與證據(jù)理論中的信任函數(shù)、似然函數(shù)在形式上又有著一定的相似性。將兩者的優(yōu)勢(shì)進(jìn)行互補(bǔ)以及相似性進(jìn)行結(jié)合的研究,已成為這個(gè)領(lǐng)域的一個(gè)重要方向。
通過在一個(gè)隨機(jī)近似空間上進(jìn)行粗糙集與證據(jù)理論的相似性研究,得出結(jié)論:證據(jù)理論中的信任函數(shù)與似然函數(shù)可以用粗糙集中下近似與上近似的概率來描述:
Bel(X)=|R(X)|/|U|,pl(X)=|(X)|/|U|
文獻(xiàn)[78]也對(duì)粗糙集與證據(jù)理論之間的關(guān)系進(jìn)行了進(jìn)一步的研究,認(rèn)為不同的辨識(shí)框架與有著不同下、上近似的各種粗糙近似空間之間有著密切聯(lián)系,并可以用這種聯(lián)系來解釋辨識(shí)框架上的信任函數(shù)與似然函數(shù),以加深對(duì)這兩個(gè)理論的?認(rèn)識(shí)。
7 結(jié)語
科技的發(fā)展讓人們對(duì)于生活、學(xué)習(xí)、科學(xué)研究等各種現(xiàn)代化工具的期望趨于自動(dòng)化、便捷化、智能化、高速化。而客觀的現(xiàn)實(shí)是人們獲得和需要處理的數(shù)據(jù)不僅數(shù)量龐大復(fù)雜,而且絕大部分都是不確定的、不完整的或者是不全真的。如何有效地、快速地從中提取出人們需要的信息就成了亟待解決的問題。軟計(jì)算理論的出現(xiàn)幫助人們?cè)谶@一方面取得了巨大的成就,粗糙集的迅速發(fā)展也為軟計(jì)算理論的應(yīng)用與研究提供了強(qiáng)大支持和擴(kuò)展。隨著對(duì)軟計(jì)算理論不斷深入的研究和發(fā)展,人們發(fā)現(xiàn)單個(gè)的軟計(jì)算理論在理論上和應(yīng)用上都存在著這樣或那樣的不足,而這些理論之間很強(qiáng)的互補(bǔ)特性則可以彌補(bǔ)這些不足。因此,將不同的軟計(jì)算理論結(jié)合起來研究已成為當(dāng)前學(xué)術(shù)界的共識(shí)。
本文主要描述了近年來發(fā)展較快并具有非常新穎特點(diǎn)的粗糙集與軟計(jì)算理論中的一些其他理論結(jié)合的研究情況,從中可以看到這種結(jié)合在人工智能、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、屬性約簡(jiǎn)、自動(dòng)控制以及醫(yī)學(xué)等方面所取得的顯著成就。此外,詞計(jì)算[79]逐漸成為了人工智能領(lǐng)域的研究熱點(diǎn),詞計(jì)算是以詞或文字術(shù)語為對(duì)象,而不是數(shù)值為對(duì)象的計(jì)算方法,而詞或文字本身就具有不確定意義的特點(diǎn),這恰好與粗糙集對(duì)問題的描述特點(diǎn)很相似,因此,將粗糙集與詞計(jì)算結(jié)合研究也將是未來粗糙集研究發(fā)展的一個(gè)內(nèi)容。這讓筆者相信,隨著對(duì)軟計(jì)算理論結(jié)合研究的不斷深入,將會(huì)看到更為令人欣喜的成功。
目前軟計(jì)算理論相互結(jié)合的研究一般只局限于其中某兩個(gè)理論之間來展開,而筆者在實(shí)際研究中也發(fā)現(xiàn),即使這樣的兩兩結(jié)合也存在很多有待完善和改進(jìn)的地方,這就需要在以后的研究中能將更多的軟計(jì)算理論結(jié)合在一起來研究,取長(zhǎng)補(bǔ)短、優(yōu)勢(shì)互補(bǔ),提高這一領(lǐng)域的研究水平。