人工神經(jīng)網(wǎng)絡(luò)是一種仿照氮吹儀價(jià)格生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 而建 立的非 線形 預(yù)測(cè) 模型,是數(shù) 據(jù)挖 掘中 比較常用的模型與算法。有關(guān)人工神經(jīng)網(wǎng)絡(luò)的概念、特征、拓?fù)浣Y(jié)構(gòu)以及加權(quán)參數(shù)的確定學(xué) 習(xí)方法,我們已在第九章作了較詳細(xì)的論述。這 里只 是給 出在使 用人 工神經(jīng) 網(wǎng)絡(luò) 時(shí)需 要注 意的幾點(diǎn)事項(xiàng): 第一,神經(jīng)網(wǎng)絡(luò)很難解釋。目前還沒(méi)有能對(duì)神經(jīng)網(wǎng)絡(luò)做出顯而易見(jiàn)解釋的方法學(xué),因?yàn)? 在數(shù)據(jù)的分析處理方面,神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計(jì) 方法在 本質(zhì) 上有 很多差 別。神經(jīng) 網(wǎng)絡(luò) 的參 數(shù)要 比統(tǒng)計(jì)方法多很多。這么多參數(shù)通過(guò)各種各樣的 組合 方式來(lái) 影響 輸出 結(jié)果,以至 于很 難對(duì) 一個(gè)神經(jīng)網(wǎng)絡(luò)表示的模型做出直觀的解釋。實(shí)際 上神經(jīng) 網(wǎng)絡(luò) 也正 是當(dāng)作“黑盒”來(lái) 用的,不 348 第十章 數(shù)據(jù)挖掘與Agent技術(shù) 用去管“盒子”里面是什么,只管用就行了。在大部分情況下,這種限制條件是可以接受的。 第二,神經(jīng)網(wǎng)絡(luò)會(huì)學(xué)習(xí)過(guò)度。在訓(xùn)練神經(jīng)網(wǎng) 絡(luò)時(shí) 一定 要恰當(dāng) 的使 用一些 能嚴(yán) 格衡 量神 經(jīng)網(wǎng)絡(luò)的方法,如測(cè)試集方法和交叉驗(yàn)證法等。這
主要是由于神經(jīng)網(wǎng)絡(luò)太靈活、可變參數(shù)太 多,如果給足夠的時(shí)間,它幾乎可以“記住”任何事情。 第三,除非問(wèn)題非常簡(jiǎn)單,訓(xùn)練一個(gè)神經(jīng) 網(wǎng)絡(luò)可 能需 要相當(dāng) 長(zhǎng)的 時(shí)間 才能完 成。當(dāng)然, 一旦神經(jīng)網(wǎng)絡(luò)建立好了,在運(yùn)行它做某些預(yù)測(cè)時(shí)速度還是很快的。 第四,建立神經(jīng)網(wǎng)絡(luò)需要做的數(shù)據(jù)準(zhǔn)備 工作量 很大。 有些人 可能 會(huì)對(duì)神 經(jīng)網(wǎng) 絡(luò)存 在一 些錯(cuò)誤認(rèn)識(shí),認(rèn)為不管用什么數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)都能很好的工作并做出準(zhǔn)確的預(yù)測(cè)。這種認(rèn)識(shí) 是很不正確的。要想得到準(zhǔn)確度高的模型,必須認(rèn)真地對(duì)數(shù)據(jù)進(jìn)行清洗、整理、轉(zhuǎn)換、選擇等 工作,對(duì)任何數(shù)據(jù)挖掘技術(shù)都是這樣,神經(jīng)網(wǎng)絡(luò)尤其注重這一點(diǎn)。比如神經(jīng)網(wǎng)絡(luò)要求所有的 輸入變量只能是0~1(或-1~+1)之間的數(shù)值型實(shí)數(shù),因 此,對(duì) 文本型 數(shù)據(jù),必須先做 必要 的映射變換處理之后,才能用作為神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)。 2. 決策樹(shù) 決策樹(shù)是一種展示類似“在什么條件下會(huì) 得到 什么 值”這類 規(guī)則 的方法。 比如,在 貸款 申請(qǐng)中,要對(duì)申請(qǐng)的風(fēng)險(xiǎn)大小做出判斷,圖10.1 所示
是為 了解決 這個(gè) 問(wèn)題而 建立 的一 棵決 策樹(shù),從中可以看到?jīng)Q策樹(shù)的基本組成部分包括決策節(jié)點(diǎn)、分支和葉子節(jié)點(diǎn)。 圖10.1 一棵簡(jiǎn)單的決策樹(shù) 決策樹(shù)中最上面的節(jié)點(diǎn) 稱為 根 節(jié)點(diǎn),是 整個(gè) 決 策樹(shù) 的開(kāi) 始。本 例中 根節(jié) 點(diǎn) 是“收 入 > ¥40000”,對(duì)此問(wèn)題的不同回答產(chǎn)生了“是”和“否”兩個(gè)分支。決策樹(shù) 中每個(gè) 節(jié)點(diǎn)的子 節(jié)點(diǎn) 個(gè)數(shù)與決策樹(shù)所用的算法有關(guān)。如 CART 算法得到的決 策樹(shù)每 個(gè)節(jié)點(diǎn)有 兩個(gè)分支,這 種樹(shù) 稱為二叉樹(shù)。允許節(jié)點(diǎn)含有多于兩個(gè)子節(jié)點(diǎn)的樹(shù)稱為多叉樹(shù)。每個(gè)分支所連接的節(jié)點(diǎn)要么 是一個(gè)新的決策節(jié)點(diǎn),要么是樹(shù)的葉子節(jié)點(diǎn)。 數(shù)據(jù)挖掘中決策樹(shù)是一種經(jīng)常要用到的技術(shù),可以用于對(duì)數(shù)據(jù)進(jìn)行分析,同樣也可以用 來(lái)對(duì)某些事情進(jìn)行 預(yù)測(cè),比 如銀 行 職 員可 以 應(yīng) 用 決 策樹(shù) 預(yù) 測(cè) 放 貸 的風(fēng) 險(xiǎn)。 常 用的 算 法 有