Minitab Statistical Software 中的預(yù)測(cè)分析模塊在所有行業(yè)中都是非常寶貴的資產(chǎn)。業(yè)務(wù)價(jià)值可以通過(guò)預(yù)測(cè)措施產(chǎn)生,例如客戶流失、患者住院時(shí)間、成本、風(fēng)險(xiǎn)、利潤(rùn)和許多其他因素。
在本文中,我們將研究銀行業(yè)中的一個(gè)應(yīng)用程序。對(duì)于銀行來(lái)說(shuō),向錯(cuò)誤的人提供抵押貸款可能是一個(gè)損失數(shù)十萬(wàn)美元的錯(cuò)誤。鑒于這些風(fēng)險(xiǎn),銀行在決定批準(zhǔn)或拒絕他們的抵押貸款申請(qǐng)之前了解他們的客戶并對(duì)其做出預(yù)測(cè)是極其重要的。讓我們看看 Minitab 的預(yù)測(cè)分析模塊如何通過(guò)準(zhǔn)確預(yù)測(cè)客戶未來(lái)可能違約的情況來(lái)最大限度地減少抵押貸款違約的數(shù)量。
以下是分析中使用的觀察數(shù)據(jù)的一部分。對(duì)以前的客戶抵押貸款有1,645 項(xiàng)觀察結(jié)果。C1 列顯示響應(yīng)變量或目標(biāo),如果該人拖欠抵押貸款,則是,如果沒(méi)有,則否。 其他 9 列包含我們將評(píng)估為潛在預(yù)測(cè)因子的特征。
下面的餅圖幫助我們更好地了解借款人的抵押貸款違約率。 我們看到 10% 的抵押貸款被拖欠。降低這個(gè)百分比可以大大增加利潤(rùn)。
為了應(yīng)對(duì)這一挑戰(zhàn),我們使用 Minitab 預(yù)測(cè)分析模塊。
由于響應(yīng)為是或否,我們將使用分類模型。如果對(duì)連續(xù)響應(yīng)感興趣,將使用基于樹(shù)的回歸模型。預(yù)測(cè)分析模塊包含三種分類建模類型:
1. CART? 分類
2. 隨機(jī)森林分類
3. TreeNet 分類
對(duì)于分類,評(píng)估模型擬合優(yōu)度的主要指標(biāo)之一是 ROC 曲線下的面積。該指標(biāo)越接近 1 越好。模塊中的三個(gè)建模引擎中的每一個(gè)都被利用,并比較了各自的 ROC 曲線下面積值。
TreeNet 分類產(chǎn)生的 ROC 曲線下面積為 0.9695。對(duì)于來(lái)自其他兩個(gè)建模引擎的模型,該值優(yōu)于 ROC 曲線下的區(qū)域,這意味著生成的 TreeNet 分類模型是抵押貸款違約的最佳預(yù)測(cè)模型。 TreeNet Gradient Boosting 是 Minitab 中最靈活、屢獲殊榮且功能最強(qiáng)大的機(jī)器學(xué)習(xí)工具,它能夠始終如一地生成極其準(zhǔn)確的模型。在三個(gè)建模引擎中,TreeNet 通常傾向于產(chǎn)生最好的結(jié)果。
我們首先將相對(duì)變量重要性圖作為我們模型輸出的一部分。相對(duì)變量重要性值的范圍從 0% 到 100%,最重要的變量始終為 100%。 債務(wù)對(duì)信用是預(yù)測(cè)抵押貸款違約最重要的變量,其次是債務(wù)對(duì)收入,是第二重要的變量。九個(gè)特征中的八個(gè)在某些方面對(duì)模型很重要。
既然我們?cè)?Minitab 中已有模型,我們可以進(jìn)行預(yù)測(cè)。我們可以將單個(gè)值輸入 Minitab 以進(jìn)行預(yù)測(cè),如果一次進(jìn)行大量預(yù)測(cè)很有價(jià)值,我們可以將值列輸入到 Minitab 中。
以下為申請(qǐng) 485,000 美元抵押貸款的個(gè)人數(shù)據(jù):
? 43 歲
? 81,000 美元的收入
? 0.68 的債務(wù)信貸比率
? 0.73 的債務(wù)收入比
? 住宅抵押貸款
? 來(lái)自西北地區(qū)
? 無(wú)家屬
我們將這些值輸入到預(yù)測(cè)模型中以獲得單個(gè)默認(rèn)值的概率,如下面的預(yù)測(cè)輸出所示。此人拖欠抵押貸款的可能性超過(guò) 97%。一旦做出預(yù)測(cè),那么您,擁有行業(yè)知識(shí)的人,就可以解釋預(yù)測(cè)并采取行動(dòng)。我認(rèn)為違約概率為 97% 的個(gè)人很可能會(huì)被拒絕抵押貸款。
在所有預(yù)測(cè)變量的值都可用時(shí)進(jìn)行預(yù)測(cè)總是最好的情況,但實(shí)際上很多時(shí)候預(yù)測(cè)變量的某些值丟失。Minitab 中的預(yù)測(cè)分析使我們?cè)诎l(fā)生這種情況時(shí)仍然可以輕松地進(jìn)行預(yù)測(cè)。在下面的示例中,有幾個(gè)缺失值。即使有缺失值,我們?nèi)匀豢梢灶A(yù)測(cè)該客戶拖欠抵押貸款的概率。
我們還有另一個(gè)潛在客戶申請(qǐng)了 375,000 美元的抵押貸款。我們沒(méi)有關(guān)于該申請(qǐng)人的收入、債務(wù)與收入比率、地區(qū)和受撫養(yǎng)人數(shù)量的數(shù)據(jù)。但我們確實(shí)有以下信息:
? 49 歲
? 0.31 的債務(wù)信貸比率
? 住宅抵押貸款
盡管有缺失值,我們?nèi)匀荒軌蜃龀鲱A(yù)測(cè),并看到該客戶拖欠抵押貸款的可能性不到 1%,如下所示。
根據(jù)分析,此人似乎是抵押貸款的理想人選,因?yàn)楦鶕?jù)預(yù)測(cè)模型,他們違約的可能性不到 1%。這只是 Minitab 基于樹(shù)的機(jī)器學(xué)習(xí)算法如何幫助您解決復(fù)雜問(wèn)題并獲得寶貴見(jiàn)解的一個(gè)示例。
了解如何在您的行業(yè)中應(yīng)用 Minitab 預(yù)測(cè)分析模塊的強(qiáng)大功能