診斷分析和預(yù)測分析
診斷分析和預(yù)測分析的作用決定了為什么會發(fā)生這種情況以及將會發(fā)生什么。如何分析這個問題:
1. 搜尋相關(guān)功能
在診斷分析中,你首先需要知道結(jié)果和可能的相關(guān)因素(在商業(yè)數(shù)據(jù)分析,這些因素被稱為功能)的過程一方面取決于我們對業(yè)務(wù)的理解程度,商人和頭腦風暴,只要是可能相關(guān),考慮在內(nèi),也可以基于現(xiàn)有功能的新結(jié)構(gòu),可以驗證是否相關(guān)的分析。
例如與汽車油耗相關(guān)的特征可能包括:車輛重量、排水量、軸距、傳動方式(手動、自動)、驅(qū)動方式(二、四驅(qū)動)等。
(b)的相關(guān)性分析
在列出可能與結(jié)果相關(guān)的特性之后,下一步是驗證它們是否與結(jié)果相關(guān)。具體的方法包括:
2.1定性分析
2.1.1二維散點圖
如果只有一個特性之間的相關(guān)性分析結(jié)果,可以通過一個二維散點圖分析,并初步直觀地判斷之間存在什么樣的關(guān)聯(lián)兩個通過圖形描述:正相關(guān)、負相關(guān)、不相關(guān);如果是,它是線性的還是非線性的(拋物線,指數(shù),等等)。下圖為不同性別的年齡與身高關(guān)系的散點圖??梢钥闯?,兩者在青春期之間存在著正線性相關(guān)關(guān)系。
2.1.2矩陣散點圖
在現(xiàn)實中,只有一個與結(jié)果相關(guān)的特性是很少見的。大多數(shù)情況下,有多個特性與結(jié)果相關(guān)。此時需要矩陣散點圖進行分析。矩陣散點圖的模式如下:
其實質(zhì)是對每個特征和結(jié)果做二維散點圖,分析其相關(guān)性。當然,在矩陣也可以散點圖分析是否有相關(guān)性特性和特點,專業(yè)要求多重共線性,特征數(shù)據(jù)的多元線性回歸模型要求不存在多重共線性,否則將貼現(xiàn)模型的可信度,需要排除一些特性可以消除共線性建模。
2.2定量分析
上述散點圖分析只能通過圖看到特征與結(jié)果之間的近似關(guān)系,即定性分析;但是,它們之間的關(guān)系無法準確地描述,即定量分析;定量分析可分為以下兩個步驟:
2.2.1特征選擇
當我們列表可能與多個特性的結(jié)果,并通過收購大約散點圖直觀的認知,還需要更準確判斷哪些特性和結(jié)果的相關(guān)性較高,為了降低計算的復(fù)雜性,我們應(yīng)該只把最相關(guān)的或最重要的一個特性模型中,主要有兩種方法:
常用的方法有單變量特征選擇方法:計算皮爾遜系數(shù)(即。,相關(guān)系數(shù))和互信息系數(shù)、相關(guān)系數(shù)只能測量線性相關(guān)系數(shù)和互信息可以測量各種各樣的相關(guān)性,但相對復(fù)雜的計算,但是很多工具箱包含工具(比如sklearn mime),內(nèi)部相關(guān)性排序選項后特征;
基于模型的特征選擇方法:一些模型會對訓(xùn)練過程中的特征進行排序,如logistic回歸、決策權(quán)、隨機森林等。
特征選擇不僅有助于簡化計算,而且有助于我們更好地理解特征與結(jié)果之間的關(guān)系。
聲明:文中部分素材來源于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系刪除。未經(jīng)本站授權(quán),任何人不得復(fù)制轉(zhuǎn)載、或以其他方式使用本網(wǎng)站的內(nèi)容