文章詳情頁

python sklearn包——混淆矩陣、分類報告等自動生成方式

瀏覽：3日期：2022-08-05 10:34:58

preface：做著最近的任務(wù)，對數(shù)據(jù)處理，做些簡單的提特征，用機器學(xué)習(xí)算法跑下程序得出結(jié)果，看看哪些特征的組合較好，這一系列流程必然要用到很多函數(shù)，故將自己常用函數(shù)記錄上。應(yīng)該說這些函數(shù)基本上都會用到，像是數(shù)據(jù)預(yù)處理，處理完了后特征提取、降維、訓(xùn)練預(yù)測、通過混淆矩陣看分類效果，得出報告。

1.輸入

從數(shù)據(jù)集開始，提取特征轉(zhuǎn)化為有標(biāo)簽的數(shù)據(jù)集，轉(zhuǎn)為向量。拆分成訓(xùn)練集和測試集，這里不多講，在上一篇博客中談到用StratifiedKFold()函數(shù)即可。在訓(xùn)練集中有data和target開始。

2.處理

def my_preprocessing(train_data): from sklearn import preprocessing X_normalized = preprocessing.normalize(train_data ,norm = 'l2',axis=0)#使用l2范式，對特征列進行正則 return X_normalized def my_feature_selection(data, target): from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 data_new = SelectKBest(chi2, k= 50).fit_transform(data,target) return data_new def my_PCA(data):#data without target, just train data, withou train target. from sklearn import decomposition pca_sklearn = decomposition.PCA() pca_sklearn.fit(data) main_var = pca_sklearn.explained_variance_ print sum(main_var)*0.9 import matplotlib.pyplot as plt n = 15 plt.plot(main_var[:n]) plt.show() def clf_train(data,target): from sklearn import svm #from sklearn.linear_model import LogisticRegression clf = svm.SVC(C=100,kernel='rbf',gamma=0.001) clf.fit(data,target) #clf_LR = LogisticRegression() #clf_LR.fit(x_train, y_train) #y_pred_LR = clf_LR.predict(x_test) return clf def my_confusion_matrix(y_true, y_pred): from sklearn.metrics import confusion_matrix labels = list(set(y_true)) conf_mat = confusion_matrix(y_true, y_pred, labels = labels) print 'confusion_matrix(left labels: y_true, up labels: y_pred):' print 'labelst', for i in range(len(labels)): print labels[i],'t', print for i in range(len(conf_mat)): print i,'t', for j in range(len(conf_mat[i])): print conf_mat[i][j],’t’, print print def my_classification_report(y_true, y_pred): from sklearn.metrics import classification_report print 'classification_report(left: labels):' print classification_report(y_true, y_pred)

my_preprocess()函數(shù)：

主要使用sklearn的preprocessing函數(shù)中的normalize()函數(shù)，默認參數(shù)為l2范式，對特征列進行正則處理。即每一個樣例，處理標(biāo)簽，每行的平方和為1.

my_feature_selection()函數(shù)：

使用sklearn的feature_selection函數(shù)中SelectKBest()函數(shù)和chi2()函數(shù)，若是用詞袋提取了很多維的稀疏特征，有必要使用卡方選取前k個有效的特征。

my_PCA()函數(shù)：

主要用來觀察前多少個特征是主要特征，并且畫圖?？纯辞岸嗌賯€特征占據(jù)主要部分。

clf_train()函數(shù)：

可用多種機器學(xué)習(xí)算法，如SVM, LR, RF, GBDT等等很多，其中像SVM需要調(diào)參數(shù)的，有專門調(diào)試參數(shù)的函數(shù)如StratifiedKFold()（見前幾篇博客）。以達到最優(yōu)。

my_confusion_matrix()函數(shù)：

主要是針對預(yù)測出來的結(jié)果，和原來的結(jié)果對比，算出混淆矩陣，不必自己計算。其對每個類別的混淆矩陣都計算出來了，并且labels參數(shù)默認是排序了的。

my_classification_report()函數(shù)：

主要通過sklearn.metrics函數(shù)中的classification_report()函數(shù)，針對每個類別給出詳細的準(zhǔn)確率、召回率和F-值這三個參數(shù)和宏平均值，用來評價算法好壞。另外ROC曲線的話，需要是對二分類才可以。多類別似乎不行。

主要參考sklearn官網(wǎng)

補充拓展：[sklearn] 混淆矩陣——多分類預(yù)測結(jié)果統(tǒng)計

調(diào)用的函數(shù)：confusion_matrix(typeTrue, typePred)

typeTrue：實際類別，list類型

typePred：預(yù)測類別，list類型

結(jié)果如下面的截圖：

第i行：實際為第i類，預(yù)測到各個類的樣本數(shù)

第j列：預(yù)測為第j類，實際為各個類的樣本數(shù)

true↓ predict→

python sklearn包——混淆矩陣、分類報告等自動生成方式

以上這篇python sklearn包——混淆矩陣、分類報告等自動生成方式就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持好吧啦網(wǎng)。

Python 編程

上一條：python GUI庫圖形界面開發(fā)之PyQt5狀態(tài)欄控件QStatusBar詳細使用方法實例下一條：python GUI庫圖形界面開發(fā)之PyQt5計數(shù)器控件QSpinBox詳細使用方法與實例

相關(guān)文章：

1. JSP的Cookie在登錄中的使用2. XMLDOM對象方法：對象屬性3. 博客日志摘要暨RSS技術(shù)4. ASP常用日期格式化函數(shù) FormatDate()5. JSP中Servlet的Request與Response的用法與區(qū)別6. 使用XSL將XML文檔中的CDATA注釋輸出為HTML文本7. SSM框架整合JSP中集成easyui前端ui項目開發(fā)示例詳解8. XML解析錯誤：未組織好的解決辦法9. JSP之表單提交get和post的區(qū)別詳解及實例10. 告別AJAX實現(xiàn)無刷新提交表單

排行榜

					
					vue實現(xiàn)購物車案例
django實現(xiàn)將后臺model對象轉(zhuǎn)換成json對象并傳遞給前端jquery
Vue新搭檔TypeScript快速入門實踐記錄
10個示例帶你掌握python中的元組
解決Django提交表單報錯:CSRF token missing or incorrect的問題
淺析idea生成war包放入tomcat的路徑訪問問題
IntelliJ IDEA卡死，如何優(yōu)化內(nèi)存
idea設(shè)置自動導(dǎo)入依賴的方法步驟
centos下配置ftp允許以root用戶身份登錄
怎樣用JavaScript實現(xiàn)觀察者模式
基于idea把maven工程轉(zhuǎn)換為web項目