国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

詳解Python 關聯規則分析

瀏覽:28日期:2022-06-24 14:41:31
1. 關聯規則

大家可能聽說過用于宣傳數據挖掘的一個案例:啤酒和尿布;據說是沃爾瑪超市在分析顧客的購買記錄時,發現許多客戶購買啤酒的同時也會購買嬰兒尿布,于是超市調整了啤酒和尿布的貨架擺放,讓這兩個品類擺放在一起;結果這兩個品類的銷量都有明顯的增長;分析原因是很多剛生小孩的男士在購買的啤酒時,會順手帶一些嬰幼兒用品。

不論這個案例是否是真實的,案例中分析顧客購買記錄的方式就是關聯規則分析法Association Rules。

關聯規則分析也被稱為購物籃分析,用于分析數據集各項之間的關聯關系。

1.1 基本概念 項集:item的集合,如集合{牛奶、麥片、糖}是一個3項集,可以認為是購買記錄里物品的集合。 頻繁項集:顧名思義就是頻繁出現的item項的集合。如何定義頻繁呢?用比例來判定,關聯規則中采用支持度和置信度兩個概念來計算比例值 支持度:共同出現的項在整體項中的比例。以購買記錄為例子,購買記錄100條,如果商品A和B同時出現50條購買記錄(即同時購買A和B的記錄有50),那邊A和B這個2項集的支持度為50%

詳解Python 關聯規則分析

置信度:購買A后再購買B的條件概率,根據貝葉斯公式,可如下表示:

詳解Python 關聯規則分析

提升度:為了判斷產生規則的實際價值,即使用規則后商品出現的次數是否高于商品單獨出現的評率,提升度和衡量購買X對購買Y的概率的提升作用。如下公式可見,如果X和Y相互獨立那么提升度為1,提升度越大,說明X->Y的關聯性越強

詳解Python 關聯規則分析

1.2 關聯規則Apriori算法

關聯規則方法的步驟如下:

發現頻繁項集 找出關聯規則

Apriori算法是經典的關聯規則算法。Apriori算法的目標是找到最大的K項頻繁集。Apriori算法從尋找1項集開始,通過最小支持度閾值進行剪枝,依次尋找2項集,3項集直到沒有更過項集為止。

下面是一個案例圖解:

詳解Python 關聯規則分析

圖中有4個記錄,記錄項有1,2,3,4,5若干 首先先找出1項集對應的支持度(C1),可以看出4的支持度低于最小支持閾值,先剪掉(L1)。 從1項集生成2項集,并計算支持度(C2),可以看出(1,5)(1,2)支持度低于最小支持閾值,先剪掉(L2) 從2項集生成3項集,(1,2,3)(1,2,5)(2,3,5)只有(2,3,5)滿足要求 沒有更多的項集了,就定制迭代 2. mlxtend實戰關聯規則

關聯規則目前在scikit-learn中并沒有實現。這里介紹另一個python庫mlxtend。

2.1 安裝

pip install mlxtend2.2 簡單的例子

來看下數據集:

import pandas as pditem_list = [[’牛奶’,’面包’], [’面包’,’尿布’,’啤酒’,’土豆’], [’牛奶’,’尿布’,’啤酒’,’可樂’], [’面包’,’牛奶’,’尿布’,’啤酒’], [’面包’,’牛奶’,’尿布’,’可樂’]]item_df = pd.DataFrame(item_list)

數據格式處理,傳入模型的數據需要滿足bool值的格式

from mlxtend.preprocessing import TransactionEncodete = TransactionEncoder()df_tf = te.fit_transform(item_list)df = pd.DataFrame(df_tf,columns=te.columns_)

詳解Python 關聯規則分析

計算頻繁項集

from mlxtend.frequent_patterns import apriori# use_colnames=True表示使用元素名字,默認的False使用列名代表元素, 設置最小支持度min_supportfrequent_itemsets = apriori(df, min_support=0.05, use_colnames=True)frequent_itemsets.sort_values(by=’support’, ascending=False, inplace=True)# 選擇2頻繁項集print(frequent_itemsets[frequent_itemsets.itemsets.apply(lambda x: len(x)) == 2])

詳解Python 關聯規則分析

計算關聯規則

from mlxtend.frequent_patterns import association_rules# metric可以有很多的度量選項,返回的表列名都可以作為參數association_rule = association_rules(frequent_itemsets,metric=’confidence’,min_threshold=0.9)#關聯規則可以提升度排序association_rule.sort_values(by=’lift’,ascending=False,inplace=True) association_rule# 規則是:antecedents->consequents

詳解Python 關聯規則分析

選擇出來關聯規則之后,根據提升度排序后,可能最高提升度的規則是在我們常識范圍內,那這個規則的價值就不高。所以我們要在產生的規則中根據業務特點進行篩選,像開篇提到(啤酒->尿布)完全不同的品類之間的關聯。

筆者最近用關聯規則分析用戶的體檢報告記錄,也得出了關于各個病癥的有意義的關聯,如并發癥,不同病癥相互影響等。

3. 總結

本分介紹關聯規則的基本概念和經典算法Apriori,以及python的實現庫mlxtend使用。

總結如下:

關聯規則用于分析數據集各項之間的關聯關系,想一想啤酒和尿布的故事 三個重要概念:支持度,置信度和提升度 Apriori通過迭代先找1項集,用支持度過濾項集,逐步找出所有k項集 用置信度或提升度來選擇滿足的要求的規則 mlxtend對數據要求轉換成bool值才可用

以上就是詳解Python 關聯規則分析的詳細內容,更多關于Python 關聯規則分析的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 国产激情视频在线 | 不卡一区二区在线观看 | 日本三级在线观看中文字 | 亚洲男人天堂手机版 | 99re热视频这里只精品 | 免费看欧美日韩一区二区三区 | 久久国产首页 | 狠狠色丁香婷婷久久综合不卡 | 久久免费播放 | 欧美成人ass | 99久久国语露脸精品对白 | 久久频这里精品香蕉久久 | 欧美一区欧美二区 | 亚洲精品欧美精品中文字幕 | 日本一视频一区视频二区 | 毛片大全在线观看 | 国产精品极品美女自在线看免费一区二区 | 欧美日本一道道一区二区三 | 亚洲国产精品成人综合久久久 | 亚洲精品一区二区中文 | 三级做人爱c视频18三级 | 亚洲男人的天堂久久香蕉网 | 不卡无毒免费毛片视频观看 | 91社区视频| 老湿菠萝蜜在线看 | 中文字幕久久亚洲一区 | 午夜欧美成人久久久久久 | 欧美a免费 | 亚洲欧美高清 | 久草视频资源站 | 亚洲国产精品国产自在在线 | 天干夜天天夜天干天ww | 一级毛片免费视频观看 | 久久久久国产午夜 | 国产成人精品亚洲77美色 | 美女被免费网站视频软件 | 国产系列 视频二区 | 国产免费网 | 男女性高爱潮免费的国产 | 亚洲日本在线看片 | 久久精品国产精品青草不卡 |