今天我們繼續談Data Mining的部份 , 深入探討SQL Server 2005提供的Data Mining 演算法分析工具 , 使用前先打開SQL server BI studio,建立一Analysis service Project,設定好Data source,在Data Mining 模型點選新增,就可以開始練習,其基本觀念如下
(一)決策樹(Decision Tree)
決策樹是利用樹的結構去將資料做分類,來找出各變數的關係和比例高的結果
如 以下列資料為例
會員編號 | 年齡 | 性別 | 收入 | 是否買iPod |
1 | <35 | 男 | 中 | 是 |
2 | >35 | 女 | 高 | 否 |
3 | <35 | 男 | 低 | 是 |
4 | >35 | 女 | 中 | 否 |
若要觀察 年齡、性別 、收入與是否購買iPOD的關係 ,則設是否買iPOD為預測變數(可預測),年齡、性別、收入為自變數(輸入),會員編號為索引鍵,透過決策樹演算法可以看出各變數的階層關係,並可以找出會買iPOD的相關條件族群。
(二) 群集演算法(Cluster Analysis)
其目的是將相似的事物歸類,如果在一群散亂的客戶資料裡,想由客戶的購買習慣將客戶分群,來找出潛藏的特殊族群加以促銷,可以利用群集演算法。
如下列資料
會員編號 | 年齡 | 性別 | 收入 |
1 | <35 | 男 | 中 |
2 | >35 | 女 | 高 |
3 | <35 | 男 | 低 |
4 | >35 | 女 | 中 |
在設定的時候,年齡、性別、收入都設為input,會員編號設為Key,透過群集演算法會分析性之間的關係加以分群 , 我們可以在分群結果命名 ,以後用此模型就容易找出符合該群組的會員。
(三) 時序群集(Sequence Clustering)
其目的在找出先後發生事物的關係,例如消費者購買A物品後又購買B物品的機率。
以下列資料為例
會員編號 | 交易時間 | 購買物品 |
1 | 2005/1/1 | A, B, C |
1 | 2005/2/14 | A, C |
2 | 2005/1/2 | A, B |
2 | 2005/2/13 | C, F |
2 | 2005/3/15 | E, F |
3 | 2005/1/5 | A, D |
3 | 2005/2/10 | B, C |
透過時序群集演算法可以分析出所有購買物品的群組關係及關聯強度。
其他演算法下一篇文章再繼續分享心得。
沒有留言:
張貼留言