星期六, 2月 25, 2006

SQL Server 2005 新功能(二)


今天我們繼續談Data Mining的部份 , 深入探討SQL Server 2005提供的Data Mining 演算法分析工具 , 使用前先打開SQL server BI studio,建立一Analysis service Project,設定好Data source,在Data Mining 模型點選新增,就可以開始練習,其基本觀念如下


(一)決策樹(Decision Tree)


決策樹是利用樹的結構去將資料做分類,來找出各變數的關係和比例高的結果


如 以下列資料為例

































會員編號年齡性別收入是否買iPod
1<35
2>35
3<35
4>35

若要觀察 年齡、性別 、收入與是否購買iPOD的關係 ,則設是否買iPOD為預測變數(可預測),年齡、性別、收入為自變數(輸入),會員編號為索引鍵,透過決策樹演算法可以看出各變數的階層關係,並可以找出會買iPOD的相關條件族群。


 


(二) 群集演算法(Cluster Analysis)


其目的是將相似的事物歸類,如果在一群散亂的客戶資料裡,想由客戶的購買習慣將客戶分群,來找出潛藏的特殊族群加以促銷,可以利用群集演算法。


如下列資料




























會員編號年齡性別收入
1<35
2>35
3<35
4>35

在設定的時候,年齡、性別、收入都設為input,會員編號設為Key,透過群集演算法會分析性之間的關係加以分群 , 我們可以在分群結果命名 ,以後用此模型就容易找出符合該群組的會員。


 


 


(三) 時序群集(Sequence Clustering)


其目的在找出先後發生事物的關係,例如消費者購買A物品後又購買B物品的機率。


以下列資料為例



































會員編號交易時間購買物品
12005/1/1A, B, C
12005/2/14A, C
22005/1/2A, B
22005/2/13C, F
22005/3/15E, F
32005/1/5A, D
32005/2/10B, C

透過時序群集演算法可以分析出所有購買物品的群組關係及關聯強度。


 


其他演算法下一篇文章再繼續分享心得。


 


 

星期四, 2月 23, 2006

SQL server 2005 的新功能(一)

這星期抽空去聽一下SQL server 2005 Data Mining的座談會 , 微軟針對資料庫這塊真的了很多工夫,其價格與功能都非常誘人, Enterprise 版本可支援的CPU、 記憶體及資料庫大小皆沒有限制 ,並支援多重核心64 位元處理器 ,在效能上有很大的突破。 再試玩過覺得比較有趣的新玩意如下:

 


1. 管理介面整合 : 這是我最不習慣的部份 , 所有的功能可以再同一個介面裡搞定 ,主要分為SQL Server Management Studio和專門處理BI的 Business Intelligence Development Studio ,  Business Intelligence Development Studio是新的開發工具 , 主要先做塑模後再發佈到DB上 ,發布後的模型 , 可以在r Management Studio上做管理及執行。


 


2. 原有的DTS 變成功能更強大的SSIS ( SQL SERVER Integration service) , 可以轉換其他異質資料庫 , 如DB2 、Oracle ,並可以透過視覺化介面 , 設計data flow 和 control flow , 來處理更複雜的資料轉換及維護作業 。


 


3. 原有的Analysis service 加入10種Data Mining演算法工具 ,分別是


決策樹  、 群集演算法,時序群集、 時間序列、線性迴歸 、羅吉斯回歸、關聯規則、類神經網路、貝式決策定理、Text Mining( English only)


透過採樣驗證後,可利用專業的Know-how去抓出隱藏的資料特徵 ,採礦的工作需要有良好的專業知識及邏輯,才能抓出符合實際的資訊。


 


4.原有的reporting  service新增了report builder 讓報表產生更有彈性


 


5. 在分析方面,加強了MDX的功能及重要性,表示DBA們要多學一樣語言


 


6.在T-SQL開發方面,整合了CLR,表示透過.NET也能寫T-SQL,但前提是要用OLe DB provider來連結DB


 


7.多了XML型別,可直接將XML document塞進資料庫


 


8.透過資料庫鏡像(Mirror)和監控(Monitor) ,可以把原來Cluster架構的回覆的時間由30秒縮短為3秒。


微軟總共提供了30種特別的改善項目 ,再此不一一提供 ,對 Data Mining 有興趣的朋友可參考Microsoft提供的資料去做分析


 






























目的演算法
交叉銷售決策樹, 類神經網路, 關聯規則, 時序群集, 貝氏決策定理,羅吉斯迴歸
顧客流失分析
決策樹, 類神經網路, 貝氏決策定理, 群集演算法,羅吉斯迴歸
顧客區隔
群集演算法, 決策樹, 關聯規則

信用評等
羅吉斯迴歸,決策樹, 類神經網路, 貝氏決策定理
詐騙分析羅吉斯迴歸,決策樹, 類神經網路, 群集演算法, 貝氏決策定理

良率分析
時序群集, 群集演算法, 類神經網路, 決策樹

顧客價值管理
時間序列, 決策樹, 類神經網路,群集演算法,線性迴歸

銷售業績預測
時間序列, 決策樹, 類神經網路, 線性迴歸

 

星期日, 2月 19, 2006

張惠妹的我要快樂抄襲?!

  我怎麼聽 ,阿妹最新專輯我要快樂的 這首主打歌 "人質" 都像極了 Patty Smyth Sometimes Love Just Ain't Enough  ,阿妹選歌是怎樣選的?! 再不突破 , 事業岌岌可危。

 

  不過這張專輯轉向熟女路線 , 用空心吉他伴著沙啞的嗓音  , 訴說女人心事 ,是很不錯的選擇 ,避開現在歌壇流行的Hip pop 和 R&B瘋 , 讓大家可以聽聽不同的曲風 , 走的是非市場主流路線 ,相信銷售量應該持平  , 不會有太大突破

 

 

參考網址

星期四, 2月 16, 2006

用iPOD nano 當皮帶頭?!

 想把iPOD nano 拿來當皮帶頭嗎?! TUNEBUCKLE公司推出的產品 , 可以讓你圓夢 , 但前提是 , 把那該死的啤酒度變小 , 否則帶上他 , 只會讓肚子顯得更大。

目前只接受預訂

 


 

訂製一雙自己設計的NIKE運動鞋

NIKE 提供自己訂製球鞋的網站 , 目前沒有台灣地區的服務 , 想試試自己設計能力的朋友可以去玩玩


 

附檔是我設計的醜鞋

 

防火牆(firewall)

上週六去看了哈里遜福特主演的防火牆 , 可能是與本身工作有關 , 看到許多不合理的地方 , 但整部片表現仍不錯 , 算是符合市場的娛樂片 。

  劇中的人物隨時隨地可以上網 , 狗兒的頸圈可以裝GPS做定位 ,轉帳匯款可以由單一人執行 , 不用確認程序 , 劇中惡徒不斷殺害自己人卻不殺人質 , 主角一家人對歹徒的從容不迫 , 都是不合理的地方 , 不過與歹徒的鬥智鬥力是最精采的地方 , 喜愛動作驚悚片的朋友 ,可以抽空看看。

 

 

星期三, 2月 08, 2006

可接電話的滑鼠-SONY VN-CX1

SONY又有新創意 , 滑鼠變成SKYPE電話,蠻炫的idea,下次看到朋友用滑鼠講電話時請不要訝異。

 

 

星期日, 2月 05, 2006

新式身分證到手了

  終於完成很擾民的身份證換發,新式身分證有21項防偽辨識設計,有點像鈔票 , 由於著重在防偽功能,並未使用IC卡 , 也沒有與健保卡 駕照等做結合,很可惜。

 

  新式身份證的照片是印上去的,並不是用原來的照片黏貼,印出來的效果很差 ,很像黑白照片,原來的照片應該已經掃描建檔 , 整張證件用膠膜全部封起來 ,防止偷改,但若搬家或結婚都必須重辦一張,很麻煩。

 

  新式身份證對於偽造集團是個挑戰,但對治安會有多大的幫助還是個問號。

 

  PS. 舊證要繳回,不想繳回想留下來做紀念記得辦舊證遺失 

 

 

星期六, 2月 04, 2006

Kuso手機

在Yahoo購物網看到在販售kuso手機(如附圖),以前也看過類似的idea但沒有彩繪機殼,我想在路邊看用這樣的手機在講話應該很炫吧,應該可做成麥克風的樣式,除了講電話還可以當隨身KARAOK。

 

農曆過年

  今年過年在eztravel  購買優惠票2110元 , 由於未在30分鐘前報到 , 我的預定票被售出 , 只好用候補的, 但居然要補400元差額 , 等於一班飛機要價2510元 , 真是太貴了 , 已向eztravel反應 , 但還沒處理完成,現在的機票真是貴。

 

  過年大部分都在家休息, 很懶得出門 , 晚上就跟同學聚聚喝點小酒, 日子過得算快, 該收心準備面對工作和課業了, 新年給自己的期許 --更積極勇敢不怠惰  , 凡事控制好時間  、 做好規劃,認真的做每件事,保持身體健康,希望一切都順利,也希望身邊的人大家都如意。