星期三, 3月 22, 2006

SQL Server 2005 新功能(三)-Data Mining篇

上次介紹了決策樹、群集演算法和時序群集,這次繼續介紹兩種常用的迴歸分析。


 


(四)線性迴歸(Linear Regression)


迴歸就是當有需要由過去自變數的資料預測因變數未來的數值常使用的統計方法,簡單來說,當你需要預測公司的營收時,營收即為因變數,而影響營收的因素如 : 原料成本、 行銷費用、 人事費用、通路費用....等,即為自變數,把這些數值設定後,透過線性迴歸演算法可以找出所有正相關及負相關的變數,並可預測出未來可能的營收。


注意 ,線性迴歸的因變數和自變數必須是數值,若不是數值要轉換因變數成機率值,轉換自變數為數值型態的虛擬自變數,因此線性迴歸主要是提供線性關聯的程度及相關性的測度,他並無法分析因果關係。


線性迴歸又分為



  • 簡單線性迴歸(Simple Linear Regression) : 僅有一個自變數一個因變數

  • 複迴歸(Multiple Regression) : 兩個以上的自變數

  • 多變量迴歸 (Multi-Variable Regression) : 多個自變數與因變數

以下列的資料為例



























季別營收原料成本人事費用行銷費用
130,000,0004,000,000500,0003,000,000
232,000,0004,800,000520,0003,900,000
338,000,0004,400,000550,0004,000,000

由三季的數值想推算出第四季的營收,並分析營收與原料成本、人事費用和行銷費用的關係,就可以使用線性迴歸。


 


 


(五)羅吉斯迴歸演算法(Logistic Regression)


在定量分析上,最常用的是線性迴歸演算法,但若分析的是社會問題、是否購買這類的不連續數值(是/否),就得改用羅吉斯迴歸分析了。


羅吉斯迴歸的因變數是離散型的,在醫學上有頗多的運用,例如想預測10-80歲,有無抽菸對得肺癌的機率即可用此演算法,又如想分析性別、收入、年齡、居住地區是否會買公司的產品,也可用此演算法。


以下列的資料為例






































客戶編號年齡月收入性別居住地是否買腳踏車
A0013070000台北市
A0022030000高雄市
A0032550000台南市
A00448120000台北市

透過羅吉斯迴歸分析知道買腳踏車的人和不買腳踏車的人與哪一個變數關係最密切,並可由客戶的條件預測出他是否會買腳踏車。

沒有留言: