【陳博志論壇】大數據的秋毫之末和輿薪
陳博志(台灣大學經濟系名譽教授‧台灣經濟研究院顧問) (2015/09/20) 《台經月刊第38卷第9期》
大數據是近年流行的新名詞,很多人都在談它,有些人甚至說那是我國經濟的新希望,就像十多年前在談奈米,或像幾十年前談原子一樣一窩蜂甚至隨便附和。幾十年前原子這名詞流行時,有些無關原子彈和原子科學的東西也被稱為原子××來騙人,其中原子筆這名稱甚至沿用到現在。大數據確實有些用處,但盲目亂用卻可能比當年的原子襪更騙人。
從瞭解和分析事實的目的來看,大數據的應用讓我們可以看到更多事實,理論上確可能讓我們更清楚認識或瞭解事實,因而能協助經營及政策。但本文想提醒讀者,更多數據(Data)雖然可能帶來更多資訊(Information),但通常也帶來更多雜訊(Noise),所以若未能仔細運用,並不見得會產生更精確有用的情報(Intelligence)。在處理資訊或數據的能力限制下,更多的數據也可能一不小心造成處理上的偏差,而得到更不正確的推論。套用孟子2,000多年前的評論,花太多精力在大量的資訊有可能使我們只見秋毫之末而不見輿薪。
最近有兩件和財政部大數據有關的研究可以顯現大數據的一些利弊。有人依據綜合所得稅的個人所得資料去計算高低所得差距,而得到所得分配惡化的推論,財政部表示這大數據有很多不足以代表所得分配的缺點。但財政部自己則以企業申報薪資所得稅的大量數據,而說2014年勞工薪資上升達3%(財政部,2015)。因為這結論可能作為公務人員調薪的理由,所以也引起外界的批評。可見大數據的運用並不因為它大或難以取得,就一定會更正確。有人以為大數據像是母體資料,可比一般只抽一部分樣本所得到的資料更準確,但這兩個例子都顯示,拿得到的大數據有時只是母體某一部分的資料,而且數據也可能不直接代表我們所要分析的現象。
以用綜合所得稅資料來分析所得分配的問題而言,所得較低的家戶不用申報綜所稅,所以很多低所得者就被排除在資料之外,而股票和土地交易等資本利得也不包括在綜所稅資料中,更別說我們還有很多逃稅、避稅和租稅減免的現象。因此綜合所得稅的大數據並非表現實際所得分配的好資料,而且除非上述未被包含在內的情況都相對維持固定不變,否則它甚至不能掌握到所得分配的實際變化。例如當須報稅的所得提高時,綜所稅資料即可能顯示所得分配改善,因為有些窮人不再出現在資料中。綜所稅資料比較可能的作用是顯示所得分配不均等的下限,因為那些不包含在綜所稅中的所得,很可能會使實際所得分配比綜所稅資料所顯現的更不平均。綜所稅資料也能顯現須報稅家戶更細節的所得分布情況,以及不同所得來源的分配情況。
財政部用來推算平均薪資的大數據是企業申報員工薪資所得稅的資料。它一樣未包括一部分實際上也該算是員工薪資但不必申報所得稅的員工收入,如每月不超過46小時之加班費。但它卻包含了甚受前一年營運景氣影響的年終獎金,這在景氣變化時就可能無法反映薪資真正的變化趨勢。財政部資料說近三年薪資下降的員工比例分別高達31.14%、40.77%以及22.84%,這看起來很嚇人的數字,很可能主要是受景氣波動乃至結婚等補助之變化所造成,而非每年有這麼多人經常性薪資要被調降。財政部很謹慎地把資料中並非全年工作的員工都排除在外,以免誤把半年薪資當成全年計算而拉低整體平均薪資。但這一來財政部算出的平均薪資就只是全年在同一家企業工作者之平均薪資,而非全國所有受僱者之平均薪資。在近年非典型和非全時就業者的比重呈增加的趨勢,且他們的薪資又可能較低的情況下,財政部這種計算方法會忽略這部分讓平均薪資下降的作用,也就是會高估真正的平均薪資和其上漲率。
大數據應用、經濟分析、所得分配、薪資統計、抽樣偏誤、資訊雜訊、總體資料、替代效果、政策分析、研究方法
分享: