統計難, 難在它的數學語言; 也難在它的計算工具, 也難在它貼近實務。做好統計學家似乎得有三頭六臂。

曾經有前輩統計學家對我說『統計就是服務其他學門』, 也有數學系的前輩老師對我說他們系上學統計的學生沒法處理實際問題是因為『數學不好, 抽象化的能力不夠』。而在『巨量資料』的潮流下, 我的同事們說現代的學生學不好統計是『沒有data sense』, 程式能力太弱之故。也有同事說, 統計本身的問題都做不完了, 哪有空去管機器學習或其他資訊相關的統計。我個人認為這就像機率學者鍾開萊(Chung, Kai Lai) 在他的書的序言中寫的:『One man's technicality is another's professionalism』。

知識的累積和教育的目的就是要讓一些原本是廟堂裡的知識, 成為普羅大眾的常識。而非像『巫醫』一般, 把『知識』視為操弄無知群眾的工具。統計學為了服務其他學門, 對學生的訓練必須隨時代而改變, 而一些統計學上的『知識』和技術也該成為其他行業的『常識』。當其他人都在用我們前輩們所發展出的方法和概念在處理問題時, 我們除了高興統計有用, 也該想想如何讓統計在下一波的知識革命"中可以更有貢獻。課程的改革是關鍵。如果只是關注眼前的時尚潮流, 那我們就僅是學術圈的『啃老族』罷了。任何學門的存在必需有其核心價值, 統計的核心在哪, 透過技術的學習我們也希望傳承統計的核心思想。有位前輩曾說統計學的基本就是”mean"和“variation", 這說法看是簡單, 但衍生出的概念卻很廣。

所有統計方法都希望讓我們把資料看得更清楚, 然而如何『看』卻是難題。mean 和variation 是看資料的基本,mean 想表達的是『集中』的位置, 或許兼有『代表』的意涵, 而variation 想表達的是『分佈』; 當這兩個量不夠時, 我們會用些假設來簡化問題, 就此目的而言, 機率分布的概念是個很好的數學工具。當資料更複雜時, 我們把種種限制藉由其他數學工具或假設, 讓我們可以了解資料背後的故事。

每個學科都有各個不同的層面, 資訊科學的情況和統計很相似。所有人都在用電腦, 他們做了很多服務各行各業的事, 也為了能『服務』得更好, 他們想要有更好的『計算』方式, 從各種軟硬體的層面來達到此目標。所有領域都有寫程式的需求, 但不會每個人都在寫『作業系統』或用『組合語言』來寫。“Software tools"(Kernaghan 和Plaguer) 這書出版於1976年, 迄今已四十年, 這書堪稱程式設計的經典; 書上主要的概念在提醒寫程式的人不要寫那種『可拋棄式』的程式| 僅僅為了特殊目的, 用完之後也就沒有價值。他希望教大家寫『軟體工具』| 可以重複使用到類似的應用情況。在發展統計方法或研究統計方法時也一樣; 用”tuning parameter"這概念為例好了, 現在很多方法都涉及一些參數的選擇, 那麼到底所發展出的方法是一次性、可拋棄式的, 還是一個工具, 在此類問題中最容易分辨了。

回歸『想看清資料』的初衷, 然後去尋找合適的工具, 可能才是統計本質。然而工欲善其事,必先利其器。加上統計學的研究, 不僅是工具上的限制, 還得考慮資料本身的限制。對工具的了解是選擇工具的基本。數學是工具, 計算機程式是另一種工具。而對問題所涉及的內容的了解則有助於選擇適當的工具。懂得越多, 選擇越廣, 也越精緻, 成果自然也不盡相同。