| 1 | 1/1 | 返回列表 |
| 查看: 1104 | 回復: 0 | |||
godhascome銀蟲 (小有名氣)
|
[交流]
【原創(chuàng)/非首發(fā)】《統(tǒng)計分析與SPSS應用》拾貝
|
|
《統(tǒng)計分析與SPSS應用》拾貝 本文適宜閱讀對象: 對統(tǒng)計分析本身感興趣或者對從信息中挖掘潛藏信息感興趣者。 本文閱讀難度 :由于偶爾引用定義并且主要通過類比,因此具備高中數(shù)學知識即可閱讀,不過如果懂點線代和統(tǒng)計則更有裨益。 本文閱讀建議: 內(nèi)容僅僅比表面結(jié)論抽象了一點點,這只有讀者自己拿出去聯(lián)想類比了才有真正的裨益,而靠譜的定義還是遵從教科書吧。 本文補充說明: 文字部分僅僅記錄了作者喜歡的一些想法,而稍微整體性的把握,參見文后的思維導圖。 PS:本文是草草學習《統(tǒng)計分析與SPSS應用》后的一些感悟罷了。 統(tǒng)計分析大致流程 明確統(tǒng)計方向之后,去針對性采集一批數(shù)據(jù)。然后進行一個“數(shù)據(jù)處理-建模-統(tǒng)計推斷”的循環(huán),一次次從中挖掘、挖深隱藏信息量。簡而言之,這就是試錯法、排除法的演繹:手頭有一推數(shù)據(jù),去猜一個結(jié)論,然后代入檢驗,錯了不斷修正直到滿意,最后收集、總結(jié)中間零零散散獲得的信息。 方差拆分分析——拆分可控因素與隨機因素后的觀察 這與物理實驗中總念叨的“偶然誤差、系統(tǒng)誤差”有著異曲同工之妙,只不過方差拆分分析并不止步于念叨。 在任何一次觀察中,我們的觀測總會得到誤差,并且這類誤差一部分源于于我們觀測方法的選擇,另一部分則是源于時刻都在變幻的RP決定,然而我們?nèi)绾螜z驗這種觀測行為本身和其結(jié)果靠不靠譜? 即以分析事物一一對應關(guān)系中(多對一模式是在這個基礎(chǔ)之上考慮了變量間的交互影響)的方差拆分思想為例: 其理論公式是SST(觀測變量總離差平方和)=SSA(組間離差平方和)+SSE(組內(nèi)離差平方和),而判斷標準則是SSA/SSE之比。 好吧,扔掉這個公式定義,稍微偷梁換柱一下(礙于筆者能力有限,直觀通過方差來解釋拆分思想有些麻煩,就用解釋平均值來代替,不過還是要說明,均值的本質(zhì)在于刻畫數(shù)據(jù)的集中趨勢,而方差則是在這個基礎(chǔ)之上去描述離散程度、偏心程度),便可以直觀理解這樣做的意義和依據(jù)。 假設(shè),我們觀測一名男生于一周之內(nèi)參加的11次1000米耐力跑測試,成績在3分50秒與4分10秒之間等距離遞減分布。 那么對于這么一次觀測行為而言,我們獲得了一些隱藏不明確信息的原始數(shù)據(jù)(地位類似SST,但本質(zhì)與SST不同),4分鐘是成績的均值可以被類比為SSA,而那些在20秒之內(nèi)的上下浮動值即可類比為SSE。在我們得到這位男生的1000米實力大致在4分整這個結(jié)論之前,嚴格來說我們需要檢查一下這次觀測行為是否有效。 如果我們把一次有效的觀測行為所獲得的數(shù)據(jù),理解為較大可控制部分與微小浮動部分的合成,那我們所需要的做的就是去檢驗一下我們所得到的可控制部分是否夠大而浮動部分是否夠小。 回到剛才的例子,我們所得到4分整的均值,和20秒的浮動范圍,即滿足了上述標準,因此我們同時認可了“此男生1000米水平大致為用4分整跑完,那20秒的浮動范圍是由于男生臨場發(fā)揮或者小小的天氣影響導致的”和“本次觀測行為是有效并且靠譜的”這兩個結(jié)論。 并且,我們判斷的依據(jù)不是比較絕對值,而是通過比較“4分整”和“20秒”這兩個數(shù)的比值。試想一下如果觀測的是“跑100米”還獲得“上下浮動20秒”這么一個結(jié)論,我們不難得出以下推論:“秒表壞了”或者“計時員手抽搐了”或者“此男生在惡搞”。 殘差分析——對于遺漏信息的再一次挖掘 雖然殘差的定義與SSE差距不小,但本質(zhì)思想是神似的。并且由于筆者已經(jīng)贅言不少舉了上文1000米測試的例子,因此套用上文繼續(xù)理解。 假定我們就把那“20秒浮動”理解為殘差,而殘差分析正好要在這20秒上做文章,以獲取被我們忽略的信息。 上文所得到的結(jié)論“此男生1000米水平大致為用4分整跑完,那20分的浮動范圍是由于男生臨場發(fā)揮或者小小的天氣影響導致的”實際上是比較粗糙的。 如果再考慮到整個觀測中的那個細節(jié)“成績在3分50秒與4分10秒之間等距離遞減分布!保覀儽憧梢缘玫竭M一步的信息。不妨假設(shè)成績是以等距、遞減的形式分布,即“4分10,4分08......3分52,3分50”,那么我們便可以得到進一步信息和結(jié)論“這名男生每次測試后體能上很可能都有進步”。這一結(jié)論顯然好過對于殘差的胡亂歸因。 然而,如果放棄了“成績在3分50秒與4分10秒之間等距離分布!边@一假設(shè),假設(shè)“成績分布是在3分50至4分10中無序分布”,則殘差變就會表現(xiàn)得無序、沒有規(guī)律性,因此我們更傾向于相信上一節(jié)中那個弱化的結(jié)論“那20分的浮動范圍是由于男生臨場發(fā)揮或者小小的天氣影響導致的”。因此此時殘差所表現(xiàn)的混亂無序即是我們所能得到的結(jié)論的依據(jù)——已經(jīng)沒有剩余的規(guī)律可以被挖掘了。 因子分析——對于已經(jīng)掌握的信息的簡化與優(yōu)化 因子分析其實是一件針對已經(jīng)數(shù)據(jù)的分布的處理,是早于構(gòu)建解釋性模式的一道流程,尤其是當所有數(shù)據(jù)包含的信息量極大時,為了后面分析過程的簡介和直觀所采取的前置步驟。 何謂信息的簡化過程? 比如我們現(xiàn)在討論(歐式空間中的)長方形這一類對象(即樣本、信息),描述這么一個對象我們需要多少指標(即變量數(shù)、信息維度)呢? 如果我們選用下面這組指標描述——(長,寬,面積,四個端點的坐標),顯然其中包含了過多累贅的信息量。因為我們知道了長和寬就等于知道了面積,而其實只要知道四個端點坐標(三個端點不能確定一個長方形)就等同于知道了長、寬、面積。 因此我們剔除長寬面積這3個指標,用4個端點的坐標值就可以充分描述任何一個長方形,從而方便后續(xù)分析。 這一過程,即我們通過剔除內(nèi)涵了重復信息的變量(內(nèi)部相關(guān)程度較高)、或者重新組合創(chuàng)造一批新變量、或者剔除一些無關(guān)緊要的變量,將這形成的一組數(shù)量上更少的變量命名為因子(因即原因,足可見其重要性、優(yōu)先級)。 (PS:上述例子是基于高中數(shù)學知識的,而因子分析實際上是運用了統(tǒng)計中的一些概念后,利用線性代數(shù)中關(guān)于構(gòu)造線性組合、將其極大線性無關(guān)組標準正交化和求逆矩陣的知識來完成。) 那么何謂信息的優(yōu)化過程? 在進行過簡化的基礎(chǔ)之上,后續(xù)分析變得簡潔了,但很可能丟失了直觀性(上例僅是小小丟失直觀性,畢竟用坐標聯(lián)想計算長、寬、面積還是很簡單的,而舉個其他的例子)。因此,需要優(yōu)化,以還原這些因子的直觀性。 對此,另舉出一個新的例子,假象我們在一個平面x-y軸的兩條對角線上密集地采集到了一推二維數(shù)據(jù)點,那么用原有x-y坐標軸的含義去解釋很可能偏離了本質(zhì)。如果我們把坐標軸整個旋轉(zhuǎn)45度,以兩條對角線為坐標軸構(gòu)建新的x'-y'坐標系,那么我們或許可以就找到這2維信息本質(zhì),因為原來的數(shù)據(jù)點在新的坐標系中的新坐標(x',y')中,總有一個坐標值是趨近于0的(即每次僅需要一個坐標值就可以對這個點的性質(zhì)加以充分的描述和解釋)。 (PS:實際上,因子分析中的優(yōu)化過程,即依靠線性變幻中的坐標旋轉(zhuǎn)來完成,而為了盡可能讓新的坐標軸彼此無關(guān),而選擇了用右乘正交陣的方式來完成) 事實上,這個例子,還可以稍微修正一下也可以用來演示簡化過程: 假象我們所獲得的二維數(shù)據(jù)點僅僅密集分布在一三象限對角線附近,那么我們還需要用2個坐標來描述嘛?顯然不用,坐標軸逆時針旋轉(zhuǎn)45度之后,忽略y'坐標極其有限的數(shù)值(即微小的實際影響),那些所用的數(shù)據(jù)便完全可以用一根一維數(shù)軸來描述。 秩轉(zhuǎn)化思想——放棄細節(jié)去直接洞察整體的策略 這是整本書中,讓本文筆者稱快的又一妙想,因此優(yōu)先舉例再補充定義。 假如,我們很老套地比較(1)班和(2)班的期末考試成績,如果我們想對比這兩個班級的整體學術(shù)實力,而非針對性比較這兩個班級中的尖子或者非尖子生(因為實際情況中此二者的成績往往對于平均數(shù)有交大影響,而對眾數(shù)、中位數(shù)鮮有影響),那么不妨利用秩轉(zhuǎn)化思想。 具體操作? 將這兩個班級的所有學生的考試成績匯總到一個表格內(nèi),降序排列(或者升序,本初僅以降序排列行文),然后依次編號(面對重復數(shù)值,例如100,90,90,80,則編號為1,2.5,2.5,4)。 經(jīng)過這么一部操作,我們丟失了所有成績的具體信息,僅僅保留了其出處和順序信息,即放棄細節(jié)。 如果我們將兩個班級的整體學術(shù)實力旗鼓相當?shù)那榫岸x如下:在整體排列中,各有尖子,各有非尖子,并且近乎對半開(即數(shù)據(jù)充分混合)。 那么這個對于我們先前給出的編號的含義便是:在旗鼓相當?shù)那闆r下,一班成員的編號之和應當與二班成員的編號之和是近似的,基本在編號總和的1/2處浮動;而如果一班成員的編號和與編號總和的比值極小,則說明一班的總體排名(或者平均)靠前,更勝一籌。 這個編號,即此處所討論的秩,而這種僅保留數(shù)據(jù)排序信息的轉(zhuǎn)換思想,即秩轉(zhuǎn)換思想。面對海量的數(shù)據(jù)點,可以免去肉眼觀察的麻煩進行快捷運算;而面對數(shù)據(jù)之間相對較小的差距,則是輕松地放大了差距從而提升了效果?偠灾,便是“放棄細節(jié)以求全貌”的策略。 簡易歸納思維導圖:http://filer.blogbus.com/1124617 ... 73_1302980146r.jpeg 另外,個人blog地址:http://rickx.blogbus.com/ |

| 1 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 266求調(diào)劑 +5 | 陽陽哇塞 2026-03-14 | 9/450 |
|
|---|---|---|---|---|
|
[考研] 化工學碩306求調(diào)劑 +10 | 42838695 2026-03-12 | 10/500 |
|
|
[考研] 297求調(diào)劑 +8 | 戲精丹丹丹 2026-03-17 | 8/400 |
|
|
[考研] 環(huán)境工程調(diào)劑 +8 | 大可digkids 2026-03-16 | 8/400 |
|
|
[考研] 268求調(diào)劑 +8 | 一定有學上- 2026-03-14 | 9/450 |
|
|
[考研] 【0856】化學工程(085602)313 分,本科學科評估A類院校化學工程與工藝,誠求調(diào)劑 +7 | 小劉快快上岸 2026-03-11 | 8/400 |
|
|
[考研] 26考研求調(diào)劑 +6 | 丶宏Sir 2026-03-13 | 6/300 |
|
|
[考研] 211本,11408一志愿中科院277分,曾在中科院自動化所實習 +6 | Losir 2026-03-12 | 7/350 |
|
|
[考研] 285化工學碩求調(diào)劑(081700) +9 | 柴郡貓_ 2026-03-12 | 9/450 |
|
|
[考研] 藥學383 求調(diào)劑 +3 | 藥學chy 2026-03-15 | 4/200 |
|
|
[考研] 304求調(diào)劑 +4 | ahbd 2026-03-14 | 4/200 |
|
|
[考研] 一志愿211 0703方向310分求調(diào)劑 +3 | 努力奮斗112 2026-03-15 | 3/150 |
|
|
[考研] 326求調(diào)劑 +3 | mlpqaz03 2026-03-15 | 3/150 |
|
|
[考研] 復試調(diào)劑 +3 | 呼呼?~+123456 2026-03-14 | 3/150 |
|
|
[考研] 297求調(diào)劑 +4 | 學海漂泊 2026-03-13 | 4/200 |
|
|
[考研] 材料080500調(diào)劑求收留 +3 | 一顆meteor 2026-03-13 | 3/150 |
|
|
[考研] 330求調(diào)劑 +3 | ?醬給調(diào)劑跪了 2026-03-13 | 3/150 |
|
|
[考研] 求調(diào)劑 +7 | 18880831720 2026-03-11 | 7/350 |
|
|
[考研] 工科278分求調(diào)劑 +5 | 周慢熱啊 2026-03-12 | 7/350 |
|
|
[考研] 0817化學工程與技術(shù)考研312分調(diào)劑 +3 | T123 tt 2026-03-12 | 3/150 |
|