2014年12月13日土曜日

統計初心者でも2分で雰囲気理解できるLME(線形混合)モデル

この文章の主旨
  • 統計初心者が統計の雰囲気を理解する
  • 統計初心者がLMEモデルの雰囲気を理解する

※素人なので内容の正しさについては保証しかねます
※統計を全く触れたことない人は、〔青文字〕は読み飛ばしてください



Q&A

Q.統計ってなあに?
A.「おっぱいの大きい子は優しいってホント?」「二郎系ラーメンの致死量は?」そういう疑問を実際のデータから解決することです

Q.LMEモデルとは?
A.統計の本などにもあまり載っていなく、統計モデルの中でも2番目くらいに扱いが難しいと言われているモデルです〔1番は階層ベイズモデル〕ただ、雰囲気だけ(一変数一次)ならなんとか理解できるはず。。。。



簡単のため、一変数一次の場合について考えてみる。
学生の勉強時間とテストの点数を例にとる。

あるAさんについて、複数のテストを行わせ、その勉強時間と点数に関してプロットしたところ、次のようになった。


このとき、〔線形モデルで〕
点数=a×勉強時間+b+ε
aは傾き bは切片 εは誤差
と表現でき、「Aさんは勉強すればするほど高い点数がとれる」ということが分かる。
また、ここから色々頑張ると、この結果が偶然起こり得るかどうかを確認することもできる。

このように、
①モデル(どのように表現するか)
②有意かどうか(偶然起こったのではないか)
を調べたい。

次に、同様に14名の学生に関して、勉強時間と点数をプロットすると、次のようになった。



このとき、学生によって傾き(点数の上がり方)や、切片(勉強をしなくても取れる点数)は異なるものの、全ての学生が勉強するほど点数が上がっており、「すべての学生が勉強時間に比例して点数が上がる」ことは言えそうである。

このまま学生という括りを無視し、全てのデータを統合してしまうと、次の図のようになり、
勉強時間と点数の間に、関係は確認されなくなってしまう。〔回帰式は勿論、相関係数も有意にはならない〕




これでは「すべての学生が勉強時間に比例して点数が上がる」ことは言えない。
学生によって傾きや切片が異なる要因が明確で、測れるものであれば、その要因を変数にとることで、モデル化できる〔重回帰分析等〕が、この場合これは難しい。
単に頭の回転が速いのかもしれないし、効率の良い勉強方法を知っているのかもしれないし、親の教え方が上手いのかもしれない。分からない。

また、この例と逆に、統合したデータでは傾向が見られても、実状全く意味を持たない結果であることもある。
〔有意な回帰式や相関係数が見られても、グループ内で有意でなければ意味がない。勿論、安直に正規化したり、相関係数の平均をとったりしてはいけない〕

このように、「学生Aさん」等の、グループ毎では全てある傾向を示しているものの、違うグループでは傾きや切片といったパラメータが異なり、かつパラメータが異なる要因が明確でない場合、LMEモデルを用いるのが適切である。

先の勉強時間と点数の例を、一変数一次のLMEモデルで表現すると、次のようになる。
点数=(af + ar)×勉強時間+ (bf + br)+ε
af,arは傾き bf,brは切片 εは誤差
afおよびbfを固定効果(fixed effect)、arおよびbrを変量効果(random effect)と呼ぶ。
固定効果はグループ間で共通しているパラメータ、変量効果はグループ内で共通しているパラメータである。
勉強時間と点数の例でいえば、変量効果が「個人差」を表している。

LMEモデルの利点は、「変量効果」を取り入れることで、個人差等の、実状がよくわからないような「ランダムな要素」も組み込んで表現できる点である。

LMEモデル解析はRのlmerを使うと簡単にできます。
いつか詳しく説明しますが、とりあえずサンプルコードを張っておきます。



実際にRを用いて混合モデル解析をやってみる。(サンプルデータの内容はあまり気にしないで)
$ install.packages("lme4") #パッケージのインストール
$ library("lme4")  #インポート 
$ data1 <- read.csv("test.csv") #サンプルデータ(CSVファイル)の読み込み
$ data1
   subject difficulty pupil
1        1        0.1  70.0
2        1        0.2  71.0
3        1        0.3  72.0
4        1        0.4  73.0
5        1        0.5  73.5
6        1        0.6  75.0
7        1        0.7  74.0
8        1        0.8  76.0
9        1        0.9  79.0
10       2        0.1  72.0
11       2        0.2  74.0
12       2        0.3  76.0
13       2        0.4  78.0
14       2        0.5  79.5
15       2        0.6  82.0
16       2        0.7  82.0
17       2        0.8  85.0
18       2        0.9  89.0
19       3        0.1  73.0
20       3        0.2  74.5
21       3        0.3  76.0
22       3        0.4  77.5
23       3        0.5  78.5
24       3        0.6  80.5
25       3        0.7  80.0
26       3        0.8  82.5
27       3        0.9  86.0
$ model1 <- lmer(pupil ~ difficulty + (difficulty|subject),data=datas) #LMEモデル解析にかけて結果をmodel1へ
$ summary(model1) #解析結果を見る(t値しか出ないので注意)
Linear mixed model fit by REML ['lmerMod']
Formula: pupil ~ difficulty + (difficulty | subject)
   Data: datas
REML criterion at convergence: 79.8
Scaled residuals:
     Min       1Q   Median       3Q      Max
-1.92414 -0.30170  0.05265  0.42106  1.92576
Random effects:
 Groups   Name        Variance Std.Dev. Corr
 subject  (Intercept)  1.1758  1.0843    
          difficulty  23.7130  4.8696   0.60
 Residual              0.7722  0.8788    
Number of obs: 27, groups:  subject, 3
Fixed effects:
            Estimate Std. Error t value
(Intercept)  70.1389     0.7265   96.55
difficulty   14.5000     2.8868    5.02
Correlation of Fixed Effects:
           (Intr)
difficulty 0.397 



参考
http://oku.edu.mie-u.ac.jp/~okumura/stat/meta.html
http://ja.wikipedia.org/wiki/%E6%B7%B7%E5%90%88%E3%83%A2%E3%83%87%E3%83%AB
http://www.lowtem.hokudai.ac.jp/plantecol/akihiro/obenkyou/GLMMexample.pdf 著者(隅田)
http://www.slideshare.net/yutamura1/ss-42303827?ref=http%3A%2F%2Fsssslide.com%2Fwww.slideshare.net%2Fyutamura1%2Fss-42303827



0 件のコメント:

コメントを投稿