- 統計初心者が統計の雰囲気を理解する
- 統計初心者がLMEモデルの雰囲気を理解する
※素人なので内容の正しさについては保証しかねます
※統計を全く触れたことない人は、〔青文字〕は読み飛ばしてください
Q&A
Q.統計ってなあに?
A.「おっぱいの大きい子は優しいってホント?」「二郎系ラーメンの致死量は?」そういう疑問を実際のデータから解決することです
Q.LMEモデルとは?
A.統計の本などにもあまり載っていなく、統計モデルの中でも2番目くらいに扱いが難しいと言われているモデルです〔1番は階層ベイズモデル〕。ただ、雰囲気だけ(一変数一次)ならなんとか理解できるはず。。。。
簡単のため、一変数一次の場合について考えてみる。
学生の勉強時間とテストの点数を例にとる。
あるAさんについて、複数のテストを行わせ、その勉強時間と点数に関してプロットしたところ、次のようになった。
このとき、〔線形モデルで〕
点数=a×勉強時間+b+ε
aは傾き bは切片 εは誤差と表現でき、「Aさんは勉強すればするほど高い点数がとれる」ということが分かる。
また、ここから色々頑張ると、この結果が偶然起こり得るかどうかを確認することもできる。
このように、
①モデル(どのように表現するか)
②有意かどうか(偶然起こったのではないか)
を調べたい。
次に、同様に14名の学生に関して、勉強時間と点数をプロットすると、次のようになった。
このとき、学生によって傾き(点数の上がり方)や、切片(勉強をしなくても取れる点数)は異なるものの、全ての学生が勉強するほど点数が上がっており、「すべての学生が勉強時間に比例して点数が上がる」ことは言えそうである。
このまま学生という括りを無視し、全てのデータを統合してしまうと、次の図のようになり、
勉強時間と点数の間に、関係は確認されなくなってしまう。〔回帰式は勿論、相関係数も有意にはならない〕
これでは「すべての学生が勉強時間に比例して点数が上がる」ことは言えない。
学生によって傾きや切片が異なる要因が明確で、測れるものであれば、その要因を変数にとることで、モデル化できる〔重回帰分析等〕が、この場合これは難しい。
単に頭の回転が速いのかもしれないし、効率の良い勉強方法を知っているのかもしれないし、親の教え方が上手いのかもしれない。分からない。
また、この例と逆に、統合したデータでは傾向が見られても、実状全く意味を持たない結果であることもある。
〔有意な回帰式や相関係数が見られても、グループ内で有意でなければ意味がない。勿論、安直に正規化したり、相関係数の平均をとったりしてはいけない〕
このように、「学生Aさん」等の、グループ毎では全てある傾向を示しているものの、違うグループでは傾きや切片といったパラメータが異なり、かつパラメータが異なる要因が明確でない場合、LMEモデルを用いるのが適切である。
先の勉強時間と点数の例を、一変数一次のLMEモデルで表現すると、次のようになる。
点数=(af + ar)×勉強時間+ (bf + br)+ε
af,arは傾き bf,brは切片 εは誤差afおよびbfを固定効果(fixed effect)、arおよびbrを変量効果(random effect)と呼ぶ。
固定効果はグループ間で共通しているパラメータ、変量効果はグループ内で共通しているパラメータである。
勉強時間と点数の例でいえば、変量効果が「個人差」を表している。
LMEモデルの利点は、「変量効果」を取り入れることで、個人差等の、実状がよくわからないような「ランダムな要素」も組み込んで表現できる点である。
LMEモデル解析はRのlmerを使うと簡単にできます。
いつか詳しく説明しますが、とりあえずサンプルコードを張っておきます。
実際にRを用いて混合モデル解析をやってみる。(サンプルデータの内容はあまり気にしないで)
$ install.packages("lme4") #パッケージのインストール
$ library("lme4") #インポート
$ data1 <- read.csv("test.csv") #サンプルデータ(CSVファイル)の読み込み
$ data1
subject difficulty pupil
1 1 0.1 70.0$ model1 <- lmer(pupil ~ difficulty + (difficulty|subject),data=datas) #LMEモデル解析にかけて結果をmodel1へ
2 1 0.2 71.0
3 1 0.3 72.0
4 1 0.4 73.0
5 1 0.5 73.5
6 1 0.6 75.0
7 1 0.7 74.0
8 1 0.8 76.0
9 1 0.9 79.0
10 2 0.1 72.0
11 2 0.2 74.0
12 2 0.3 76.0
13 2 0.4 78.0
14 2 0.5 79.5
15 2 0.6 82.0
16 2 0.7 82.0
17 2 0.8 85.0
18 2 0.9 89.0
19 3 0.1 73.0
20 3 0.2 74.5
21 3 0.3 76.0
22 3 0.4 77.5
23 3 0.5 78.5
24 3 0.6 80.5
25 3 0.7 80.0
26 3 0.8 82.5
27 3 0.9 86.0
$ summary(model1) #解析結果を見る(t値しか出ないので注意)
Linear mixed model fit by REML ['lmerMod']
Formula: pupil ~ difficulty + (difficulty | subject)
Data: datas
REML criterion at convergence: 79.8
Scaled residuals:
Min 1Q Median 3Q Max
-1.92414 -0.30170 0.05265 0.42106 1.92576
Random effects:
Groups Name Variance Std.Dev. Corr
subject (Intercept) 1.1758 1.0843
difficulty 23.7130 4.8696 0.60
Residual 0.7722 0.8788
Number of obs: 27, groups: subject, 3
Fixed effects:
Estimate Std. Error t value
(Intercept) 70.1389 0.7265 96.55
difficulty 14.5000 2.8868 5.02
Correlation of Fixed Effects:
(Intr)
difficulty 0.397
参考
http://oku.edu.mie-u.ac.jp/~okumura/stat/meta.html
http://ja.wikipedia.org/wiki/%E6%B7%B7%E5%90%88%E3%83%A2%E3%83%87%E3%83%AB
http://www.lowtem.hokudai.ac.jp/plantecol/akihiro/obenkyou/GLMMexample.pdf 著者(隅田)
http://www.slideshare.net/yutamura1/ss-42303827?ref=http%3A%2F%2Fsssslide.com%2Fwww.slideshare.net%2Fyutamura1%2Fss-42303827
0 件のコメント:
コメントを投稿