統計学入門
はじめに
なぜ統計学が必要なのかというと、実験のデータや研究結果が「本当に意味のあるものか」を知るために必要だからである。
例えば新薬Aという薬があるとして、この薬の効果を調べようとする。そのとき、本当にこの薬に病気を治す効果があるかというのを検定して調べる必要がある。なぜなら、新薬Aの効果は「偶然に起こったもの」という可能性があるからである。
統計学なので統計処理するためにさまざまな公式が出てくる。しかし、このサイトではなぜその公式が導き出されるかは説明しない。なぜなら、私は数学者でなければ統計学者でもないのである。
統計学者にとっては「どのように統計をするか」というのが重要なのかもしれないが、研究者にとっては使うことができればそれで十分なのである。
また、このサイトの「統計学」の内容を一回読むだけで理解できたなら、その人は天才である。
しかし、私を含む多くの人は簡単には理解できないと思う。そして、統計学を手っ取り早く理解するには練習問題を解くのが一番だと思われる。そのため、このサイトには統計学の考え方と共に「例題」も載せてあるので、有効に活用してほしい。
統計の概念と尺度
統計は、まず全体の母集団からその一部の標本を取り出すことから始める。母集団は調べる対象となる全ての個体であり、標本は母集団から取り出した個体である。
例えば、日本人が好きなアーティストを調べるとき日本国民全体(母集団)から聞くのが一番望ましいが現実的には無理である。そのため日本国民の一部の人(標本)に聞いて結果を出すのが普通である。
標本の測定をするには分類尺度・順序尺度・間隔尺度の3種類の尺度がある。
・分類尺度
個体を属性や分類名によって分類する場合を分類尺度という。分類尺度では個体を見るだけでは個体どうしの大小関係を知ることができない。
例 男女の分類
・順序尺度
個体を数値によって順位を付けて分類する場合を順序尺度という。順序尺度では個体同士の大小関係を知ることはできるが、実際にどれくらい離れているかを知ることはできない。
例 マラソンでの順位(1位、2位、3位…)
・間隔尺度
順位だけではなく、個体同士がどれだけ離れているかを明確に分類できる場合を間隔尺度という。
尺度の例
ある標本を調べるとき、標本の出し方によっては順序尺度にも間隔尺度にもなる。例として下に4人のテストの結果を示す。
テストの点数 |
テストの順位 |
|
A君 |
88点 |
1位 |
B君 |
62点 |
3位 |
C君 |
74点 |
2位 |
D君 |
57点 |
4位 |
この場合、テストの点数は間隔尺度でテストの順位は順序尺度となる。テストの点数では4人が実際にどれだけ点数が離れているかを知ることができる。しかし、テストの順位だけでは誰が1位か2位などの大小関係しか知ることしかできず、個々間でどれだけ離れているかを知ることができない。
また、間隔尺度で正規分布する場合の検定はパラメトリック検定という。それに対し、標本がどのように分布しているかを考えなくてよい順序尺度や分類尺度による検定をノンパラメトリック検定という。
検定の原理
検定は「差があるかどうか」というのを検定する。偶然によるずれであるなら差がないということであり、偶然でないずれなら差があるということである。
検定のときは、最初に「差がない」と仮定する。もし、この仮定に矛盾するなら差があるということになる。「差がない」と仮定することを帰無仮説、「差がある」と仮定することを対立仮説という。
例えば新薬Xと既存薬Yの効果を比較するとする。帰無仮説は「差がない」と仮定するので、このときの帰無仮説は「新薬Xと既存薬Yの効果に差がない」である。それに対し、対立仮説は「新薬Xと既存薬Yの効果に差がある」である。
この帰無仮説に矛盾が生じると帰無仮説を棄却し、対立仮説を採用することができる。
・どのようにして矛盾があるかどうかを調べるか
これには「帰無仮説」が成立する確率Pを求める。差がないのならXとYの平均の差は0である。つまり、Xの平均値XXとYの平均値XYの値は等しいはずである。
XX - XY = 0
しかし、実際には測定にバラつきが生じため、帰無仮説が生じる確率Pは十分に小さい。検定はバラつきが生じる確率pが通常5%より大きいか小さいかで判定する。(優位水準αと比べてPが5%大きいか小さいかを判定する)
確率pの値が優位水準αより小(p<α)なら、帰無仮説が生じる確率Pは5%より大(P>0.05)なので帰無仮説を棄却できない。このとき、差がないと判断するか判定を保留する。
確率pがαより大(p>α)なら、Pは5%より小(P<0.05)なので帰無仮説を棄却し対立仮説を採用する。
つまり、帰無仮説が生じる確率が0.05(5%)以下なら帰無仮説を棄却して対立仮説を採用できる。ただし、0.05(5%)ではなく0.01(1%)を使用することもある。
電卓の使い方
本来ならエクセルで計算すれば計算ミスもほとんどなく、自動的に計算してくれるのでかなり効率が良い。しかし、学生ではテストにパソコンを持ち込むわけにはいかず、電卓でがんばって計算するしかない。
計算には関数電卓を使用する。パソコンには及ばないが使い方によっては楽に計算することでき、面倒な標準偏差や分散、二乗の足し算などを比較的簡単に計算できるのである。私はCASIOのfx-991MSを使用しており、この電卓での使い方を説明する。しかし、他の関数電卓にも同じような機能があるのではないかと思う。
・計算方法
下のような数値があるとする。この数値の標準偏差、分散、全体の和(Σx)、二乗の和(Σx2)、平均値を出してみようと思う。(計算というよりも数値を入力するだけである)
標準偏差 |
分散 |
全体の和 |
二乗の和 |
平均値 |
||||||
30 |
35 |
25 |
46 |
53 |
32 |
9.65 |
93.14 |
221 |
8699 |
36.83 |
電卓の電源を入れた後、右上にある「MODE」というボタンを二回押す。すると、「SD 1 、REG 2、BASE 3」とでる。SDを選択したいので数値の「1」を押す。これで準備完了である。
今度は計算したい数値を入力していく。30を入力した後に「M+」というボタンを押し、次に35を入力して「M+」を押す、これを繰り返す。32まで入力するとn=6と表示されるはずである。これは6個のデータが入力されたことを示している。
標準偏差を求めたいときは左上にある「SHIFT」を押して「2」を押す。すると、下のように表示されるはずである。
ここで、「2」を押して「=」を押せば標準偏差が出る。分散は標準偏差の2乗なので、「Ansの二乗」で出すことができる。
平均値は「SHIFT→2→1→=」で出る。
全体の和、二乗の和を出したいときは「SHIFT]を押したあとに「1」を押す。すると、下のように表示される。
このあとに全体の和は「2→=」を、二乗の和は「1→=」を押せば出る。
「M+」で入力した数値は一時的に記録されるので、同じ数値での標準偏差や平均値、全体の和を計算するときはいちいち同じ数値を入力しなおす必要はない。
ただし、他の数値の標準偏差などを出したいときは「MODE×2→1」で入力した数値をリセットしなければならない。
スポンサードリンク
カテゴリー
スポンサードリンク