◎スピアマンとケンドールの順位相関係数
相関係数(r)は、
直線的な相関の程度を表すひとつの指標です。
一般に-1<r<1であり、r>0であれば正の相関(xが増加するとyも増加)、
r<0であれば負の相関(xが増加するとyは減少)があるといいます。
|r|が1に近いほど相関が強いといえます。
二つの変量(xとy)の間に曲線的な関連が見られ、2変量正規分布が仮定
できないとき、また2変量正規分布に近づける適当な変換(たとえばlogXなど)が
みつからない場合に2つの変量間の相関の大きさの程度を測る尺度として
これらの順位相関係数を用いることができます。
◎重回帰分析
重回帰分析は、
いくつかのデータ(説明変数)から
目的のもの(目的変数)を
推定する回帰式を求める、またはある説明変数が
有意な影響を与えるかどうかを知るために用いられます。
例えば、性別、年齢、体重などの要因(説明変数)から寿命(目的変数)を推定
する回帰式を求たいとき、重回帰分析によりそれぞれの説明変数が目的変数に与える
影響の大きさ(偏回帰係数)を求め、回帰式を導きます。
また、求められた偏回帰係数の信頼度からその説明変数(性別や年齢)が目的変数(寿命)
に対して、有意な影響を与えているのかどうかを知ることができます。
重回帰分析において目的変数は正規分布をとる連続変数
であることが原則です。
◎ロジスティック回帰
ロジスティック回帰は
目的変数が
”あり”、”なし”のように
2値をとる場合に利用できます。
ロジスティック回帰が使用されるのは
1)危険因子の探索
2)交絡因子の調整
3)新しい治療法や予後因子の評価
などを行う場合です。
ロジスティックモデルでは、回帰係数、標準誤差、χ2検定統計量、
オッズ比などを求め、
それを用いてある事象が発生する確率を直接予測することができます。
それぞれの説明変数の
分布は正規分布に従う必要はありません。
例えば、身長、体重、体脂肪率(説明変数x1,x2,x3)から、
性別(男か女=2値)を決める
因子を
明らかにしようとするときロジスティック回帰を行うと、
回帰係数b1,b2,b3および定数項b0が求められ、
それらの説明変数の組み合わせで性別が男である可能性は、
P=1/{1+exp[-(b0+b1*x1+b2*x2+b3*x3)]} で求められます。
ロジスティック回帰では、あまり関係のない説明変数をとりいれたり、データ数が
少なかったりすると、誤った結果を導くことがあるので注意が必要です。
◎数量化二類
数量化二類とは、いくつかの
カテゴリーを使って
グループを分類(判別)することを目的とする方法です。
また、数量化とは、
質的データを
ある特性に注目して、それにある数値を与えることです。
例として、質的データとして「性別」と「天気」を用いることにします。
この性別や天気を
説明変数
(数量化二類では「アイテム」とも呼びます)と呼び、
この説明変数における「男・女」や「晴・雨」などの、さらに詳しい分類を
カテゴリーと呼びます。
数量化二類の処理を行うと、
カテゴリーごとにカテゴリースコアーが決まります。
その後、それぞれの該当するスコアーを合計して、
その値が“分類するために
セットされた境界値”より大きいのか、小さいのかを見て分類を行います。
◎主成分分析
主成分分析とは、大量の変数をもつデータ群を可能な限りの損失をせずに
数個の合成変数で表し、データの特徴把握を行う方法です。
例えば2人の学生に対して5教科の試験を行ったとします。
合計点からは学生AがBより点数が高かったということしかわかりません。
しかし2人の得点を主成分分析で分析すると、
BはAより合計点は低いものの、
理数系に関してはBはAより得意であるということがわかりました。
このように、合計だけでは見つけられなかったデータの特徴を、
主成分分析することによって見分けることができるのです。