多変量解析など

◎スピアマンとケンドールの順位相関係数

相関係数（ｒ）は、直線的な相関の程度を表すひとつの指標です。一般に-1＜r＜1であり、ｒ＞０であれば正の相関（ｘが増加するとｙも増加）、ｒ＜０であれば負の相関（ｘが増加するとｙは減少）があるといいます。｜ｒ｜が１に近いほど相関が強いといえます。二つの変量（ｘとｙ）の間に曲線的な関連が見られ、２変量正規分布が仮定できないとき、また２変量正規分布に近づける適当な変換（たとえばlogＸなど）がみつからない場合に２つの変量間の相関の大きさの程度を測る尺度としてこれらの順位相関係数を用いることができます。

◎スプライン関数(調整中)

スプライン(spline)とは”自在定規”のことでであり、点列を与えたときに、自在定規を使ったかのようになめらかな曲線でその点列を結ぶことができることからこの名前がついています。スプライン関数を用いて補間する方法をスプライン補間法といい、範囲を細かく分割し、その区間ごとに異なる多項式で近似するのが特徴です。

◎重回帰分析

重回帰分析は、いくつかのデータ（説明変数）から目的のもの（目的変数）を推定する回帰式を求める、またはある説明変数が有意な影響を与えるかどうかを知るために用いられます。例えば、性別、年齢、体重などの要因（説明変数）から寿命（目的変数）を推定する回帰式を求たいとき、重回帰分析によりそれぞれの説明変数が目的変数に与える影響の大きさ（偏回帰係数）を求め、回帰式を導きます。また、求められた偏回帰係数の信頼度からその説明変数（性別や年齢）が目的変数（寿命）に対して、有意な影響を与えているのかどうかを知ることができます。重回帰分析において目的変数は正規分布をとる連続変数であることが原則です。

◎ロジスティック回帰

ロジスティック回帰は目的変数が ”あり”、”なし”のように２値をとる場合に利用できます。ロジスティック回帰が使用されるのは １）危険因子の探索　２）交絡因子の調整　３）新しい治療法や予後因子の評価 などを行う場合です。ロジスティックモデルでは、回帰係数、標準誤差、χ²検定統計量、オッズ比などを求め、それを用いてある事象が発生する確率を直接予測することができます。それぞれの説明変数の分布は正規分布に従う必要はありません。例えば、身長、体重、体脂肪率（説明変数x1,x2,x3）から、性別（男か女＝２値）を決める因子を明らかにしようとするときロジスティック回帰を行うと、回帰係数b1,b2,b3および定数項b0が求められ、それらの説明変数の組み合わせで性別が男である可能性は、 P=1/{1+exp[-(b0+b1*x1+b2*x2+b3*x3)]}　で求められます。ロジスティック回帰では、あまり関係のない説明変数をとりいれたり、データ数が少なかったりすると、誤った結果を導くことがあるので注意が必要です。

◎数量化二類

数量化二類とは、いくつかのカテゴリーを使ってグループを分類（判別）することを目的とする方法です。また、数量化とは、質的データをある特性に注目して、それにある数値を与えることです。例として、質的データとして「性別」と「天気」を用いることにします。この性別や天気を説明変数（数量化二類では「アイテム」とも呼びます）と呼び、この説明変数における「男・女」や「晴・雨」などの、さらに詳しい分類をカテゴリーと呼びます。数量化二類の処理を行うと、カテゴリーごとにカテゴリースコアーが決まります。その後、それぞれの該当するスコアーを合計して、その値が“分類するためにセットされた境界値”より大きいのか、小さいのかを見て分類を行います。

◎主成分分析

主成分分析とは、大量の変数をもつデータ群を可能な限りの損失をせずに数個の合成変数で表し、データの特徴把握を行う方法です。例えば2人の学生に対して5教科の試験を行ったとします。合計点からは学生AがBより点数が高かったということしかわかりません。しかし2人の得点を主成分分析で分析すると、 BはAより合計点は低いものの、理数系に関してはBはAより得意であるということがわかりました。このように、合計だけでは見つけられなかったデータの特徴を、主成分分析することによって見分けることができるのです。