知識の卵

医学のWhy?を解決するブログです。What?も少し触れています。
著者は循環器内科医・疫学者です。

古い箇所など、是非、ご指摘お願い致します。

統計

★まとめです

■Table

  疾患あり 疾患なし
検査:陽性 a b
検査:陰性 c d

●a=true positive, b=false positive, c=false negative, d=true negative
・感度 (sensitivity) = a / (a+c)
・特異度 (specificity) = d / (b+d)
・正診率 (accuracy) = (a+d) / (a+b+c+d)
・陽性的中率 (PPV) = a/ (a+b)
・陰性的中率 (NPV) = d / (c+d)


■ROC曲線

●横軸に1-特異度、縦軸に感度をplotした曲線。
・ある診断(0か1か)に対する検査(基本的には連続変数
※0か1かの検査でもROC曲線は描ける(曲線でなく、変曲点が1つの折れ線となる)

AUC (area under the curve)=C統計量
…曲線より下の面積の割合
⇒最大1, 五分五分の検査(意味ない検査)で0.5
⇒高いほど有用な検査と言える

best cut-off
曲線の中で、最もy=xより離れた点
=感度+特異度が最も高いcut-off値
⇒この値を用いて、上記のaccuracy等計算することが多い
※しかし検査の用途によりcut-offの設定は異なる(スクリーニングの場合感度を高くする等)


参照 Braunwald heart disease

★統計ソフトで簡単にできるが、結果の解釈が大事。

■多変量解析の種類

重回帰分析アウトカム(従属変数)が連続変数の場合
多重ロジスティック回帰分析アウトカムが名義変数の場合
※因子(独立変数)は、連続変数でも名義変数でもよい
 …名義変数の0,1は、そのまま連続変数の数字として適用される(ダミー変数)


■独立変数の選び方

●何を解析するか、という視線が最も重要
基本的には解析者自らが選んで良い
⇒一般的な流れは、
「解析する因子を選ぶ→単変量解析で有意だったものを、多変量解析の因子とする」

多重共線性(マルチコ現象)に留意する
独立変数間に相関係数がほぼ1となるような変数がある(CreとeGFRなど)
 or 独立変数が標本と比較し多すぎる(一般的に標本数÷10程度までで、標本数÷30が理想)
⇒モデルの信頼性が悪くなるため、除いて解析する


■重回帰分析
●理論

・基本的に従属変数、独立変数とも正規分布に従うことが原則
⇒独立変数が非正規分布の場合、標本が十分大きければ、必要な変数を対数変換する

・用いる独立変数を選択する
=基本的にステップワイズ法;変数増加法、減少法、増減法など
 …基準(F=2, p=0.05など)に応じて逐次選択行われる
 ⇒変数増減法が良い(適切なモデルが作られる可能性が高い)
⇒結果をみて、変であれば強制投入法で構築し直す

※ステップワイズ法と比較し、総当たり法は計算時間が非常にかかるため、用いる事は少ない

●結果の判断

・最後に構築されたモデルでの確認事項
ANOVAでp<0.05であることを確認
 …帰無仮説:使用した独立変数で従属変数を説明できない、という設定となっている
 ⇒p≧0.05であると、そのモデルは使えない
②残った独立変数の標準偏回帰係数(β)が全てp<0.05となっていることを確認
 ⇒p≧0.05があるときは、その因子を除いて再解析する
 (事実からして残すべきと判断された場合は、その限りでない)
③重相関係数R>0.7, R^2>0.5であることを確認(よく適合したモデルである確認)
 (これより小さくても、極端に小さくなければ良い)
④分散インフレ係数(VIF)≧10となる因子がないことを確認
 …VIF≧10であるとマルチコ現象に関連する因子と考えられ、除いて再解析する
⑤Durbin-Watson比が2に近いことを確認
 =残差の異常がないことの証明
⑥残差の異常が大きかった症例(外れ値)の確認
 ⇒一例ずつ、何が原因だったかを確認
 ⇒必要であれば、除外して再解析

・これらをクリアした!
結果は、非標準化係数(B)、又は標準化係数(β)である
 …「y=ax1+bx2+・・・」のa, bなどの係数を表す(βは1に近い程影響力が大きい)
※SPSSではβの95%CIがでない事に注意
 結果を書く時は、「Bの値 [95%CI: ●-●], p=●」, 若しくは「βの値, p=●」とする

 
■多重(二項)ロジスティック回帰分析
●理論

・アウトカムが名義変数の場合の多変量解析
⇒基本的な注意事項は重回帰分析と同様
・結果はオッズ比が出ることが特徴

●結果の判断

尤度比検定のモデルχ2値で、モデルの有意性(p<0.05)を判断
 (重回帰分析のANOVAにあたる)
②残った変数の調整オッズ比が全てp<0.05であることを確認
 (重回帰分析のβにあたる)
Hosmer-Lemeshowの適合度検定
 ⇒p≧0.05であればよく適合したモデル(帰無仮説:よく適合したモデル)
 (重回帰分析のRにあたる)
④残差の解析
 ⇒Cock統計量が大きい、てこ比>0.5の時、外れ値の可能性あり
 ⇒除外することを検討

・これらをクリア!
⇒結果は、「OR [95%CI: ●-●], p=●」とする
 

参照 SPSSで学ぶ医療系データ解析 

★帰無仮説が異なるため。

■理論的根拠

帰無仮説:A,B,Cのどの3群間にも差が無い
t検定を行った場合
 …帰無仮説:2群間で差が無い
 =AとB, BとC, CとAの組み合わせで、5%有意水準で比較することとなる
結果は、それぞれ95%の確率で正しい
⇒帰無仮説を満たす確率(p)は、1-(0.95)^3 
 =p=0.14 となり、第Ⅰ種の誤りとなる
違う検定(分散分析:ANOVA)が必要

※正規分布かつ等分散の場合がANOVA
⇒正規分布かつ不等分散の場合はWelchの検定、非正規分布の場合はKruskal-Wallis検定


■post-hoc分析
分散分析の後、どの群間に差があったかを知る検定多重比較法
※分散分析→多重比較 という手順は理論的に誤り;扱う統計量が異なるため
 ⇒慣習的に行われているのが現状
 ⇒様々な方法があるが、明らかに誤りである方法以外のものを選択すれば問題ないはず

●パラメトリック(正規分布)な場合
・等分散→Turkeyの方法、不等分散→Games-Howellの方法
●ノンパラメトリック(非正規分布)な場合
・Steel-Dwassの方法
●どちらでも
・Bonferroniの方法
…多重比較のため、有意水準を厳しくする方法
 (具体的には、有意水準÷検定数 とする)
⇒この後、2群間の比較を用いる(t検定、Mann-Whitney検定など)
※Bonferroniは、検定数が増えると有意水準が低くなる=かなり厳しい検定になる ことが問題


参照 SPSSで学ぶ医療系データ解析

★平均の比較は正規性を前提としているため。

■変数の種類

名義変数:基本的に0か1
連続変数:連続的な値

■正規分布
・左右対称の釣り鐘型の分布(連続変数の話)
平均と分散がわかれば再現できる
⇒正規分布同士の比較であれば、平均で比較すべき(パラメトリック検定)

・群のどれかが正規分布でなければ、平均で比較すべきでない
中央値で比較すべき
⇒用いる検定方法が違ってくる(ノンパラメトリック検定)

正規分布かどうか;Shapiro-Wilk検定(p<0.05なら正規分布でない)


■分析法まとめ
●分け方が名義変数、アウトカムが連続変数の場合

①1つの集団(1標本)での比較
パラメトリック:paired t検定
ノンパラメトリック:Wilcoxonの符号付順位検定

②2つの集団の比較
パラメトリック:等分散→t検定、不等分散→Welchの検定
ノンパラメトリック:Mann-Whitneyの検定
等分散性の検定=Levene検定(p<0.05なら不等分散)

●分け方、アウトカムとも連続変数の場合
③相関
パラメトリック:Pearsonの相関係数
ノンパラメトリック:順位相関係数
※順位=値を順位に変換して行うこと

●分け方、アウトカムとも名義変数の場合
④分割表の検定
・χ2検定
※20%以上のセルの期待値<5:Fisherの正確確率検定
(連続変数でないので、正規性は関係ない)

●3標本以上の差の比較
⑤分散分析
パラメトリック:等分散→1元配置分散分析(one-way ANOVA)、不等分散→Welchの検定
ノンパラメトリック:Kruskal-Wallis検定


参照 SPSSで学ぶ医療系データ解析

★フォローした日数順に並び替え、その時点での生存率をかけていく。

■患者のデータ

●研究する時点で、例えば以下のようになっている。
・10日間しかフォローしていない生存してる患者①
・研究開始から500日間フォローし、生存している患者②
・5日で死亡した患者③
・50日で死亡した患者④

⇒これらを、フォローした日数の少ない順に並び替える 
 …③①④②


■時点内生存率⇒生存率(カプラン・マイヤー法)

・5日の時点で③死亡:時点内生存率(その時点での生存率)は、4人中3人=0.75
 ⇒生存率は0.75
・10日の時点で①生存:時点内生存率は、3人中3人=1(ここで①はドロップアウト
 ⇒生存率は0.75 × 1 = 0.75(5日での生存率 × この時点の生存率
・50日の時点で④死亡:時点内生存率は、2人中1人=0.5
 ⇒生存率は0.75 × 0.5 = 0.38
・500日の時点で②生存:時点内生存率は、1人中1人=1
 ⇒生存率は0.38 × 1 = 0.38

縦軸を生存率、横軸を時間とし、各点をプロットしたものが生存曲線。階段状になる。
 

参照 JMPによる医療系データ分析 

★全て分割表の検定で,χ二乗検定が基本.

■Fisherの正確確率検定
・分割表の内,期待度数5未満のセルが20%以上存在する場合
χ2分布でプロットされるχ2値が,より飛び飛びとなる
 参照http://blog.livedoor.jp/megikaya/archives/35097988.html
⇒補正する必要がある
⇒代替法のひとつが,Fisherの正確確率検定

 

喫煙あり

a

b

a+b

喫煙なし

c

d

c+d

a+c

b+d

n

 
このような数値の組み合わせとなるとなる確率が計算できる
 p = {\frac {(a+b)!(c+d)!(a+c)!(b+d)!}{n!a!b!c!d!}}

⇒これをp値とし,検定を行う.

※階乗の計算の為,n数が大きくなると莫大な処理が必要となる
χ2検定の精度が悪くなる時だけ使う
 =期待度数5未満のセルが20%以上存在する場合


■Mantel-Haenszel検定
●ある分割表が,複数の分割表が足されてできている時
⇒それぞれの影響を加味してχ2検定したい
⇒Mantel-Haenszel検定

※具体的な理論根拠は学習中.


参照 SPSSで学ぶ医療系データ解析

★期待値からどれだけ離れてるか,統計で考える.

分割表の分布に関連があるかを調べたい.

 

喫煙あり

10

5

喫煙なし

10

15


■期待度数を求め,χ2値を計算する

 

喫煙あり

10

5

D

喫煙なし

10

15

C

A

B

E


ここで,
 ●「女,喫煙なし」の期待度数=B×C÷E(=20×25÷40=12.5)
χ2は,
   「(実際値-期待度数)2÷期待度数」 の和
    ex. 女,喫煙なし→(15-12.5)2÷12.5
   ⇒4つのカラムで計算,全て足すとχ2値=2

●中の数字をいろいろ変え,χ2値とそれが出る確率をグラフにした
χ2分布
 …これは,自由度により形が異なる
  ※自由度=表の(横の項目数-1)×(縦の項目数-1)
   →上の例だと,(2-1)×(2-1)=1


※縦軸=確率,横軸=χ2
χ2値をプロットして作っているので,χ2分布は連続なグラフでないことが重要.

χ2値が大きい所=珍しい
危険率(α,0.05%など)で範囲が定められる
 …例えば,自由度1でα=p=0.05⇒χ2値=3.84(片側検定.カイ2乗分布表を見ればわかる
 ⇒上の例でχ2値=2より,3.84より近い
  =p>0.05となり,有意差なし
  ⇒男と女の喫煙率には有意差なし,となる
 

参照 SPSSで学ぶ医療系データ解析,http://staff.aist.go.jp/t.ihara/chi2.html 

★実際に差がある時に,それを正しく検定できる確率.

■定義

 

検定で差がない

検定で差がある

実際は差がない

1-α

α(=有意水準)
第Ⅰ種の過誤 

実際は差がある

β
第Ⅱ種の過誤 

1-β(検出力)


■有意水準
多くの場合,2群間で差があることを言いたい
⇒2群間で差がないと仮定する(帰無仮説
⇒データから統計して有意水準(p)=α=0.01であった
⇒「実際は差がないのに,検定で差があるとする確率=0.01」
  (第Ⅰ種の過誤が起きる確率が0.01)
差がないのを,正しく差がない,と判定する確率は0.99
⇒一般的には,これが0.95より高ければ,「有意に差がある」とする
⇒帰無仮説が棄却される
⇒対立仮説が採用される=有意差有り,とされる


■検出力
●「実際は差があるのに,検定で差がないとする確率=β」
差があるのを,正しく差がある,と判定する確率を「検出力という

●αがデータから出せるの同様,βもデータから出せる
⇒しかし,差がない事を言いたいのに,βを出しても意味ない
β値を設定することで,サンプルサイズを決めることに用いられる
 (通常,1-β=80~95%とされる)

●有意水準,検出力,サンプルサイズ,効果量の4要素
3つ定まれば,残り1つを導くことができる
 ※一般的な統計分析では,検出力・サンプルサイズ・効果量がわかっている
  ⇒p値を計算することで,p値が有意水準を下回るか検討する
統計ソフトに有意水準,検出力,効果量を入力する
⇒必要なサンプル数を導ける
●効果量
…具体的には,①検出したい2群間の差(平均値の差)
           ②アウトカムの標準偏差
           ③群のサンプル数の比
⇒③は普通1.
⇒①,②を過去の文献から参照する


参照 医療系研究論文の読み方・まとめ方,より良い外国語教育研究のための方法,週刊医学界新聞

↑このページのトップヘ