FC2ブログ

合格した人だけ知っているだれでも国立大学医学部に合格できる裏技勉強法を全部紹介するブログ

偏差値40台をとったこともある国公立医学部医学科に合格した現役医師がお送りする大学受験勉強法ブログです。               最強の勉強法とは「二元論を使うべし」と「データベースを作るべし」

【医学統計学】統計学も二元論でスッキリ使いこなす方法

【もくじ】どぞ。
1.総論
 1.1.統計学とわたし
 1.2.電子カルテから臨床情報を抽出して、統計原本を作る。
2.各論
 2.1. シロート統計学でEZRを学ぶ。
 2.2. エクセルで統計原本を作る技術

以下本題。

1.総論
 1.1.統計学とわたし

統計学は学問の王様であり、ずっと使いこなすことに憧れていたけど使えていなかった。
それが徐々に使えるようになってきたのでこの記事を書いてます。

今の大学教育(医学部に関して)は、統計学を教養科目として学ぶけど、「大学のかったるい授業」の域を脱してなくて、「帰無仮説とかp値の説明、t検定、カイ二乗検定でおわり。」
臨床研究や実臨床にもっとも大事である、EZRやHRや陽性尤度比の話は全然教えてくれない。

ぼくの統計学レベルは
レベル1 大学の教養課程の統計の授業を理解できる
レベル2 研修医のときに、総合診断科教授から臨床統計の授業を理解できる
レベル3 論文に書いてある統計学用語、統計結果を理解できる
レベル4 EZRで自分が持ったクリニカルクエッションに対して統計的に分析できる

の段階に成長できてきました。

つぎのレベルはさしづめ
レベル5 メタアナリシス、RCTなどの統計方法を実践する
レベル6 統計学部の博士号をとれる

かもしれません。
社会人になって、統計学の知識は本当に有用ですが、その大切さについて教えてくれるひとはあんまりいません。教授も勉強しとけっていう感じで実践的なことは教えてくれないし。

というわけで、ぼくが実感した統計学のありがたみをこの記事に書いていこうと思います。

 1.2.電子カルテから臨床情報を抽出して、統計原本を作る。

臨床研究において、FileMakerを使って、日頃からデータベースをWIKIで、つまり大人数で統計データベースを入力することをしていない医局に所属すると、自分でデータを電子カルテから情報を抽出する必要がある。

日頃から、FileMakerでデータベースを構築している医局ってどのくらいの割合で存在するのだろう。

抽出したデータはFileMakerが病院のパソコンにインストールできていないなら、エクセルに入力することになる。
エクセルのデータはたいていの病院内のサーバーに保存できるので、もっとも現実的なデータベース構築ソフト。

ファイルメーカーじゃないので、値の入力はそういうわけで、エクセルのセルに直接入力する。細かい入力のコツは2.2.で書いていく。

2.各論
 2.1. シロート統計学でEZRを学ぶ。

https://haru-reha.com/

まずは、上記リンクで、ハル先生のブログを御覧ください。長い間、医学の統計学をやってきて、ずっとモヤモヤしていたんですが、

やっと、二元論ユーザーの先達に出会えました。先生がこの世に文章を残す前 vs 後で世界は変わりました。

(先生がおすすめしている
①初心者でもすぐにできる フリー統計ソフトEZRで誰でも簡単統計解析 著者神田 善伸
②EZRでやさしく学ぶ統計学 EZRでやさしく学ぶ統計学~EBMの実践から臨床研究まで 著者神田善伸
③みんなの医療統計 多変量解析編 
の本を立ち読みしかしてないっていうのが最大の原因かもしれませんが。)


今までのぼくの勉強法は、いかにも、分析的で総合されていなかった。micro noteばっかりで、MACRO noteが作れなった。

先生は以下のように、医学統計学を総合させています。

「医学統計学は以下の11しかない。

①独立した2群間の連続変数を比較する

②対応のある2群間の連続変数を比較する

③独立した2群間の比率を比較する

④対応のある2群間の比率を比較する

⑤独立した3群以上の間の連続変数を比較する

⑥対応のある3群以上の連続変数を比較する

⑦2つの連続変数の相関を評価する

⑧比率についての多変量解析を行う

⑨連続変数についての多変量解析を行う

⑩2群間の生存曲線を比較する

⑪生存曲線についての多変量解析を行う」

以上。

しかも、それぞれをさらに二元論で、エレメント、要素をまとめています。

①「独立してる,independent」vs「独立していない、従属である、対応のある、depedent」
独立:A群 vs otA群
例:二重盲検してA群とnotA群でわける。

従属:A群 vs A'(えーぷらいむ)群
従属パターンはTime(同一人物の治療前vs治療後)とか

②「2群」vs「3群以上」

 ①の例は2群

3群:
A群 vs 群 vs 群

あるいは
A vs A' vs A''(えーだぶるぷらいむ)
治療前 vs 治療1年後 vs 治療5年後

③「連続変数 Continuous Variable(定量的)」vs「離散変数 discrete variable(定性的)、名義変数(nominal variable)、順序変数(ordinal variable) 」 nd 「比率、ratio」
(http://www.statisticshowto.com も参照しました。)
連続数:年齢、体重、期間
vs
名義変数:Gender、生き死に、Event発生有無
順序変数:PS、Child-Pugh分類、TNM分類
順序変数は比率を使わず、中央値や平均値で連続化して扱われる。

このうち、
名義変数の比率(離散数の連続化ともいえる)

つまり、

「①である②の③を評価する」ってこと。

次。

④相関 vs 多変量解析 vs 生存曲線

●相関:独立あるいは従属しているかもしれない、2つの連続変数の関連の強さを定量する。

従属していれば、正あるいは負の相関があり、

独立していれば、相関がない。

●多変量解析:「原因→function→結果」のFunctionがどんだけ強いかを定量する。

原因→結果にはいろんな交絡因子が入ってくるので、その雑音みたいなものを除去するのが多変量解析の役割。

           年齢        性別  
           ↓           ↓  
分子標的薬した →→→→→→→→→→→→→→ とある重大な副作用でた
           ↑    ↑          ↑
           S  以前化学療法   後療法

連続変数も比率も多変量解析はできる。

●生存曲線:エベント発生するまでの期間を定量する

治療したA群 vs 治療していない not A群の生存期間比較

は最もよく見るやつ。そして、RCTしたときのインパクトがもっともでかい。NEJMとかにのっちゃうやつ。

           年齢        性別  
           ↓           ↓  
分子標的薬した →→→→→→→→→→→→→→ 生存期間のびた
           ↑    ↑          ↑
           S  以前化学療法   後療法

次。

「EZRで検定を選んでぽちっとする。」
11の調べたいことに対して、EZRで押すべきボタンはなにかというと検定名です。
検定名が多いので、11の調べたいことに対して、どの名前を選べばいいのかわからなくなる。
即刻、すべての名前をナンバリングして、
t検定は第一検定、対応のあるt検定は第2.0検定、Wilcoxon~検定は第2.1検定とかしたくなりますね。

無駄に人名とか記号で命名するとか、本当に統計屋さんはセンスがないです。

「パラメトリックparametric」 vs 「non-parametric」
パラメーター:parameter

parametricは正規分布にもどついている vs on-parametricは非正規分布

nが50以上あれば、グラフがジグザグしていないきれいな統計がとれるので、parametric

nが25くらいしかないような希少疾患を相手にする統計では、non-parametric

あるいは、変数が順序変数で5-6個しか変数がないなら、non-parametric

ってこと。


データをEZRで分析させる。

●データ要約する。

「統計解析」→「連続変数の解析」→「連続変数の要約」→「連続数をぽちっ」→「層別して要約」→「群をぽちっと」

A群とnotA群の平均値、標準偏差、四分位範囲、n数がわかる。

いままでエクセルでnを数えさせていたし、平均値、中央値とかもエクセルの関数でやっていました。お恥ずかしい限りです。

こんなに便利だったとは。さずがEZR。


●パラメトリックかどうかチェックする。
「グラフと表」→「ヒストグラム」→「連続数ぽち」→「群をぽち」
これで山になってたらOK

あるいは、
「統計解析」→「連続変数の解析」→「正規性の検定」→「● == “○”」
●は群の種類:たとえば、chemotherapy
○はそのうちの1つの群の名前:たとえば、CDDP

これでたとえば、化学療法でCDDPつかった群が正規分布かどうかわかる。p値が0.05より大きければ大きいほど、正規分布っぽいという余事象です。

もうひとつの群、たとえば:TC
TC群が正規分布かわかる。一個ずつ調べる。

あるいは、

「グラフと表」→「QQプロット」→「連続変数ぽち」
これで、y=xに近い分布ならOK

●等分散かチェックする。
t検定で群どうしを比較するときは、どっちの群もデータの散らばりが同じくらいでなければならないので。

これで準備おしまい。

「①独立した2群間の連続変数を比較する」 を実行できるようになる。

ここで、あらためて、11の比較、評価の方法のうち、パラメトリックvsノンパラメトリックの二元性で検定名を一覧にして目次整理します。

【目次】

①独立した2群間の連続変数を比較する
パラメトリック:t検定
ノンパラメトリック:Mann-Whitney U 検定

②対応のある2群間の連続変数を比較する
パラメトリック:対応のあるt検定
ノンパラメトリック:Wilcoxon符号付順位和検定

③独立した2群間の比率を比較する
パラメトリック:Fisherの正確検定
ノンパラメトリック:カイ2乗検定

④対応のある2群間の比率を比較する
パラメトリック:なし
ノンパラメトリック:McNemar(マクネマー)検定

⑤独立した3群以上の間の連続変数を比較する
パラメトリック:分散分析(ANOVA)
ノンパラメトリック:Kruskal-Wallis検定

⑥対応のある3群以上の連続変数を比較する
パラメトリック:反復測定分散分析(repeated-measures-ANOVA)
ノンパラメトリック:Friedman(フリードマン)検定

⑦2つの連続変数の相関を評価する
パラメトリック:pearsonの積率相関係数
ノンパラメトリック:spearmanの順位相関係数

⑧比率についての多変量解析を行う
パラメトリック:なし
ノンパラメトリック:ロジスティック回帰分析

⑨連続変数についての多変量解析を行う
パラメトリック:重回帰分析
ノンパラメトリック:なし

⑩2群間の生存曲線を比較する
パラメトリック:生存期間の比較(Logrank検定)
ノンパラメトリック:なし

⑪生存曲線についての多変量解析を行う
パラメトリック:Cox比例ハザード回帰分析
ノンパラメトリック:なし

以上で目次おわり。


「統計解析」→「連続変数の解析」→「2群の等分散性の検定」→「目的変数を連続数でぽち」→「グループを群の名前でぽち」

●パラメトリックで、等分散だったら、安心して、①独立した2群間の連続変数を比較することができる。


●①独立した2群間の連続変数を比較する
パラメトリック:t検定

「統計解析」→「連続変数の解析」→「2群間の平均値の比較」→「連続変数ぽち」→「群の名前ぽち」

これでP値がわかります。AとnotAで平均値に差があるかどうかわかる。

nが30くらいあれば、ぎりぎりパラメトリックで等分散なので、①独立した2群間の連続変数を比較することができそうだということ。

●①独立した2群間の連続変数を比較する
ノンパラメトリック:Mann-Whitney U 検定

独立した2群間の連続変数を比較したけいど、
 ①2群間で順序尺度を比較する場合
 ②数が少なすぎて、正規分布に従わない2群間の連続変数を比較する場合

は、「統計解析」→「ノンパラメトリック検定」→「2群間の比較」→「nの少ない連続変数あるいは順序変数ぽち」→「群の種類」

これでP値がわかります。AとnotAで中央値に差があるかどうかわかる。

この検定は平均値ではなくメディアンで比較してくれます。


次、

●②対応のある2群間の連続変数を比較する
パラメトリック:対応のあるt検定

*先にパラメトリックかどうかチェックする。

時間軸で、前 vs 後

で比較する。

「統計解析」→「連続変数の解析」→「対応のある2群間の平均値の比較」→「前の連続変数ぽち」→「後の連続変数ぽち」


たとえば、治療前の腫瘍の大きさが REセンチメートル vs 治療後の大きさが OSTセンチメートル

p値が3.61E-10。つまり、10のマイナス10乗で、

「これって超有意差のある治療だよね」ってこと。

論文ではこの形式で書かれるのはあんまり見かけないのは、多変量解析のほうが正確だからかもね。治療後って治療して何ヶ月で、何cmなんだよっていうツッコミが来る。

●②対応のある2群間の連続変数を比較する
ノンパラメトリック:Wilcoxon符号付順位和検定

対応のある2群間の連続変数を比較するのうち、連続変数が順序変数の場合は

「統計解析」→「ノンパラメトリック検定」→「対応のある2群間の比較」→「前の順序変数ぽち」→「後の順序変数ぽち」

たとえば、治療前の腫瘍のステージが RE期 vs 治療後のステージが OST期

p値が3.61E-10。つまり、10のマイナス10乗で、

「これって超有意差のある治療だよね」ってこと。

これもあんまり見ないかなぁ。

次、

●③独立した2群間の比率を比較する
パラメトリック:Fisherの正確検定


「統計解析」→「名義変数の解析」→「分割表の作成と群間の比率の比較」→「行の変数を「名義変数」、列の変数を「群の種類」ぽちぽち」→「パーセントの計算ぽち」→「Fisherの正確検定ぽち」

2かける2=4のボックス

よく見るのが、RCTのCharacteristics

新薬 vsコントロール群で男女比に差があるかどうか調べたいときに使う。

ときどき、キャラクターで差が出ちゃう残念なRCTがあるけど、nが大きければ大きいほど、差が出ない。

③独立した2群間の比率を比較する
ノンパラメトリック:カイ2乗検定

nが100以上だと、「Fisherの正確検定ぽち」の代わりに、「カイ2乗検定」を使うらしい。理由がよくわからない。

次、

●④対応のある2群間の比率を比較する
パラメトリック:なし
ノンパラメトリック:McNemar(マクネマー)検定

「統計解析」→「名義変数の解析」→「対応のある比率の比較(二分割表の対称性の検定, McNemar検定)」→「行の変数を「PREの名義変数」、列の変数を「POSTの名義変数」ぽちぽち」

治療前後で、名義変数が変わるかわかる。

割合が治療前後で変わるかどうかっていう検定は、あんまり見たことないなぁ。

次、

●⑤独立した3群以上の間の連続変数を比較する
パラメトリック:分散分析(ANOVA)

「統計解析」→「連続変数の解析」→「3群以上の間の平均値の比較(一元配置分散分析one-way ANOVA)」→「目的変数は連続変数、比較する群の種類ぽちぽち、等分散は「はい」ぽち」→「tukeyの多重比較ぽち」


「統計解析」→「ノンパラメトリック検定」→「3群以上の間の比較(Kruskal-Wallis検定)」→「目的変数はノンパラメトリックな連続変数あるいは、順序変数、比較する群の種類ぽちぽち」→「Steel-Dwass法ぽち」

●⑤独立した3群以上の間の連続変数を比較する
ノンパラメトリック:Kruskal-Wallis検定

3群で値がバラバラすぎる場合はKruskal-Wallis検定

たとえば、がんなら、「CDDP」vs「TC」vs「分子標的薬」で治療後の腫瘍の大きさの縮小率に差が出るかとかね。

ふつう、患者ごとに縮小率が違うから。

次、
●⑥対応のある3群以上の連続変数を比較する
パラメトリック:反復測定分散分析(repeated-measures-ANOVA)

「統計解析」→「連続変数の解析」→「対応のある2群以上の間の平均値の比較(反復〔経時〕測定分散分析」→「連続変数は時系列のT1、T2・・・CTTLで全部選択、群の種類を選ばない。」→「Bonferroniの多重比較ぽち」

たとえば、ある治療をして、時系列でIQが落ちていくとか、肝障害があがるとかがわかる。

一本調子であがるかさがるかがわかるってこと。

次、
●⑥対応のある3群以上の連続変数を比較する
パラメトリック:反復測定分散分析(repeated-measures-ANOVA)

「統計解析」→「連続変数の解析」→「対応のある2群以上の間の平均値の比較(反復〔経時〕測定分散分析)」→「連続変数は時系列のT1、T2・・・CTTLで全部選択、群の種類を選ぶ!」→「Bonferroniの多重比較ぽち」

たとえば、ある治療した群としていない群を比較をして、時系列でIQが落ちていくとか、肝障害があがるとかがわかる。

今回の検定では「介入」と「時間経過」に交互作用があるかどうかがわかる。

時間とFactorと介入のFactorの独立具合がわかる。

⑥対応のある3群以上の連続変数を比較する
ノンパラメトリック:Friedman(フリードマン)検定

「統計解析」→「ノンパラメトリック検定」→「対応のある3群以上の間の比較(Friedman検定)」→「繰り返しのある変数」は「時系列などで変化する対応のあるT1~Tn」を全てぽちる。(Ctrlキーを押しながらクリックして複数選択)→「Bonferroniの多重比較ぽちる」

ぼくの専門分野での医学論文ではほとんどみたことない。

抗癌剤治療とかって、たいてい複数の時系列で追うことがないからね。1ヶ月後、2ヶ月後の治療効果の比較とかあんまり意味ないから。

⑦2つの連続変数の相関を評価する
パラメトリック:pearsonの積率相関係数

「統計解析」→「連続変数の解析」→「相関係数の検定(Pearsonの積率相関係数)」→「連続変数の種類をふたつぽちぽち」

こうすると、散布図で視覚的に相関があるかがわかる。p値は相関の確からしさがわかる。強さはわからない。

相関の強さを表すのは「相関係数」で、x、y平面の傾きをあらわしている。

相関係数は-1~1までの値を取る。
1に近いほど「正の相関が強い」。y=xの比例
-1に近いほど「負の相関が強い」。y=-xの比例
相関係数の絶対値が
0.2未満:ほとんど相関なし
0.2~0.4:弱い相関あり
0.4~0.7:相関あり
0.7以上:強い相関あり

たとえば、FDG異常集積の強さ vs 生存期間 とか。

がんの大きさ vs 生存期間 とか。

この統計手法の欠点は3つ。

1.相関はこのような交絡因子の存在を無視してしまう可能性
2.因果関係の順序が不明
3.たまたま相関しているかも

そういうわけで、nが少なくて多変量解析が行えない場合に関連性あるかもっていうのに使える程度。
1対1対応のかなり因果関係が単純なものにしか使えない。

この弱点を克服したのが多変量解析ともいえる。

あるいは、1対1対応を証明するのが多変量解析ともいえる。


⑦2つの連続変数の相関を評価する
ノンパラメトリック:spearmanの順位相関係数

記載なし。

⑧比率についての多変量解析を行う
パラメトリック:なし
ノンパラメトリック:ロジスティック回帰分析

多変量解析とは、ある結果を表す変数をその他の変数によってどの程度説明(予測)できるかを解析するツール。

ある結果→従属変数または目的変数
他の因子→独立変数または説明変数

目的と説明というテクニカルタームはとても文学的な響きがするので、使わないことにします。数学で使い慣れた、従属と独立でいいですよね。

従属変数=独立変数+独立変数+独立変数+独立変数+独立変数+独立変数+・・・

独立変数+独立変数+独立変数+・・・=従属変数

ぼくのWikihikagle勉強法で

学習能力=理解力×記憶力×ノート力×ノート整理力×時間管理力

とか書いてますが、同じ理屈です。+という記号か*という記号化の違い。

重回帰の場合、独立変数の種類は(サンプル数÷10)個と決まっている。

Nが100の統計なら、10種類までの独立変数の評価が可能ということ。

多変量解析のときは、みやすさのために、名義変数を全部0vs1で表現する。どうやるかっていうと、

「アクティブデータセット」→「変数の操作」→「データセット内の変数を一覧する」

すべての種類がINT、つまり整数の連続変数になっているので、変換する必要がある。

「アクティブデータセット」→「変数の操作」→「連続変数を因子に変換する」→「変数で種類をえらび」→「因子水準で数値で ぽち」

こうすると選んだ変数がFACTORになり、0vs1で表現できるようになった。

準備おしまい。

「統計解析」→「名義変数の解析」→「二値変数に対する多変量解析(ロジスティック回帰)」→「目的変数に従属変数の種類ぽち」→「説明変数に独立変数の種類をダブルクリックしまくる」

結果の解釈:
●モデル全体のP値 これで予測式が意味があるかどうか分かる。

●VIFは独立変数間での相関(多重共線性)を調べる指標。
VIFが
5以上:多重共線性の可能性あり
10以上:多重共線性の可能性がかなり高い

●オッズ比
オッズ比が 1以上 : 合併症の可能性を上げる
1 : 合併症に影響しない
1以下 : 合併症の可能性を下げる

「0 と比べて 1 のオッズ比」を表している。なし と比べて、あり はオッズ比が●だ といえる。

たとえば心筋梗塞かどうかの陽性尤度比。問診してオッズ比がどんどんあがるイメージ。

(心筋梗塞かどうか)=(吐き気がある)+(冷や汗をかいている)+(動悸がある)+(胸が痛い)
            =2×3×1.5×3
問診すれば、心筋梗塞の陽性尤度比がわかるというやつですね。

95%信頼区間が1をまたいじゃうと、p値が0.05よりでかいってことになる。


⑨連続変数についての多変量解析を行う
パラメトリック:重回帰分析
ノンパラメトリック:なし

「統計解析」→「連続変数の解析」→「線形回帰(単回帰、重回帰)」→「目的変数に独立変数の種類を選ぶ」→「説明変数に従属変数の種類を多く選ぶ。」

結果の解釈:
●モデル全体のP値 これで予測式が意味があるかどうか分かる。

●「Adjusted R-squared」「決定係数(R²)」 に近いほどモデルの当てはまりが良い

●Estimateとは「回帰係数推定値」
Aは「-k」、Bは「-l」、Cは「+m」、そしてIntercept(切片)は「i」。これはXが以下のような予測式になったことを表す。

X=(-k*A)+(-l*B)+(+m*C)+I

ABCのそれぞれのP値がわかり、それぞれがどれくらい影響を与えるのかがわかる。InterceptのP値は関係ない。

ABCの値を代入すれば、Xが求まるってこと。

たとえば、

(あるガンの生存期間)=(+k*PS)+(-l*Stage)+(+m*年齢)+I
とかね。

●VIFは独立変数間での相関(多重共線性)を調べる指標。
VIFが
5以上:多重共線性の可能性あり
10以上:多重共線性の可能性がかなり高い

●どの独立変数を選ぶか問題

●重回帰 総症例数を15で割った数まで
●ロジスティック回帰 イベントありとなしの小さい方を10で割った数まで
●Cox比例ハザード回帰 イベントありの数を10で割った数まで
●何がアウトカムと因果関係をもつかを、データを見ずに先行文献や医学的観点から考え、アウトカムとの関連性の上で重要なものから選んでいく(ぼくが自然にやって身につけていたことを、この本で指摘してくれています。)
●タブーは・データ解析後にP値などをみて独立変数を選ぶ・ステップワイズ法によって独立変数を選ぶ


⑩2群間の生存曲線を比較する
パラメトリック:生存期間の比較(Logrank検定)
ノンパラメトリック:なし

生存期間だけは特別扱いする変数。
なんでかっていうと、イベント発生有無 vs イベント発生するまでの期間
のふたつが入ってくるから。

生きてる0、フォロー切れ0 vs 死んだ 

「統計解析」→「生存期間の解析」→「生存曲線の記述と群間の比較(Logrank検定)」→「観察期間変数にOS」→「10の変数に VENTを選び」→「At riskのサンプル数を表示する ぽち」→「生存率を表示するポイント 3年生存なら36、5年生存なら60を入力」

これで古き良き定番グラフであるKaplan-Meier(カプランマイヤー)曲線が描かれる。

生存曲線に時々縦線が入っているのは、打ち切りサンプルを表している。死ぬとかくっと下がる。

生存期間中央値、Median survivalもわかる。

中央値が計算できないとNAとなり、論文では「未到達」と表現されたりする。

⑪生存曲線についての多変量解析を行う
パラメトリック:Cox比例ハザード回帰分析
ノンパラメトリック:なし

「統計解析」→「生存期間の解析」→「生存期間に対する多変量解析(Cox比例ハザード回帰)」→「時間はOS、イベントはEVENT、説明変数は独立変数をダブルクリック」→「比例ハザード性の分析を行う」にチェック

GENDERなどは vs1化してFACTORとして扱っておく。

これでハザード比,Hazard ratio,HRがわかる。

「イベントの発生と、発生するスピード、時間経過を加味した相対的なリスク」

1より大きい:リスクを上げる
1 :リスクは同等
1より小さい:リスクを下げる

Cox比例ハザード回帰の場合、比例ハザード性が保たれていることが解析の前提になる。
p値が0.05より大きければ問題ない。
    小さいと、比例ハザード性が保たれない場合、2つの生存曲線はどこかでクロスする。

●傾向スコアマッチングとは「疑似RCT」
Nが多い研究ならやってもいいけど、ぎりぎりなnだと目減りしてよくわからない統計結果になるかも。

「グラフと表」→「サンプルの背景データのサマリー表の出力」→「群別は比較したい群の種類名」→「カテゴリは比較したい名義変数や順序変数」→「比較したい連続変数選ぶ」

こうすると、勝手にA群とB群で単純な比較をしてくれる。
OSがAとB群で違ったとして、PSや年齢が偏っていたから差が出てしまったのではないかという交絡因子を疑ってしまう。

この疑念を払拭する。

まずは傾向スコアを算出し、それをデータセットに追加する。

「統計解析」→「名義変数の解析」→「二値変数に対する多変量解析(ロジスティック回帰)」→「目的変数に群の種類」→「説明変数にOS以外の背景因子を全部ましまし」→「モデル解析用に解析結果をアクティブモデルとして残す」

*傾向スコアマッチングの場合は、説明変数は交絡因子となりそうなものを全部ましましにする。OS以外を。

「標準メニュー」➡「モデル」➡「計算結果をデータとして保存…」→「予測値」だけにチェックをつけてOK(デフォルトは全てにチェックが入っている。予測値以外は外す)

これで傾向スコアがデータセットに追加された。

次に、傾向スコアによって、2群をマッチングする。

「統計解析」→「マッチドペア解析」→「マッチさせたコントロールの抽出」→「比較する群の変数を選び」→「マッチさせる変数に:fitted.GLM.2 を選択」→「マッチしないケースを削除するか」→「削除する」→実行すると→「データセットが劇的ビフォーアフターに!」

なんということでしょう~。匠の技により、nは大幅削減に!

これでOS以外の背景因子がすべてRCTしたように有意差がなくなります。

この状態でOSを比較すると、レトロでも、リアルガチで介入したかどうかでOSが変わったかがわかる。

 2.2.エクセルで統計原本を作る。

電子カルテから臨床情報を抽出して、統計原本を作ります。

まず、統計をとるためにエクセルをつかうんですが、最近、コツが溜まってきました。横断的に書き連ねます。

2.2.1 下準備系
2.2.2 入力系
2.2.3.出力系
2.2.4.分類不可能系

に分類してみます。

2.2.1 下準備系
②患者のピックアップは医療情報センターの事務さんにやらせる。(電子カルテ導入前のデータは捨てるしかない。医局でデータベースソフトを導入していないと、後ろ向き研究は自力では無理。)
紙カルテでレトロスペクティブスタディをやるのは実質的に不可能です。
データの信頼性が低いから。
字も汚いし。読みづらいし。検索しづらいし。

③連結化させる。パスワードをかけるのも忘れずに。
エクセルは名前をつけて保存のときに、オプションで選択する。
USBとパソコンとエクセルに全部パスワードをかける。
連結化についてはそれぞれの病院で規則があるので、それを参照してください。

④担当患者登録に患者の通し番号で数字で登録する。(富士通の電子カルテだったら)。このとき、半角英数で入力しないと、ソートがうまくいかないので注意。短い期間で全員登録すれば、期間を指定するだけで全員一覧化できる。患者を二度調べるときに、役に立つ。エクセルで患者IDをコピペしないですむだけでかなり楽。(クリップボードにコピーだと、このエラーがでないらしい。日本語を日本語として名義変数として使える)。

⑤そのときに、最初に、OSだけ全員分登録する。他のデータを逐一入れてると発狂するから。

⑥生年月日、性別、Last visitは医療情報の事務で登録してもらう。
なるべく多く、事務ができることはやってもらう。

⑪調べるべき、連続変数や名義変数、順序変数はすでに存在している先行論文、とくにインパクトが強いやつを真似する。そのインパクト強い論文が引用している論文も参考にして調べるべき値をさらに真似する。
このとき、COXで多変量解析している名義変数をしっかり調べるべき。それ以外は無視していい。
たいして良いデータが出ない可能性が高いから。

⑫まずは、日本のガイドラインをよく読む。そして、その引用している論文を全部チェックする。なぜ、ガイドライン作成委員会のひとがその論文を選んだのか、気持ちを汲み取る。偉い先生なら、なぜそれを選んだのか書いてくれている。たとえば、「nが30未満は入れなかった」と書いてくれれば、nが35になるような論文を作れば、ガイドラインに入れてもらえるってこと。
⑬最新のレビューを探す。ガイドラインに載る前の最新の動向は偉い教授がレビューを投稿してくれている。レビューはPUBMEDで簡単に見つけられる。でも、キーペーパーは初心者には見つけられない。とりあえず、レビューを読めば、どれがキーペーパーなのかすぐにわかる。




2.2.2 入力系
①背景色を黒っぽい色を付けると、ブルーライトカットできる。
ダークモードがエクセルにも標準でついていればいいんですけどね。

②セル内の一番上の行は日本語でいい。
日本語にしないと、一覧性が悪くなるから。
ただし、中身の数字や名義変数は英語で統一する。
エクセルファイルをEZRでインポートするときに、一番上の行だけ変更すればいいから。

男と女は male vs female
生死は dod vs alive vs lost
大文字と小文字は区別されない。

コメント欄は日本語でいい。

⑧データが取れなかったら、とりあえず、NAと入力して先に行く。
ひとりの患者に20分以上時間がかかると発狂しうる。煮詰まる。


2.2.3.出力系
⑦実際データが揃ったら、EZRが日本語および、ローマ字の全角入力に対応していないために、エクセルのコピペができないので、エクセル内のすべてのセルを半角英数に書き換える。
例えばB(日本語フォントのB)とB(英数のB)が両方とも区別できず、エラーがでて取り込めないという状態に陥らないように、名義変数は半角英数で入力すべき。
日本語入力と併存が一番良くない。
どちらか迷ったら、列をひとつ増やせばいい。

⑨パラメトリックに統計できる30例を先にガチで調べて、有意義なデータになるかどうか試す。それで、有意義な値にならないデータは捨てる。そうすれば、残りの70例くらいは調べずに済む。このとき、最初にOSを出しておくことが効いてくる。OSが長いひとのほうが、いろいろ学ぶことが多いから。

⑩なるべく、2回、同じ患者を開かないで済むように、⑨を実践し、短い期間で全部調べるべき。じゃないと、間延びして、データを忘れてしまう。



2.2.4.分類不可能系
①【最重要】Office 365をAMAZONで買う。
下記リンクをクリックしたあとに買ってください。



ぼくはクラウドに思い出の動画データを大量に保存したいので、1TBのクラウドが必要なんです。
必要経費というか。
Office 365はそのクラウドサービスにプラスして、無料でSkypeの無料通話と最新のWord、Excel、パワポがダウンロードできます。
MACもWINDOWSも使い放題。


続きます。
関連記事












管理者にだけ表示

トラックバックURL↓
http://ndthikaru.blog74.fc2.com/tb.php/636-1a98f13b

Neisseria meningitidis