傾向スコアマッチング(PSM)で実際にマッチングを行う際の具体的な方法にはいくつかの種類がある。それぞれの方法には、目的やデータの特性に応じた特徴がある。代表的なマッチング方法について以下に解説する。
1. 1対1(Nearest Neighbor)マッチング
これは、最も一般的なマッチング方法であり、各処置群の個体に対して、最も近い傾向スコアを持つ非処置群の個体を1つ選んでマッチングする方法である。
手順:
- 処置群の各個体について、非処置群の中から傾向スコアが最も近い個体を選ぶ。
- このとき、マッチングは置換あり(with replacement)と置換なし(without replacement)のどちらでも行える。置換ありの場合、同じ非処置群の個体が複数回使用されることが許される。
- 傾向スコアが一定の範囲内に収まらない場合、その個体はマッチングから除外されることがある。
メリット:
- 計算が比較的シンプルで、実装が容易。
デメリット:
- 置換ありのマッチングでは、特定の非処置群の個体が過度に使用され、バイアスが生じる可能性がある。
2. カリパーマッチング(Caliper Matching)
カリパーマッチングは、傾向スコアの差が一定の範囲(カリパー)内にある場合にのみマッチングを行う手法である。カリパーは傾向スコアの標準偏差の一定割合として設定されることが多い。
手順:
- 傾向スコアの差が、事前に設定したカリパーの範囲(例えば0.2標準偏差以内)に収まる非処置群の個体のみを選んでマッチングする。
- カリパーの範囲を小さく設定するほど、より厳密なマッチングが行われるが、その反面、マッチングされない個体が増える可能性がある。
メリット:
- 傾向スコアの差が大きい場合のマッチングを防ぎ、マッチングの質が向上する。
デメリット:
- 適切なカリパーの選定が難しい。
- 範囲が狭すぎると、サンプルサイズが大幅に減少する可能性がある。
3. 半径マッチング(Radius Matching)
半径マッチングは、カリパーマッチングと似ているが、特定の処置群の個体に対して複数の非処置群の個体をマッチングすることができる。カリパーの範囲内にある全ての非処置群の個体をマッチングする。
手順:
- 処置群の個体ごとに、カリパーの範囲内にある全ての非処置群の個体をマッチング。
- 例えば、カリパーを0.05と設定し、半径内に3人の非処置群がいる場合、その3人全員がマッチングされる。
メリット:
- 処置群と非処置群の個体数の差が大きい場合、より多くのマッチングが可能。
デメリット:
- カリパー内に多くの非処置群の個体が存在する場合、マッチングの質が低下する可能性がある。
4. マハラノビス距離マッチング(Mahalanobis Distance Matching)
マハラノビス距離は、共変量の間の相関を考慮して個体間の距離を測定する手法であり、これに基づいて処置群と非処置群のマッチングを行う。
手順:
- マハラノビス距離を計算し、処置群の個体と最も近い非処置群の個体をマッチング。
- これは共変量の分散や相関を考慮した距離であり、共変量が多くなるほど精密なマッチングが可能となる。
メリット:
- 傾向スコアのみに依存せず、共変量全体を用いたマッチングができる。
デメリット:
- 計算が複雑になりやすい。
- 特定の共変量が強く影響を与える可能性がある。
5. 重み付け(Inverse Probability Weighting, IPW)
重み付けはマッチングの代替手法であり、処置群と非処置群の傾向スコアに基づいてサンプルに重みをつけることで、共変量のバランスを取る方法である。
手順:
- 処置群と非処置群の個体に、それぞれの傾向スコアに応じた重みを与える。
- 処置群の重みは
1/傾向スコア
、非処置群の重みは1/(1-傾向スコア)
として計算される。
メリット:
- データの全てを利用でき、サンプルを捨てることがない。
デメリット:
- 外れ値が重みに強く影響を与える可能性があるため、慎重な調整が必要。
6. ストラタマッチング(Stratification Matching)
ストラタマッチングは、傾向スコアの範囲に基づいてサンプルをいくつかの層(ストラタ)に分割し、その各層内で比較する手法である。
手順:
- 傾向スコアに基づいて、サンプルをいくつかの層に分割する(通常は5〜10層に分ける)。
- 各層内で、処置群と非処置群のアウトカムを比較し、全体の効果を推定する。
メリット:
- マッチングの厳密性を保ちつつ、比較的簡便な手法。
デメリット:
- ストラタ内での共変量の不均衡が残る可能性がある。
これらのマッチング方法を用いることで、観察データにおけるバイアスを減らし、処置の因果効果を推定することが可能となる。適切な方法を選ぶ際には、データの特性や目的に応じた手法を検討する必要がある。