Rで欠損値補完(インプテーション)を行うための代表的なパッケージは以下の通りです:
よく使われる欠損値補完パッケージ一覧
パッケージ名 | 主な特徴 |
---|
mice | 多重代入法(Multiple Imputation by Chained Equations)を使った強力な補完。カテゴリ・連続変数に対応。 |
missForest | ランダムフォレストを使った非線形補完。精度が高く、変数の種類が混在していてもOK。 |
Amelia | 時系列データにも対応した多重代入法。政治学や社会科学でよく使われる。 |
imputeTS | 時系列データ専用。線形補間、スプライン補間、カルマンフィルタなどが使える。 |
Hmisc | 単純な補完(平均値、中央値など)を手軽に行える。 |
VIM | 欠損値の可視化と補完がセットでできる。GUIもあり初心者に優しい。 |
ForImp | 平均値・中央値・ランダム代入など、簡易的な補完が可能。 |
一番人気は?
特に汎用性が高く、多変量補完ができる mice
パッケージが最も広く使われています。 mice()
関数で補完を行い、complete()
で補完後のデータを取得できます。