2-2. 欠損値

調査データにおける無回答や無効回答など、なんらかの理由で測定値が得られなかったものを欠損値、あるいは欠測値といいます。SASではこの欠損値の取扱いのために特別な値が用意されています。データが欠損値であることを示すには "."(半角のドット)を用います。半角のドットだけのデータがあるとSASは数値変数、文字変数ともに欠損値と判断します。文字変数に半角のドット1文字を読み込むためには特別の指定をする必要がありますが、通常必要になることはないでしょう。

datalines;
1  .  12   4
2  M  23   .
3  F  16  17
;

Excelにデータを入力するときは、欠損値に該当するセルに半角のドットを入力しておきます。

通常、欠損値は自動的に統計分析の計算からは除外されて適切な取り扱いがなされるようになっています。また、プロシジャによっては分析の中でどのように欠損値を取り扱うかを指定できる場合もあります。

またSASは特殊欠損値と呼ばれる欠損値を定義して欠損値を「使い分ける」こともできますが、必要となる場面は多くないと思いますので割愛します。

欠損値は演算や統計計算には使用されませんが、大小関係は定義されています。数値変数の場合、欠損値はどんな数値よりも小さい値として扱われます。従って比較演算には用いることができる(…というか含まれてしまう!)ことに注意が必要です(後述)。


再度 data2-2.xlsx を開き、E3,C16,D12のセルのデータを、欠損値を表す "."(半角のドット)に置き換えて data2-2.csv に上書き保存します。その上でもう一度 Sample 2-2 を実行して、欠損値に置き換えたデータがどのように表示されているか確認してください。

図2-2
図2-2. 欠損値を含むデータセットの表示



数値変数では欠損値は入力したデータと同様に半角のドット "." で表示されています。一方、文字変数では欠損値は何も表示されていません。これは文字変数では半角のドットというデータが有り得るので、それと区別する必要があるからです。また後で出てくるように、演算で欠損値を扱う場合には、ここで表示されているように数値変数と文字変数とで欠損値の指定方法が異なります。