3-1. 記述統計

記述統計に用いるプロシジャは2つあります。

PROC MEANS

要約統計量を出力します。デフォルトで平均値、標準偏差、最大値、最小値、およびN数を出力します。

書式は次のとおりです。

proc means data=データセット [オプション] ;
  [ var 変数リスト; ]
run;

詳細

分析する変数をVARステートメントで指定します。このステートメントは省略可能で、省略した場合はデータセットに含まれる全ての数値変数を指定したことになります。

デフォルトで出力される統計量以外の統計量を求めたい場合はPROC MEANSステートメントに以下のようなオプションを書きます。

オプション統計量
n N数
mean 平均値
std 標準偏差
min 最小値
max 最大値
median 中央値
mode 最頻値
var 分散
cv 変動係数
skew 歪度
kurt 尖度
q1 第1四分位
q3 第3四分位
qrange 四分位偏差
etc...

例えば、

proc means data=test mean var cv median;
  var a b c;
run;

と指定すると、平均値、分散、変動係数、中央値が出力されます。




PROC UNIVARIATE

一変量の要約統計量および推測統計量を出力します。書式は次のとおりです。

proc univariate data=データセット オプション;
  var 変数リスト;
run;

詳細

分析する変数をVARステートメントで指定します。このステートメントは省略可能で、省略した場合はデータセットに含まれる全ての数値変数を指定したことになります。

デフォルトで様々な要約統計量と検定統計量が出力されますが、PROC UNIVARIATEステートメントのオプションを指定することで、更に多くの単変量分析の結果を出力できます。PROC UNIVARIATEステートメントで用いることのできる主なオプションには次のようなものがあります。

オプション
alpha=α 信頼区間を100(1-α)%にします。αには0から1の間の数値を指定します。デフォルトはα=0.05です。
cibasic 平均値、標準偏差、分散の信頼区間を表示します。
mu0=values valuesには数値を指定し、位置の検定における帰無仮説を位置母数=valueにします。VARステートメントに挙げた変数に対応させて複数の値を書くことができます。
normal 正規性の検定を行います。
vardef=n 分散(および標準偏差)を計算する際の分母をnにします。デフォルトは自由度(n-1)です。
etc...

例えば、

proc univariate data=test alpha=0.1 cibasic mu0=3 4 5;
  var a b c;
run;

と指定すると、デフォルトの出力に加えて平均値、標準偏差、分散の90%信頼区間が表示されます。また位置の検定を変数aに対しては位置母数=3、変数bに対しては位置母数=4、変数cに対しては位置母数=5を帰無仮説として実施します。


Sample 2-2で作成したデータセットds22を用いて分析を実行してみます。ds22の身長、体重および父親の身長の要約統計量を表示します。次のプログラムを入力してサブミットします(コメント部分は入力しなくても構いません)。

Sample 3-1はsample3-1.sasとして保存しておきます。

【Sample 3-1】

/* Sample 3-1 */

title 'Sample 3-1 要約統計量の算出';
title2 'PROC MEANSの結果';
proc means data=ds22;
  var height weight1 weight2 father;
run;

title 'Sample 3-1 一変量の統計分析';
title2 'PROC UNIVARIATEの結果(デフォルト)';
proc univariate data=ds22;
  var height weight1 weight2;
run;

title2 'PROC UNIVARIATEの結果(オプション追加)';
proc univariate data=ds22 cibasic mu0=165;
  var father;
run;


結果はこのように出力されます。

最初のページ(HTMLの出力ではページという概念が曖昧になりますが、グレーの横線で区切られた範囲をひとつのページとして)にMEANSプロシジャを実行した結果が出力されています。MEANSプロシジャではVARステートメントで指定した変数それぞれについてN数、平均値、標準偏差、最小値、最大値が1行で表示されています。

次のページからUNIVARIATEプロシジャを実行した結果の出力ですが、MEANSプロシジャでは一つの変数につき1行でコンパクトに表示されていたのに対し、UNIVARIATEプロシジャでは一つの変数で1ページを使って多くの統計量が表示されています。変数 height、weght1、weight2、に関する結果が3ページにわたり、最後のページに変数 fatherに関して平均値、標準偏差、分散の信頼区間が追加され、位置の検定は帰無仮説を位置母数=165とした結果が表示されています。