1-2. 分析の流れ

 一般的なデータ分析の流れを、図1-1の左側に示します。調査・実験を行ってデータを収集したら、そのデータをPCで使えるように入力をします。データの入力にはExcelなどの表計算ソフトを使うのが一般的でしょう。データを入力したら、次はそれを分析ソフトで扱えるように読み込む必要があります。データを読み込んだら、まずはデータのバリデーションを行い、データの入力ミスがないか、データの中に異常値がないか、といったことをチェックします。チェックが済んだら分析に入ります。分析の結果を見て、更に分析が必要かどうかを検討し、必要であれば行います。データを更に整理・加工する必要が生じる場合もあり、加工したデータはバリデーションを経て次の分析に用います。このサイクルを繰り返して最終的に結果をまとめていきます。

図1-1
図1-1. 分析の流れ

 基本的にSASを使ったデータ分析ではこの流れに沿って、図の右側のように、大きく分けてDATAステップとPROCステップという2種類のステップを繰り返します。データの収集・入力の段階ではSASを使うことはあまりありません(調査・実験にあたって、例数設計やサンプリングなどでSASを使うことができますが、本チュートリアルでは扱いません)。Excelなどで入力されたデータをSASに読み込むのはDATAステップで行います。分析はPROCステップで行います。データの整理・加工とバリデーションチェックはDATAステップで行う場合もあれば、PROCステップで行う場合もあります。例えば、すでにデータにある変数あるいは変数群を元に新しい変数を作ったり、データのサブセットを作るような場合はDATAステップで、変数を標準化したり、次の分析に用いるための因子スコアや相関係数行列を出力するような場合はPROCステップで行います。それぞれのステップは以降で順次解説していきますが、図のような分析の流れとSASの各ステップとの対応を常に頭に入れておくようにしてください。