【基本】EZRの基本操作を覚えよう!基本統計量と変数の操作について紹介

EZR基本操作(基本統計量と変数操作)

この記事ではEZRの基本操作である基本統計量の算出と変数の操作を紹介します。

Excelで基本統計量出すのって結構めんどくさいですよね…まさか…

大丈夫ですよ!EZRならとっても簡単にできちゃいます。

準備をしよう

この記事では、統計ソフトEZRを使用します。EZRがインストールされていない場合は、下記の記事を参考にインストールしましょう。

また、EZR用のデータセットを使うので、下記からダウンロードしておきましょう。データセットの内容については関連記事を参照してください。

変数一覧

EZRでよく使う基本操作を覚えよう

よく使う基本操作を覚えていきましょう。ダウンロードした「対応なしデータ.rda」をEZRに読み込みましょう【ファイル→既存のデータセットを読み込む】。

データセットの読み込み方や取り扱いについては下記の記事を参考にしてください。

表示画面を見やすくする方法

定期的にウィンドウをクリアして見やすく

EZRの計算結果はすべて出力ウィンドウに表示されますが、作業をしていくとどこに出力されたかがわかりにくくなってしまいます。

出力ウィンドウを定期的にクリアしていくことで、出力結果がわかりやすくなります。操作は【出力ウィンドウで右クリック→ウィンドウをクリア】で行います。

データセット読み込み後にやるデータ確認方法

データセット内の変数を一覧する

データセットを読み込んだら、きちんと読み込まれているか【アクティブデータセット → 変数の操作 → データセット内の変数を一覧する】から確認しておきましょう。

標本数と変数の数、変数一覧からきちんと意図した通りのデータが読み込まれているか、最初の10個の値からデータ読み込みにエラーが無いかなど確認するといいですね!

上の例だと、標本数が60で、8個の変数があることがわかります。

基本統計量(サマリーデータ)の計算

統計解析の基本中の基本、基本統計量の計算です。EZRではサマリーデータとも呼びます。まずは、「対応なしデータ.rda」の基本統計量を見てみましょう。

基本統計量を確認してみよう

リア充と非リア充でそれぞれの基本統計量をまとめました。名義尺度であれば標本数と割合(%)、順序尺度であればそれぞれの度数分布や中央値と四分位範囲、間隔・比例尺度であれば平均値と標準偏差を計算するのが一般的です。

これ、Excelでやるとすっごくめんどくさいんですよ。めんどくさいのやってみたい人は下記の関連記事からどうぞ。

EZRを使ってスマートに基本統計量を計算していきましょう!

サンプルのサマリーデータの背景表の出力①

基本統計量はいろいろ出し方がありますが、【グラフと表 → サンプルのサマリーデータの背景表の出力】から計算するのがおススメです。

グラフと表 → サンプルのサマリーデータの背景表の出力②

設定画面です。必要な個所をクリックしていきます。

設定を間違えたら、リセットボタンを押すとすべて消えます。覚えておきましょう。

複数選択する際は、Ctrlキーを押しながらクリックしていきます。間違えて選択してしまったときも、Ctrlキーを押しながらクリックすれば解除することができます。覚えておきましょう。

グラフと表 → サンプルのサマリーデータの背景表の出力③

左上から、グループを指定できます。指定がなければ全数で計算してくれます。今回は「リアル」を選択して、リア充と非リア充で分けてみましょう。

サンプルのサマリーデータの背景表の出力④

中央左は、度数、度数分布およびその割合(%)の計算をしたい名義尺度順序尺度の変数を選択します。

今回は名義尺度の「性別」「SNS」と順序尺度の「幸福度」を選択してみましょう。

サンプルのサマリーデータの背景表の出力⑤

中央は、平均値と標準偏差の計算をしたい間隔・比例尺度の変数を選択します。

今回は間隔・比例尺度の「年齢」「BMI」「お金」を選択してみましょう。

サンプルのサマリーデータの背景表の出力⑥

中央右は、中央値と四分位範囲の計算をした順序尺度の変数を選択します。

また、中央付近にある選択項目から【四分位数範囲(Q1-Q3)】にチェックを入れておきましょう。これにより中央値とともに四分位範囲(25%タイル値~75%タイル値)を計算してくれます。

今回は順序尺度の「幸福度」を選択してみましょう。

また、【最小値と最大値】を選択すれば、変数の最大最小を知ることができます。順序尺度以外にも、間隔・比例尺度でも最大最小を知りたい場合は、ここを選択して計算しましょう。

サンプルのサマリーデータの背景表の出力⑦

最後は左下の出力先をクリップボード、表示言語を日本語にして【OK】しましょう。出力ウィンドウに下記のように表示されます。

エラーになる場合

「エラー: 添え字が許される範囲外です」となり計算できない場合があります。その時は、④のカテゴリー変数に何か1つ選択することで回避できます(2021年時点)
サンプルのサマリーデータの背景表の出力⑧

さて、うまくできましたか?とっても簡単ですよね?

P値も計算されていますが、どの検定手法で算出しているかわかりにくいので、目安程度にし、きちんとそれぞれの手法で検定を行いましょう。

また、出力と同時にコピーされているので、Excel等を開いて貼り付けることができます。ちょっとした報告や打ち合わせならこのままで十分ですね。論文や学会発表で使うときはExcel等でデザインを調整してみてください。

変数を操作(作成・編集・削除)する方法

続いて、変数の操作方法です。

新しく変数を作る方法

新しく変数を作る方法は、4つありますが、おすすめは①計算式を入力して新たな変数を作成する方法と②連続変数を区間で区分する方法です。

③④も使えることは使えるんですが、計算の過程がわからないことと、①の方法で代用できるので非推奨としました。

EZRにおける計算式と演算記号

さて、変数を作る前にこれだけは覚えておきましょう。

まず、計算式は必ず半角英数入力することを心がけてください。エラーが起きる理由の90%は全角半角のミスです。

また、演算記号もたくさんあるので、ぜひ覚えてください。サイドメニューにある下記バナーからいつでも確認できます。

EZR演算子

計算式を入力して新たな変数を作成する方法

計算式を入力して新たな変数を作成する

計算式を入力して新たな変数を作成する方法は3ステップです。

①新し変数名を付けてください。この時、変数名の頭文字を数字にしたり、記号を入れるとエラーになることがあります。半角アンダーバー「_」であれば問題ないので記号を入れたいときは使ってください。

下記の記事も参考にしてみてください。

名前を付けたら、先ほど紹介した演算記号をつかって式を入力していきます。BMIの場合は「体重/(身長/100)^2」といった感じですね。

また、変数一覧の変数をダブルクリックすると、式の中に挿入されます。もちろん自分で入力しても大丈夫ですが、入力ミスするとエラーになるので気を付けてください。

よければ【OK】を押します。試しに、変数名を「幸福度10倍」として、幸福度の値を10倍にした変数を作ってみてください。

変数を作った後は、【アクティブデータセット → 変数の操作 → データセット内の変数を一覧する】からきちんとできているか確認するといいですね!

連続変数を区間で区分する方法

連続変数を区間で区分する

連続変数を区間で区分する方法は、自動で順番のあるグループを作成するときに便利です。

例えば、100人分のデータがあったとして、BMIを選択して同データ数で4区分した場合、まず100人がBMIの低い順に並びます。そして低い方から同データ数(100人で4区分なら25人ずつ)になるようにグループ分けされていきます。この時、低いグループから順番に、1、2、3…と値が振られていきます。

例でいえば、グループ1がBMIが最も低い25人、グループ2が次に低い25人といった具合で分類されていきます。

区分の方法で「等間隔」を指定すれば、パーセンタイル値を使います。等間隔で2区分であれば中央値(50%タイル値)で2つのグループに分かれます。

今回は区間の数を3とし、変数名「BMI3分類」を同データ数で作ってみましょう。

上手く変数ができたかどうかは【グラフと表 → サンプルのサマリーデータの背景表の出力】から確認できます。【群別する変数】に今作成した「BMI3分類」を選択し、【連続変数(正規分布)】に「BMI」を選択すれば確認できます。

60人のデータで、同データ数で区分しているの20人ずつのグループになっており、グループ1がBMIが最も低いのがわかると思います。

変数名の変更・不要な変数の削除

変数名の変更・不要な変数の削除

変数名を付け間違えてしまった場合や、不要な変数を削除することができます。

変数名の変更は【アクティブデータセット → 変数の操作 → 変数名を変更する】から、変数の削除は【アクティブデータセット → 変数の操作 → 不要な変数を削除する】から行うことができます。

今回は、先ほど作成した変数「幸福度10倍」の名前を「すごい幸福度」に変更し、変更後に削除してみましょう。

まとめ

EZRの基本操作と、統計解析の基本となる基本統計量の算出と変数の操作について紹介しました。

できれば、この記事の内容を覚えているうちに、ぜひ下記から条件式についても勉強してみてください。条件式が使えるようになると統計解析の自由度と利便性が格段に向上します。

お疲れさまでした!

 同カテゴリーの記事 

 人気記事