Excelによる統計解析講座

【一元配置・二元配置】分散分析についてExcelを用いて解説!

【Excelによる統計解析講座 第12章】分散分析についてExcelを用いて解説!

前ページ次ページ

第12章では、分散分析について解説していきます!

第9章及び第10章で、2つまでの母集団の母平均の差を考える際には、t検定かz検定を使う事を学んできました。

しかし、3つの母集団の平均の差を考える機会も多くあります。

この時に用いるのが分散分析です。

非常に使い勝手の良い仮説検定になっているので、是非マスターしていって下さい!

また、本章で用いるExcelファイルは以下からダウンロードして下さい!

ファイルをダウンロード

本連載講座【Excelによる統計解析講座】では、Excel未経験の方、自身の無い方でも順を追って学習でき、基礎からデータ分析に必要なスキルまでを身に付ける事が出来ます。

画像が多く、ビジュアルで理解しやすくなっておりますので、読み物が得意ではないという方も大丈夫です!

また、第7章からは、統計学の分野も扱う為、様々な方に役立つ講座となっております。

そのため、

  • Excelを仕事で使う可能性のある方
  • Excelに自信のない方
  • データ分析をExcelでやりたい方

等は是非、TechTeacherが運営する【Excelによる統計解析講座】を使って学習していって下さい!

〈目次〉

第1章:【テーブル】Excelのテーブル(フィルター)を解説!

第2章:【SUM,AVERAGEExcelの基本的な関数を解説!

第3章:【XLOOKUP,COUNTIF】データ分析の為のExcel関数を解説!

第4章:【棒,折れ線,散布図】Excelの基本的なグラフを解説!

第5章:【ピボットテーブル】Excelの便利機能ピボットテーブルを紹介!

第6章:【プレゼン資料】Excelグラフの体裁の整え方について解説!

第7章:【相関分析】相関係数と共分散をExcelを用いて解説!

第8章:【確率変数・正規分布】確率変数や正規分布をExcelで解説!

第9章:【t検定・z検定】母平均と母分散の仮説検定について解説!

第10章:【t検定・z検定】2つの集団の母平均・母比率の仮説検定を解説!

第11章:【仮説検定】カイ二乗検定とF検定をExcelで一瞬で解く!

第12章:【一元配置・二元配置】分散分析についてExcelを用いて解説!

第13章:【回帰分析】Excelを使って単回帰分析と重回帰分析を解説!

分散分析とは

分散分析とは

複数のデータの母平均を比較する際、ただ平均を比べるのでは、偶然その平均になった場合を考慮出来ません。

そこで、データのばらつきを考慮する事で、平均の差が誤差の範囲内にあるかを考える必要があります。

そこで用いられるのが分散分析です。

この分散分析では、データのばらつきを考慮した上で、その平均の差が本当に有意であるかを数値的に判断する事が出来ます。

その為、この分散分析を用いる事で、どんな要因が結果に大きく影響しているかについて分析する事が出来ます。

この分散分析は、分析するデータの形から、一元配置二元配置というものに分ける事が出来ます。

一元配置とは

データ分析において、実験的に変化させる要因を因子因子を質的・量的に変える条件を水準と言います。

この時、1つの因子についてのみ取り上げて、複数の水準の結果との関係を分析する手法を一元配置と言います。

例えば、ある屋台の「天気」という因子について、「晴れ」、「曇り」、「雨」という水準を設けて、その売り上げについて一元配置を行います。

この時、各水準間に有意な差があると判断できれば、天気が売り上げに関係していると判断する事が出来ます。

二元配置とは

次に、2つの因子について、各水準と結果との関係を分析する手法を二元配置と言います。

この二元配置は、更に交互作用の有無によって、繰り返しあり繰り返しなしに分けられます。

交互作用とは、1つの因子の水準の関係が別の因子の水準に影響される事を言います。

例えば、ある屋台に関して、「クレープ」を売った日の売り上げは、「雨」の日よりも「晴れ」の日の方が売り上げが大きいとします。

しかし、「チュロス」を売った日には、「雨」の日の方が「晴れ」の日よりも売り上げが大きいとします。

この時、「クレープ」の条件下では「雨」<「晴れ」であったのに対し、「チュロス」の条件下では「雨」>「晴れ」となり、

「天気」という因子に、「食べ物」という因子の水準が影響して売り上げが変化しています。交互作用の様子このような作用を交互作用と言います。

交互作用が予想される、「天気」と「食べ物」の様なデータに関して、「晴れ」の時の「クレープ」の売り上げと「雨」の日の「チュロス」の売り上げが1日分ずつしかないと、偶然売り上げが逆転した可能性を捨てられません。

その為、交互作用があると予想されるデータには、各因子の組み合わせに対して複数のデータを用意する、繰り返しありの二元配置が用いられます。

これに対し、交互作用ないと予想されるデータでは、互いの因子を無視できる為、各因子について、複数のデータがあるとみなせて、繰り返しなしの二元配置が用いられます。

最後に、ゲームセンターのゲーム機の種類と景品における1週間の売り上げに関して、

一元配置と繰り返しありとなしの二元配置を適用するデータの例を挙げておきます。

一元配置と繰り返しありとなしの二元配置を適用するデータ

分散分析表

概形

分散分析表の概形は一元配置、二元配置(繰り返しあり)、二元配置(繰り返しなし)によって多少異なります。

ここでは例として、一元配置の分散分析表の例を挙げます。

一元配置の分散分析表の例

これまで、Excelで統計学を勉強してきた皆さんなら、自由度、分散については、分かると思います。

その為、以下では、変動(平方和)観測された分散比及びF境界値P値について解説していきます。

変動(平方和)

まず、変動(平方和)について解説していきます。

分散分析表における変動

この変動は、「グループ間」、「グループ内」、「合計」でその計算方法が少し異なります。

因子Aの水準を\(A_{1},A_{2},A_{3}\)とし、全体のデータ数をnとします。

まず、「グループ間」の変動に関して、水準\(A_{1}\)のデータを全て\(\bar{A_{1}}\)に変え、水準\(A_{2}\)、\(A_{3}\)に関しても同様に行います。

ここで、全てのデータについて、

\[ \sum x^{2} – \frac{(\sum x)^{2}}{n} \]

を計算した値が、「グループ間」の変動(平方和)となります。

次に、「グループ内」の変動に関して、水準\(A_{1}\)のデータを全て\(A_{1}-\bar{A_{1}}\)に変え、水準\(A_{2}\)、\(A_{3}\)に関しても同様に行います。

ここで同様に、全てのデータについて、

\[ \sum x^{2} – \frac{(\sum x)^{2}}{n} \]

を計算した値が、「グループ内」の変動(平方和)となります。

最後に、元データに関して、

\[ \sum x^{2} – \frac{(\sum x)^{2}}{n} \]

を計算した値が、「合計」の変動(平方和)となり、これを偏差平方和と言います。

これらの算出方法に関しては、自身で分散分析表を算出する際に参考にしていただければと思います。

F値

次に、F値について解説していきます。

分散分析表におけるF値

F値とは、簡単に言うと、これまでの仮説検定で言う所のT値です。

分散分析では、母分散を比較する事でその差が有意であるかを判断するため、この分布はF分布に従い、F検定を用いています。

このF検定について、詳しく知りたい方は、前章の第11章:【仮説検定】カイ二乗検定とF検定をExcelで一瞬で解く!を読んでみて下さい!

この時、「観測された分散比(=F値)」は「T値」「F境界値」は「棄却限界値」になり、観測された分散比>棄却限界値となる時に、グループ間の母平均には差があるという事が出来ます。

p値

そして、最も重要なのがp値です。

分散分析表におけるp値

今回は、このp値のみを用いて母平均の差が有意であるかを判断していきます。

このp値はここでは、「母平均の差が有意でない確率はどのくらいか」を表していて、この値が有意水準を下回れば、その項目において、母平均の差があると判断する事が出来ます。

通常、有意水準には5%が使われるため、「p値が0.05を下回れば母平均には差があると判断できる」と覚えて下さい!

実際に分散分析をしてみよう!

では早速、分散分析を行っていきましょう!

分散分析表を自作する事も出来ますが、Excelには「データ分析」ツールという便利なツールがあるため、これを使って分散分析を行っていきましょう!

このデータ分析ツールが分からない方は、第7章:【相関分析】相関係数と共分散をExcelを用いて解説!内の「共分散と相関係数のデータ分析ツールを用いた算出方法」から、データ分析ツールを設定してみて下さい!

一元配置

例題1(一元配置)

あるゲーム機製造メーカーが、自社の提供するクレーンゲーム機等の売り上げを上げたいと考えています。そこで、景品の種類による1週間の売り上げを比較することにしました。
Excelファイル1ページ目のデータを用いて、各景品の種類の母平均に有意な差があるか(=景品の種類が売上に関わる要因になり得るか)を有意水準5%で分散分析してみましょう!

今回は、1つの因子について分散分析を行っていくため、一元配置を使ってデータ分析をしていきます。

まず、①「データ」タブから、②「データ分析」ツールを開きます。

次に、③「分散分析:一元配置」を選択して、④「OK」を押します。

データ分析ツールを用いた一元配置の分散分析の説明1

続いて、⑤データ範囲を選択して、⑥景品の種類が含まれているので、「先頭行をラベルとして使用」にチェックを入れ、最後に⑦「OK」を押します。

データ分析ツールを用いた一元配置の分散分析の説明2

すると、別のページに以下の様に分散分析表等のデータが表示されます。

データ分析ツールを用いた一元配置の分散分析の説明3

この分散分析表について、前述した様に、p値だけを見ます。

この時、有意水準5%より、p値<0.05であるから、景品の種類間の母平均の差は有意であり、景品の種類が売り上げに関係していると判断できます

二元配置(繰り返しあり)

例題2(繰り返しありの二元配置)

あるゲーム機製造メーカーが、自社の提供するクレーンゲーム機等の売り上げを上げたいと考えています。そこで、景品の種類及び、クレーンゲームの種類による1週間の売り上げを比較することにしました。
Excelファイル2ページ目のデータを用いて、各景品の種類の母平均に有意な差があるか(=景品の種類が売上に関わる要因になり得るか)を分散分析してみましょう!
ただし、景品の種類とクレーンゲームの種類の間の交互作用はあると予想します。

この問題では、「景品の種類」と「クレーンゲームの種類」という、2つの因子に関して、交互作用があると予想されている為、繰り返しありの二元配置を使って分散分析していきます。

まず、先ほどと同様に「データ」タブから「データ分析」ツールを開いて、①「分散分析:繰り返しのある二元配置」を選択して、②「OK」をクリックします。

データ分析ツールを用いた繰り返しありの二元配置の分散分析の説明1

次に、③データ範囲を選択して、④「1標本あたりの行数」に1つ行の項目に入っているデータ数を入力します。ここでは、「クレーンゲーム」と「プッシャーゲーム」に7個ずつデータがあるため、7を入力します。

最後に、⑤「OK」をクリックします。

データ分析ツールを用いた繰り返しありの二元配置の分散分析の説明2

すると、別のページに以下の様に分散分析表等のデータが表示されます。

データ分析ツールを用いた繰り返しありの二元配置の分散分析の説明3

下にスクロールして、分散分析表のp値を確認すると、以下の様に3つのp値が確認できます。

データ分析ツールを用いた繰り返しありの二元配置の分散分析の説明4

このp値に関して、標本が「クレーンゲームの種類」間の母平均の差、が「景品の種類」間の母平均の差、交互作用が2つの因子を組み合わせて考えたときの母平均の差になります。

これより、列と交互作用のp値が0.05を下回っているので、この2つの母平均の差が有意であり、
「景品の種類」と「景品とクレーンゲームの種類の組み合わせ」が売り上げに影響している事が判断できます。

最後に、この様に分散分析を行う際には、その結果が大きくなる条件を明確にするために良く折れ線グラフが用いられます。

下図の様に、データ分析の結果から、平均のデータの抜き出して表にします。

繰り返しありの二元配置における折れ線グラフの描画1

次に、その表から、「マーカー付き折れ線」のグラフを作ります。

繰り返しありの二元配置における折れ線グラフの描画2

最後に、どの因子の水準同士の売り上げが最も大きくなるかについて調べます。

繰り返しありの二元配置における折れ線グラフの描画3

上の図より、今回は「ぬいぐるみ」の「クレーンゲーム」の売り上げが最も大きくなっている事が分かります。

二元配置(繰り返しなし)

例題1(繰り返しなしの二元配置)

あるゲーム機製造メーカーが、自社の提供するクレーンゲーム機等の売り上げを上げたいと考えています。そこで、景品の種類及び、クレーンゲームの種類による1週間の売り上げを比較することにしました。
Excelファイル3ページ目のデータを用いて、各景品の種類の母平均に有意な差があるか(=景品の種類が売上に関わる要因になり得るか)を分散分析してみましょう!
ただし、景品の種類とクレーンゲームの種類の間の交互作用はないと予想します。

この問題では、「景品の種類」と「クレーンゲームの種類」という、2つの因子に関して、交互作用がないと予想されている為、繰り返しなしの二元配置を使って分散分析していきます。

先ほどと同様に「データ」タブから「データ分析」ツールを開いて、①「分散分析:繰り返しのない二元配置」を選択して、②「OK」をクリックします。

データ分析ツールを用いた繰り返しなしの二元配置の分散分析の説明1

次に、③データ範囲を選択して、④ラベルが含まれるため、「ラベル」にチェックを入れます。

最後に、⑤「OK」をクリックします。

データ分析ツールを用いた繰り返しなしの二元配置の分散分析の説明2

すると、別のページに以下の様に分散分析表等のデータが表示されます。

データ分析ツールを用いた繰り返しなしの二元配置の分散分析の説明3

下にスクロールして、分散分析表のp値を確認すると、以下の様に2つのp値が確認できます。

データ分析ツールを用いた繰り返しなしの二元配置の分散分析の説明4

この結果のp値より、列、つまり、「景品の種類」間の母平均の差は有意であるものの、「クレーンゲームの種類」間の母平均の差は有意でないと判断できます。

つまり、交互作用が無いと予想すると、「景品の種類」のみが売り上げに関わっていると判断できます。

まとめ

今回のExcelによる統計解析講座第12章では、分散分析を用いた、3つ以上の母集団の母平均の差についての仮説検定について解説してきました。

この分散分析は、複数の母集団について比較して、問題の主な要因となっているものを見つけ出すことが出来ます。

その為、実際のデータ分析の現場でも非常に有用な分析となっています。

次章では、単回帰分析重回帰分析を含む、回帰分析について解説していきます。

分散分析に繋がる部分もありますので、是非読んでみて下さい!

【Excelによる統計解析講座 第13章】Excelを使って単回帰分析と重回帰分析を解説!
【回帰分析】Excelを使って単回帰分析と重回帰分析を解説! 前ページ 第13章では、単回帰分析や重回帰分析を含む、回帰分析について解説していきます。 回帰分析では、どのような要...