Data Science|Learning

【t分布】母平均の区間推定|分散が未知の場合を解説

前のページ|次のページ

連載講座「0から学ぶ確率統計」では、中学数学の基本的な内容から大学レベルの確率統計を解説しています。

統計やデータサイエンスに興味がある方はぜひご覧ください。

第11章では、「母平均の区間推定(母分散が未知の場合)」について解説します。

初学者も理解しやすいように丁寧に解説しているので、ぜひ最後までご覧ください。

本連載講座「0から始める確率・統計講座」では、中学・高校レベルの数学から大学レベルの「確率・統計」を解説しています。

確率・統計を始めて学ぶ方が理解できるよう、丁寧に解説しています。

この講座の内容は統計検定2級レベルの知識を習得すること」を目標としています。

・中学、高校の数学の内容を覚えてないけど
「確率・統計」を学習したい

・統計検定の対策をしたい

このような考えを持っている方は、Tech Teacherが運営する「0から始める確率・統計講座」を用いて、「確率・統計」の学習をすすめましょう。

<目次>
1章:平均・分散などの基本統計量
2章:相関関係
3章:確率の基本
4章:条件付き確率・ベイズの定理
5章:期待値
6章:代表的な確率分布
7章:母集団と標本
8章:標本平均・不偏分散
9章:中心極限定理
10章:母平均の推定(分散既知)
11章:母平均の推定(分散未知)
12章:仮説検定
13章:正規分布を用いた検定
14章:【t検定】母平均を検定
15章:【F検定】分散に差があるか?
16章:ウェルチの検定
17章:カイ2乗検定
18章:分散分析
19章:回帰分析

復習:区間推定(分散が既知の場合)

母分散が既知の場合の区間推定は以下の式で求めることができました。

母平均の区間推定(母分散が既知)

母平均u、母分散\(\sigma^{\scriptsize 2}\)の正規母集団に対する信頼度mの信頼区間は

$$
\bar{X} – k\times \frac{\sigma}{\sqrt{n}} \leq u \leq \bar{X} +  k\times \frac{\sigma}{\sqrt{n}}
$$

で得られる。

kは「分散1、平均0の標準正規分布」の両側100(1-m)%点である。
(95%の場合:k = 1.96)

以下の記事では、どのように式が導出されるか丁寧に解説しているの不安がある方はぜひご覧ください。

これから学習する「母分散が未知の場合の母平均の推定」も考え方は変わらないのでしっかりマスターしておきましょう。

母平均の区間推定|母分散が既知の場合を解説前のページ|次のページ 連載講座「0から学ぶ確率統計」では、中学数学の基本的な内容から大学レベルの確率統計を解説しています...

区間推定(母分散が未知の場合)

それでは、今回のテーマである「分散が未知の場合の母平均の区間推定」について解説していきます。

分散が未知の場合の考え方

先ほど確認したように、分散が既知の場合、母平均の区間推定

$$
\bar{X} – k\times \frac{\sigma}{\sqrt{n}} \leq u \leq \bar{X} +  k\times \frac{\sigma}{\sqrt{n}}
$$

で求めることができました。

しかし、今回のテーマである母分散が未知の場合、「\(\sigma\)」を利用できません。

そこで母分散の変わりに、母集団から取り出した標本から算出でき、母分散に性質が似ている統計量である「不偏分散」を利用します。

不偏分散

不偏分散とは、標本の偏りを除いて母分散を標本分散より正確に推定するために用いる分散です。

不偏分散\({U^2}\)は以下の式で求められます。

$$ U^2 = \frac{\scriptsize 1}{n – \scriptsize1} \sum_{i=1}^n (X_i – \bar{X})^2 $$

不偏分散は以下の記事で詳しく解説しています。

「n – 1」で割る理由なども説明しているので、興味がある方はぜひご覧ください。

【なぜn-1で割るの?】不偏分散を分かりやすく解説!母平均・母分散の点推定 前のページ|次のページ 連載講座「0から学ぶ確率統計」では、中学数学の基本的な内容から大学レベルの確率統計を解説しています...

この不偏分散を利用することで、母分散が未知の場合でも母平均を推定することができます。

推定する式は、母分散が既知の場合において、「\(\sigma → U \)」と置き換えればOKです。

$$
\bar{X} – k\times \frac{U}{\sqrt{n}} \leq u \leq \bar{X} +  k\times \frac{U}{\sqrt{n}}
$$

しかし、不偏分散は標本から算出される統計量であり、定数ではなく確率的に定まる値であるため、母分散が既知の場合と全く同じ方法では推定できません。

具体的には、母分散が既知の場合「正規分布」を利用して推定を行いましたが、母分散が未知の場合「t分布」という分布を利用する必要があります。

t分布については、次の見出しで解説します。

まとめ:母平均の区間推定(母平均が未知の場合)

母平均がu、母分散が未知である正規母集団に対する信頼度mの信頼区間は

$$
\bar{X} – k\times \frac{U}{\sqrt{n}} \leq u \leq \bar{X} +  k\times \frac{U}{\sqrt{n}}
$$

で得られる。

kは自由度「n-1」t分布の両側100(1-m)%点である。

t分布

t分布の特徴について解説していきます。

先ほど学習したように、t分布分散が未知の場合に利用します。

そして、t分布の特徴は

  1. グラフの概形は正規分布を尖らせた形
  2. 左右対称で、左右に広がる裾が厚い
  3. nを大きくすると、正規分布に近づく

という特徴を持っています。

正規分布t分布のグラフの概形を比べてみましょう。

正規分布とt分布の比較

またt分布には「自由度」が存在し、区間推定を行う時はサンプル数nから1引いた自由度「n-1」のt分布を利用します。

計算サイトや下記のようなt分布表を用いて、自由度とパーセント点から「k」の値を読み取ります。

t分布表

引用:https://bdastyle.net/tools/probability-and-percentile/t-distribution.html

自由度t分布のグラフの概形の変化は下記の画像のようになります。

自由度とt分布のグラフの概形の変化を表した図

区間推定(分散が未知)を行う

では実際に、母平均の区間推定を行います。

問題

正規母集団から, 無作為標本を抽出して次のような24個のデータを得た。母平均の 95% 信頼区間を求めよ。

35.9 43.9 51.2 35.3 36.7 49.4 39.5 59.6 43.8 32.9 36.0 43.0 41.9 44.6 47.2 56.2 45.6 47.7 38.1 51.8 42.3 46.6 35.5 32.4

引用:区間推定

まず、標本平均\(\bar{X}\)を求めます。

$$
\begin{align*}
\bar{X} &= \frac{\scriptsize 35.9 + 43.9 + \dots + 32.4}{\scriptsize 24}\\
&= \scriptsize 43.19
\end{align*}
$$

次に、不偏分散Uを求めます。

$$
\begin{align*}
U^{\scriptsize 2} &= \frac{\scriptsize  1}{\scriptsize 23}(X_i – \bar{X})^{\scriptsize 2}\\
&= \scriptsize 54.231\\
&= {\scriptsize 7.36} \times {\scriptsize 7.36}
\end{align*}
$$

自由度が「23」t分布のとき、「k = 2.069」であることから

$$
\bar{X} – k\times \frac{U}{\sqrt{n}} \leq u \leq \bar{X} +  k\times \frac{U}{\sqrt{n}}
$$

より、

$$
{\tiny 43.19}\, {\tiny -}\, {\tiny 2.069} \times \frac{{\tiny 7.36}}{{\sqrt{{\tiny 24}}}} \leq u \leq {\tiny 43.19}\, {\tiny +}\, {\tiny 2.069} \times \frac{{\tiny 7.36}}{{\sqrt{{\tiny 24}}}}
$$

したがって、母平均uの95%信頼区間は

$$
{\scriptsize 38.97} \leq u \leq {\scriptsize 47.38}
$$

と求められます。

練習問題

ある製品の検査の所要時間は正規分布に従うといわれている。 大きさ10の無作為標本について, 次のデータを得た。母平均の95%信頼区間を求めよ。

12.4 13.5 12.7 14.1 13.8 14.1 12.0 12.8 13.1 15.4

引用:区間推定(一部改題)

解答(クリックして解答を表示)

先ほどの「問題」と同様に求めます。

$$
\begin{align*}
\bar{X} &= \frac{\scriptsize 12.4 + 13.5 + \dots + 15.4}{\scriptsize 10}\\
&= \scriptsize 13.39
\end{align*}
$$

$$
\begin{align*}
U^{\scriptsize 2} &= \frac{\scriptsize  1}{\scriptsize 9}(X_i – \bar{X})^{\scriptsize 2}\\
&= \scriptsize 1.0054\\
&= {\scriptsize 1.0027} \times {\scriptsize 1.0027}
\end{align*}
$$

自由度が「23」t分布のとき、「k = 2.262」であることから

$$
{\tiny 13.39}\, {\tiny -}\, {\tiny 2.262} \times \frac{{\tiny 1.0027}}{{\sqrt{{\tiny 10}}}} \leq u \leq {\tiny 13.39}\, {\tiny +}\, {\tiny 2.262} \times \frac{{\tiny 1.0027}}{{\sqrt{{\tiny 10}}}}
$$

したがって、母平均uの95%信頼区間は

$$
{\scriptsize 12.809} \leq u \leq {\scriptsize 13.971}
$$

仮説検定とは|帰無仮説や対立仮説から検定の方法を分かりやすく解説前のページ|次のページ 連載講座「0から学ぶ確率統計」では、中学数学の基本的な内容から大学レベルの確率統計を解説しています...