確率論の神髄「期待値・分散」を完全理解!計算方法から意味まで徹底解説

statistics

このブログでは、確率論におけるいくつかの重要な概念について解説しています。期待値や分散といった数学的な用語について、丁寧に説明されているので、確率の基礎知識を学ぶのに役立つでしょう。また、具体例を用いながら計算方法も紹介されているため、理解を深めるのに適しています。確率論への理解を深めたい方は、このブログの内容をぜひチェックしてみてください。

目次

1. 期待値とは

期待値とは、確率変数の値を基にした「平均的に期待できる値」を表します。一般的に、期待値は事象が発生する確率を考慮し、その結果として得られる値を重み付けして合計することで算出されます。つまり、期待値は各事象の「価値」とその発生の可能性を掛け合わせた結果を総和したものです。

期待値の定義

期待値 (E(X)) は次のように定義されます:

[
E(X) = \sum_{i=1}^{n} x_i \cdot P(x_i)
]

ここで、(x_i)は確率変数のi番目の値、(P(x_i))はその値が発生する確率を表します。確率変数のすべての実現値に対して、この計算を行うことで、全体の平均的な値が求まり、これが期待値となります。

なぜ期待値が重要なのか

期待値は、リスクを考慮した意思決定のための重要な指標となります。例えば、さまざまなギャンブルや投資において、自分が期待できるリターンを把握するためには、期待値を理解していることが不可欠です。期待値が高いということは、理論的には利益が上がる可能性が高いことを示唆します。

期待値の例

  • サイコロの場合:サイコロを1回振ったときの出目の期待値は、各目の値(1から6)にその目が出る確率(1/6)を掛けて合計した結果となります。計算すると、期待値は次のようになります。

[
E(X) = \frac{1}{6}(1 + 2 + 3 + 4 + 5 + 6) = \frac{21}{6} = 3.5
]

このように、サイコロの出目の期待値は3.5となります。実際には3.5の出目は存在しませんが、複数回サイコロを振ることで得られる平均がこの値になることが期待されます。

  • 宝くじの場合:宝くじの購入においても、期待値を考えることが重要です。宝くじの賞金とその当選確率をもとに期待値を計算することで、実際の投資対効果を見極めることができます。

期待値を通じて得られる洞察

期待値を学ぶことによって、単なる感情に基づく判断から脱却し、合理的かつ論理的な考え方ができるようになります。特に、不確実性の高い状況下での意思決定においては、期待値を用いることで、より明瞭な判断が下せるようになるのです。

このように、期待値は単なる平均を超えた、非常に多面的な指標であり、様々な状況に応じて有効に活用できる数学的道具のひとつと言えます。

2. 期待値の計算方法

期待値は、確率変数の値にその確率を乗じて合計することで求められます。このプロセスを具体的に見ていきましょう。

期待値の定義

期待値 ( E(X) ) は、確率変数 ( X ) の各値 ( x_i ) と、その値に対応する確率 ( P(x_i) ) を用いて次のように定義されます。

[
E(X) = \sum_{i} x_i P(x_i)
]

ここで、( x_i ) は確率変数の値の集合を示し、( P(x_i) ) はそれぞれの値の確率です。この合計は、すべての可能な値に対する期待値を表しています。

サイコロの例

具体的な例を考えてみましょう。サイコロを1回投げて出た目を確率変数 ( X ) とします。このとき、サイコロの目は1から6までの整数であり、それぞれの目が出る確率は等しいため、各目の確率は ( \frac{1}{6} ) です。

期待値 ( E(X) ) を計算すると次のようになります。

[
E(X) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6}
]

この計算を進めると、以下のようになります。

[
E(X) = \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = \frac{21}{6} = 3.5
]

したがって、サイコロを1回投げたときの期待値は3.5です。

玉の例

さらに別の例として、袋の中に100が書かれた玉1個と10が書かれた玉2個が入っているとします。ここで、取り出した玉に書かれた数を ( X ) とし、その期待値 ( E(X) ) を求めてみましょう。

まず、それぞれの玉が選ばれる確率を計算します。
– ( 100 ) の玉が選ばれる確率: ( \frac{1}{3} )
– ( 10 ) の玉が選ばれる確率: ( \frac{2}{3} )

期待値は次のように計算できます。

[
E(X) = 100 \cdot \frac{1}{3} + 10 \cdot \frac{2}{3}
]

計算を進めると、

[
E(X) = \frac{100}{3} + \frac{20}{3} = \frac{120}{3} = 40
]

したがって、このケースの期待値は40となります。

まとめ

期待値の計算は、様々な確率変数に対して同様の方法で行うことが可能です。このようにして得られる期待値は、確率的な現象における平均的な結果を把握するための重要な指標となります。

3. 分散とは

分散は、データセットにおける値のばらつきを数量的に表す指標です。具体的には、各データポイントが平均からどれほど離れているかを示すものです。このセクションでは、分散の定義やその計算方法について詳しく説明します。

分散の定義

分散は、データの各値が平均からどれだけ散らばっているのかを示す指標であり、記号で表すと通常は V(X) となります。ここで、X は確率変数を表します。分散の数式は次のように定義されます。

[
V(X) = E[(X – \mu)^2]
]

ここで、μ は期待値を示し、E は期待値の計算を意味します。この式では、各データポイント X から期待値 μ を引き、その結果を二乗してから平均を取ることで分散が求まります。

なぜ分散を使うのか?

分散の重要性は、データのばらつきを数値で表現できる点にあります。分散が大きい場合、データが期待値の周りで広く分布しており、特定の値に固まっていないことを示します。逆に、分散が小さい場合は、データが期待値の近くに集まっていることを意味します。このように、分散はデータの特性を理解する上で非常に重要な役割を果たします。

分散の計算方法

分散を計算する際の基本手順は以下の通りです。

  1. 平均を求める: データセットの平均(期待値)を計算します。

  2. 差の二乗を計算する: 各データポイントから平均を引いた値を二乗します。

  3. 平均を取る: 二乗した値の平均を計算します。

具体的な例を考えてみましょう。例えば、サイコロを1回振ったときの目の数 X が {1, 2, 3, 4, 5, 6} であるとします。このときの期待値は 3.5 です。次に、各目の数から平均を引き、その二乗を計算します。

[
\begin{align}
(1 – 3.5)^2 & = 6.25 \
(2 – 3.5)^2 & = 2.25 \
(3 – 3.5)^2 & = 0.25 \
(4 – 3.5)^2 & = 0.25 \
(5 – 3.5)^2 & = 2.25 \
(6 – 3.5)^2 & = 6.25 \
\end{align
}
]

これらの二乗の合計を求め、その数をデータの数で割り、分散が求められます。

分散の性質

分散にはいくつかの興味深い性質があります。特に注目すべきは、分散は二乗された値であるため、負の値にはなりません。また、分散が0の場合、これはすべてのデータポイントが期待値と一致していることを示します。これに対して、分散が非常に大きい場合は、データのばらつきが大きいことを示します。

分散はその性質から、さまざまな分野でデータ分析や統計解析に幅広く利用されており、その理解は統計学の基礎を形成します。

4. 分散の導出

分散を導出するためには、まずその定義を理解することが重要です。分散は一般に、確率変数の値のばらつきの程度を表す指標です。そして具体的な計算手法としては、主に二つのアプローチがあります。ここではその両方について説明します。

4.1 定義からの証明

分散の定義は次のように表されます。

[
V(X) = E[(X – E[X])^2] = E[(X – \mu)^2]
]

ここで ( \mu ) は期待値 ( E[X] ) に他なりません。これを基に、分散を具体的に計算してみましょう。

  1. 期待値 ( \mu ) を用いて、分散の定義から次のように書き換えます。

[
V(X) = E[(X – \mu)^2]
]

  1. 確率密度関数 ( p(x) ) を用いた積分を行います。

[
V(X) = \int_{-\infty}^\infty (x – \mu)^2 p(x) \, dx
]

  1. 具体的な確率分布に基づいて計算を進めると、最終的に ( V(X) ) が得られます。

4.2 確率変数の具体例と計算

例えば、あるサイコロを振ったときの目の数を考えます。この場合、サイコロの期待値を算出し、それを基に分散を計算します。

  1. サイコロの各目(1から6)に対する確率を考慮し、期待値 ( E(X) ) を求めます。

[
E(X) = \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = 3.5
]

  1. それを用いて分散を計算します。

[
V(X) = E[(X – 3.5)^2] = E[X^2] – (E[X])^2
]

  1. ( E[X^2] ) を計算し、最終的に分散 ( V(X) ) の値を求めます。

このようにして、定義をもとに分散の具体的な値を導き出すことが可能です。

4.3 特性関数を用いた証明

分散を計算するもう一つの方法は、特性関数を用いるアプローチです。この方法では分散の計算に特性関数の性質を活用します。

  1. 特性関数 ( E[e^{itX}] ) の二回微分を行います。

[
E[e^{itX}] = \exp\left(i\mu t – \frac{\sigma^2 t^2}{2}\right)
]

  1. この式を微分すると、分散の計算につながります。

  2. 両辺に ( t=0 ) を代入することで、必要な期待値を得ることができます。これにより分散が別の視点からも導出可能になります。

このように、分散は定義に基づくアプローチと特性関数を用いたアプローチの二つから導出でき、その計算には柔軟性があります。どちらの手法を選ぶかは、具体的な状況やデータによって異なるでしょう。

5. 指数分布の期待値と分散

指数分布は、主に時間の経過に伴う「イベントが発生するまでの待ち時間」をモデル化するために用いられます。この分布における重要な指標として、期待値と分散があります。このセクションでは、指数分布の期待値と分散について詳しく見ていきましょう。

期待値の導出

指数分布の期待値は、定義から単純に計算することができます。確率変数 ( X ) が指数分布に従う場合、その期待値 ( E[X] ) は次のように表されます:

[
E[X] = \frac{1}{\lambda}
]

ここで、( \lambda ) は年間平均イベント発生率を示すパラメータです。直感的には、イベントが平均して ( \lambda ) 回発生する場合、1回のイベントの期待される時間間隔は ( \frac{1}{\lambda} ) であることから、この結果が得られます。

分散の導出

次に、指数分布の分散について考えます。分散は、期待値からのばらつきを示す指標であり、次の式で定義されます:

[
V(X) = E[X^2] – (E[X])^2
]

分散を計算するためには、まず ( E[X^2] ) を求める必要があります。指数分布の場合、この値は次のように計算されます:

[
E[X^2] = \int_0^{\infty} x^2 \lambda e^{-\lambda x} \, dx
]

この積分を解くことで、次の結果が得られます:

[
E[X^2] = \frac{2}{\lambda^2}
]

これを用いると、分散を求めることができます:

[
V(X) = E[X^2] – (E[X])^2 = \frac{2}{\lambda^2} – \left(\frac{1}{\lambda}\right)^2
]

これを整理すると、分散は以下のように表されます:

[
V(X) = \frac{1}{\lambda^2}
]

指数分布の特性

ここで、期待値と分散をまとめてみましょう。指数分布において、期待値 ( E[X] ) と分散 ( V(X) ) は次のように関係しています:

[
E[X] = \frac{1}{\lambda}, \quad V(X) = \frac{1}{\lambda^2}
]

この結果は、待ち時間に対する理解をより深めるものです。例えば、 ( \lambda ) が大きくなると、つまりイベントが頻繁に発生する場合、期待値は小さくなりますが、分散もそれに応じて小さくなり、待機時間のばらつきが小さくなることを示しています。

次に、この期待値と分散を基に、標準偏差についても触れておきましょう。標準偏差は分散の平方根であり、数式で表すと次のようになります:

[
\sigma = \sqrt{V(X)} = \frac{1}{\lambda}
]

このようにして、指数分布における重要な特性である期待値と分散、そして標準偏差を理解することで、イベント発生の待ち時間という現象を深く掘り下げることができます。

まとめ

期待値と分散は、確率論や統計学の基本概念であり、様々な応用分野で重要な指標となります。期待値は、確率変数の平均的な値を表し、意思決定を行う上で欠かせません。一方、分散は、データのばらつきの程度を数値化したものであり、データの特性を理解する上で重要です。特に、指数分布における期待値と分散の関係は、待ち時間や発生頻度の特性を捉えるのに有効です。このように、期待値と分散は確率論の基礎を成すものであり、これらの知識を身につけることで、様々な状況下での合理的な判断ができるようになります。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

 大学卒業後、デジタルマーケティング企業に入社し、BtoBマーケティングのコンサルに従事。200社以上のコンサルティング経験に加え、ウェビナー・ワークショップ・Academyサイトの立ち上げに携わり、年間40件のイベント登壇と70件の学習コンテンツ制作を担当。
 その後、起業を志す中で、施策先行型のサービス展開ではなく企業の本質的な体質改善を促せる事業を展開できるよう、AI/DX分野において実績のあるAIソリューション企業へ転職。
 現在はAIソリューション企業に所属しながら、個人としてもAI×マーケティング分野で”未経験でもわかりやすく”をコンセプトに情報発信活動やカジュアル相談を実施中。

目次