統計の鍵を握る期待値・分散!データ分析における計算法と活用方法

2024年9月3日

確率や統計の概念は、多くの分野で活用されています。期待値や分散などの指標は、データの性質を理解したり、適切な意思決定を行う際に欠かせない要素です。本ブログでは、期待値や分散の定義、計算方法、そして具体的な適用例を解説しています。これらの概念を学ぶことで、データ分析の力を身につけ、多様な場面で役立てることができるでしょう。

1. 期待値とは

期待値（きたいち）とは、確率変数が取ることのできる値が、どれだけ期待できるかを示す統計学の重要な指標です。期待値は、確率的な事象の結果を予測するために用いられ、その計算は非常に多くの場面で役立ちます。例えば、サイコロを振った時の出目の平均や、宝くじを購入した場合の平均的な当選金額を計算する際に、期待値が利用されます。

期待値の定義

期待値は、確率変数が各値を取る確率とその値を掛け合わせた結果を全て合計することで得られます。この形式を式で表すと、次のようになります。

[
E(X) = \sum_{i=1}^{n} x_i \cdot P(X = x_i)
]

ここで、(x_i) は確率変数 (X) が取ることのできる値、(P(X = x_i)) はその値を取る確率です。このようにして求められる期待値は、確率変数の値の「平均」を表しているのです。

期待値の直感的な理解

期待値は、直感的に言えば「長期的な平均」を表します。もし、同じ条件下で何度も試行を繰り返した場合、その試行結果の平均値が期待値に近づいていくことが期待されます。たとえば、サイコロの例を考えてみましょう。

サイコロを投げると、出る目（1から6までの整数）はそれぞれ同じ確率で現れます。この場合、出目の期待値は次のように計算されます。

[
E(X) = \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = 3.5
]

この計算によって、サイコロを多く投げた場合、平均的に出る目の値は3.5になると期待できることがわかります。

期待値の性質

期待値にはいくつかの重要な性質があります。例えば、期待値は常に「線形性」を持っています。これにより、複数の確率変数の合計の期待値は、それぞれの期待値の合計に等しくなります。つまり、

[
E(X + Y) = E(X) + E(Y)
]

これは、確率変数が独立していなくても成り立ちます。そのため、複数の事象の期待値を正確に求めることができるのです。

期待値と賭けの関係

特にギャンブルの世界では、期待値の考え方が重要な役割を果たします。宝くじやカジノゲームなどでは、期待値を計算することで、どれだけのリターンが期待できるのか、またはどれだけリスクがあるのかを評価することができます。これは、投資や賭けにおいて賢い判断を下すための基本的な考え方となります。

2. 期待値の具体例と計算

期待値の計算方法

期待値（E(X)）とは、確率変数の値によって、どれくらいの成果が期待できるのかを数値で示す指標です。基本的な計算方法は、すべての実現値にその確率を掛けて合計することです。具体的には以下の式で表されます。

[ E(X) = \sum_{i} x_i \cdot P(x_i) ]

ここで、( x_i )は確率変数が取り得る各実現値、( P(x_i) )はその実現値の確率です。

サイコロの期待値

例として、サイコロを1回投げたときの出目に基づく期待値を考えてみましょう。サイコロの出目は1から6までの整数で、各目が出る確率はすべて等しいため、1/6です。この場合、期待値の計算は以下のようになります。

[
E(X) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6}
]

この式を整理すると、

[
E(X) = \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = \frac{21}{6} = 3.5
]

よって、サイコロを投げたときの期待値は3.5になります。

玉の取り出しの期待値

次に、袋の中に異なる数字が書かれた玉がある場合の期待値を計算してみます。例えば、100が書かれた玉が1個、10が書かれた玉が2個入っているとしましょう。この場合、期待値の計算は以下のようになります。

玉の数: 3個
各玉の値とその確率は次の通り：
100の玉: 1個 → 確率 ( P(100) = \frac{1}{3} )
10の玉: 2個 → 確率 ( P(10) = \frac{2}{3} )

期待値は次のように計算されます。

[
E(X) = 100 \cdot \frac{1}{3} + 10 \cdot \frac{2}{3}
]

この式を計算すると、

[
E(X) = \frac{100}{3} + \frac{20}{3} = \frac{120}{3} = 40
]

したがって、この場合の期待値は40です。

期待値の解釈

これらの計算結果から、我々は期待値がどのように利用されるかを理解できます。サイコロの例では、長期的に見ると、サイコロを振った際の出目の平均が3.5になることを意味します。また、玉の取り出しの例では、平均して一度取り出すごとに40の価値が期待できるということです。

期待値の計算は、確率やリスクを評価する際に非常に役立ちます。特にゲームや投資などの場面では、自身の選択を支える指標となるでしょう。

3. 分散とは

分散は、データのばらつき具合を示す指標です。具体的には、あるデータセットにおける各データ点が、平均値からどれだけ離れているかを数値的に表現します。この指標は、統計学やデータ分析において非常に重要な役割を果たします。

分散の定義

分散は、主に次のように定義されます。数値データの各観測値から平均値を引き、その差を二乗して平均を取ることで計算します。数式で表すと、以下のように示されます。

[
\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i – \mu)^2
]

ここで、( \sigma^2 ) は母分散、( N ) はデータポイントの総数、( x_i ) は各データ点、そして ( \mu ) は平均値を指します。特に、統計学において通常は「母集団」と「標本」で分散に異なる定義が行われるため、これらを意識して計算することが大切です。

分散の性質

分散にはいくつかの重要な性質があります。

大きい分散は、データが平均から大きく外れていることを示します。つまり、データが広く散らばっていることを意味します。
小さい分散は、データが平均に近い位置に集まっていることを表します。この場合、データのばらつきが少ないと言えます。

分散は、データの特性を理解する上で欠かせない要素であり、他の統計量と組み合わせて使用されることが多いです。

分散の計算方法

分散を求める方法には、主に次の二つが存在します。

直接計算:
観測値のリストから直接分散を計算する方法です。まず平均を求め、次に平均からの差の二乗を計算し、その平均を取ります。
期待値を用いた計算:
確率変数の分散は、期待値を利用して求めることができます。具体的には、次の式に基づきます。

[
V(X) = E(X^2) – (E(X))^2
]

ここで、( E(X) ) は期待値、( E(X^2) ) は分布の全ての値の二乗に対する期待値を示します。この方式は計算が簡略化されることが多いため、大規模なデータセットに対して特に有用です。

分散の具体例

分散の考え方を具体的な例で見てみましょう。例えば、次のデータセットを考えます：2, 4, 4, 4, 5, 5, 7, 9。このデータの平均を計算すると ( \mu = 5 ) になります。この場合、分散は次のように計算されます。

各データ点から平均値を引く:
( (2-5), (4-5), (4-5), (4-5), (5-5), (5-5), (7-5), (9-5) )
各結果を二乗します:
( (-3)^2, (-1)^2, (-1)^2, (-1)^2, (0)^2, (0)^2, (2)^2, (4)^2 )
それらを平均します:
[
\sigma^2 = \frac{1}{8} (9 + 1 + 1 + 1 + 0 + 0 + 4 + 16) = \frac{32}{8} = 4
]

このように計算された分散は、データの散らばり具合を示し、データ解析における理解を深めるための重要な指標となります。

4. 分散の求め方と具体例

分散とは、データのばらつきを数値化する指標です。ここでは、分散を求める方法とその具体例について詳しく解説します。

4.1 分散の定義

分散は、確率変数の実現値とその期待値との偏差の二乗の平均です。数式で表すと以下のようになります：

[
V(X) = E[(X – μ)^2]
]

ここで、(X)は確率変数、(μ)は期待値を表します。分散が大きいとは、データが期待値から大きく外れた値を取ることが多いことを意味しています。

4.2 分散の求め方

分散を求める際には、以下の2つの方法があります。

定義に基づく方法
期待値と実際のデータを用いて分散を直接計算します。
簡易化した公式の利用
分散を求めるための別の公式を用いることで、計算を簡易化します。

4.2.1 定義に基づく計算方法

例えば、ある試行で得られるデータが (x_1, x_2, \ldots, x_n) で、その平均が (μ) の場合、分散は以下のように計算されます：

[
V(X) = \frac{1}{n} \sum_{i=1}^{n} (x_i – μ)^2
]

この考え方を用いた具体例を見てみましょう。

4.3 具体例

4.3.1 カードの分散

200枚のカードに「1」が、80枚に「10」、16枚に「100」、4枚に「1000」が書かれています。この中から1枚のカードを取り出すとき、取り出したカードに書かれた数を (X) とし、分散 (V(X)) を求めます。

まず、期待値 (μ) を計算します：

[
μ = \frac{1 \times 200 + 10 \times 80 + 100 \times 16 + 1000 \times 4}{300} = \frac{200 + 800 + 1600 + 4000}{300} = \frac{7000}{300} \approx 23.33
]

次に、分散を計算します：

[
V(X) = \frac{1}{300} \left(200(1 – 23.33)^2 + 80(10 – 23.33)^2 + 16(100 – 23.33)^2 + 4(1000 – 23.33)^2\right)
]

この計算により、分散が求まります。

4.3.2 模試の得点の分散

AさんとBさんが受けた模試の得点を用いた例も考えてみましょう。もしAさんの得点が70, 75, 80, 85、Bさんの得点が50, 60, 90, 100だとします。

Aさんの平均得点 (μ_A) は：

[
μ_A = \frac{70 + 75 + 80 + 85}{4} = 77.5
]

Aさんの分散 (V(X_A)) は：

[
V(X_A) = \frac{1}{4} \left((70 – 77.5)^2 + (75 – 77.5)^2 + (80 – 77.5)^2 + (85 – 77.5)^2\right)
]

同様にBさんについても計算します。Bさんの平均得点 (μ_B) は：

[
μ_B = \frac{50 + 60 + 90 + 100}{4} = 75
]

Bさんの分散 (V(X_B)) は、このようにして計算します。

4.4 分散を求めた後の考察

得られた分散の値をもとに、AさんとBさんの得点のばらつきを考察します。例えば、Aさんの分散が小さければ、模試の結果が一貫していると判断できます。一方、Bさんの分散が大きい場合、得点が不安定である可能性が高いと考えられます。この情報は将来のパフォーマンスを予測する際に非常に重要です。

5. 確率変数の線形結合の期待値と分散

確率変数の線形結合とは、複数の確率変数を特定の係数を使って加算したものです。一般的に、確率変数 (X) と (Y) に対して、次のように表現されます：

[
Z = aX + bY
]

ここで、(a) と (b) は任意の定数です。このセクションでは、線形結合の期待値と分散の求め方について詳しく見ていきましょう。

期待値の計算

期待値の性質により、線形結合の期待値は次のように計算できます：

[
E[Z] = E[aX + bY] = aE[X] + bE[Y]
]

この公式は非常に便利です。なぜなら、確率分布に関係なく期待値を求めることができるからです。特に、確率変数が独立である必要はありません。具体例を挙げて解説しましょう。

具体例

例えば、サイコロを振って出る目を (X) とし、コインを投げて表が出る確率を (Y) とすると、次のように考えられます。サイコロの期待値は (E[X] = 3.5) で、コインの期待値（表が出る確率）は (E[Y] = 0.5) です。このとき、(Z = 2X + 3Y) の期待値は以下のように計算されます：

[
E[Z] = 2E[X] + 3E[Y] = 2 \times 3.5 + 3 \times 0.5 = 7 + 1.5 = 8.5
]

分散の計算

次に、分散の計算について考えます。確率変数 (X) と (Y) の分散が (V[X]) 及び (V[Y]) の場合、次の公式が適用されます：

[
V[Z] = V[aX + bY] = a^2V[X] + b^2V[Y] \quad \text{（X および Y が独立であるとき）}
]

この公式の重要な点は、(X) と (Y) が独立であることが条件であることです。独立性により、共分散がゼロになるため、線形結合の分散を単純に足し合わせることができます。

具体例

引き続き、先ほどのサイコロとコインの例を利用します。サイコロの分散は (V[X] = \frac{35}{12} \approx 2.92) で、コインの分散は (V[Y] = 0.25) です。このとき、(Z = 2X + 3Y) の分散は次のように計算されます：

[
V[Z] = 2^2V[X] + 3^2V[Y] = 4 \times \frac{35}{12} + 9 \times 0.25
]

これを計算すると、

[
V[Z] = \frac{140}{12} + 2.25 = \frac{140 + 27}{12} = \frac{167}{12} \approx 13.92
]

まとめ

確率変数の線形結合はその期待値と分散を求める際に非常に重要な結論を提供します。それにより、さまざまな確率分布を持つ変数を組み合わせて新たな確率変数を生成し、その性質を理解することが可能になります。この性質は、統計的分析や確率論の応用において非常に有用です。

まとめ

期待値と分散は確率や統計を理解する上で非常に重要な指標です。期待値は長期的な平均を表し、分散はデータのばらつきを示します。これらの概念を理解し、計算方法を習得することで、様々な事象の予測や評価が可能になります。特に、確率変数の線形結合の期待値と分散を理解すれば、複雑な確率分布も扱えるようになります。期待値と分散は統計分析や意思決定の基礎となる重要な知識であり、その理解を深めることが重要です。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

AI見習い

　大学卒業後、デジタルマーケティング企業に入社し、BtoBマーケティングのコンサルに従事。200社以上のコンサルティング経験に加え、ウェビナー・ワークショップ・Academyサイトの立ち上げに携わり、年間40件のイベント登壇と70件の学習コンテンツ制作を担当。
　その後、起業を志す中で、施策先行型のサービス展開ではなく企業の本質的な体質改善を促せる事業を展開できるよう、AI/DX分野において実績のあるAIソリューション企業へ転職。
　現在はAIソリューション企業に所属しながら、個人としてもAI×マーケティング分野で”未経験でもわかりやすく”をコンセプトに情報発信活動やカジュアル相談を実施中。