難解な確率統計の概念「期待値・分散」を徹底解説!リスク分析の第一歩

2024年9月2日

統計学や確率論における重要な概念である期待値と分散について、ここではその意味や計算方法などを詳しく解説しています。期待値は確率変数が取る値の平均的な値を示し、分散はデータのばらつきの大きさを定量的に表す指標です。リスクを考慮した意思決定を行う上で、これらの概念を理解することは非常に重要です。本ブログでは、期待値と分散の定義からその実用的な計算手順まで丁寧に説明されているため、確率概念の理解を深めたい方におすすめの内容となっています。

1. 期待値とは何か?

期待値（きたいち）とは、確率論において確率変数が取る値の「平均」を示す重要な指標です。期待値は、特定の事象が発生した際に得られるであろう平均的な結果を示すため、特に不確実性のある状況において役立ちます。

期待値の定義

一般的に、期待値は次のように定義されます。確率変数 ( X ) が取りうる値 ( x_i ) と、それに対応する確率 ( P(X = x_i) ) の積を全ての可能な値にわたって合計することで求められます。数式で表すと、期待値 ( E(X) ) は以下のようになります。

[
E(X) = \sum_{i=1}^{n} x_i \cdot P(X = x_i)
]

ここで、( n ) は確率変数 ( X ) が取りうる値の数を示しています。このようにして、期待値は「平均」の考え方を確率的に拡張したものと捉えることができます。

期待値の直感的理解

期待値を身近な例で考えてみましょう。例えば、サイコロを1回振ると、出た目の数は1から6までの整数です。それぞれの目が出る確率は均等であるため、期待値は次のように計算されます。

[
E(X) = \frac{1}{6}(1 + 2 + 3 + 4 + 5 + 6) = \frac{21}{6} = 3.5
]

この結果は、サイコロを多く振ったときに得られる「平均的な出目」を示しています。つまり、期待値は単なる数値の合計ではなく、長期的に見てどれくらいの結果を期待できるかを示す指標なのです。

期待値の重要性

期待値は、多くの状況で意思決定の指針となります。例えば、ギャンブルや投資の場面において、期待値を計算することで、どの選択肢がより有利であるかを判断することが可能になります。また、期待値はさまざまな統計的手法や、機械学習アルゴリズムの基礎にも用いられています。

このように、期待値は単なる理論的な概念ではなく、現実の判断や意思決定を行う上で、非常に実用的で重要な考え方であると言えます。

2. 期待値の計算方法

期待値を計算することは、確率論の中でも非常に重要なスキルです。特に、期待値の概念を理解することは、ギャンブルや投資など、リスクを考慮した意思決定に役立ちます。以下では、期待値の計算方法を具体的に説明します。

2.1 期待値の定義

期待値は、確率変数の平均的な値を示すもので、次のように定義されます。確率変数 (X) の期待値 (E(X)) は、次の式で表されます。

[
E(X) = \sum_{i} x_i P(X = x_i)
]

ここで、(x_i) は確率変数がとる値、(P(X = x_i)) は (x_i) が起こる確率です。この計算は、全ての可能な値について行い、それぞれに対する重み付けを行う形となります。

2.2 離散型確率変数の期待値計算

離散型確率変数の期待値を計算するための手順は以下の通りです。

確率変数の値をリストアップする
確率変数がとりうる全ての値を洗い出します。
各値に対する確率を計算する
各値が出現する確率を導きます。
期待値を計算する
各値とその確率を掛け合わせ、合計します。

例題: サイコロの期待値

サイコロを1回投げる場合、サイコロの目は1から6までの値を取ります。そして、それぞれの目が出る確率は等しいため、確率は ( \frac{1}{6} ) です。この場合の期待値は次のように計算できます。

[
E(X) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6}
]

この式を計算すると、

[
E(X) = \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = \frac{21}{6} = 3.5
]

よって、サイコロを1回投げたときの期待値は3.5です。

2.3 連続型確率変数の期待値計算

連続型確率変数の場合、期待値は次のように定義されます。

[
E(X) = \int_{-\infty}^{\infty} x f(x) \, dx
]

ここで、(f(x)) は確率密度関数です。連続型確率変数の期待値を計算する場合は、この積分を用いて期待値を求めます。

例題: 一様分布

一様分布の確率変数が区間 [a, b] の間で定義されている場合、期待値は次のように計算できます。

[
E(X) = \frac{a + b}{2}
]

これにより、特定の範囲の真ん中の値が期待値として得られることが示されます。

2.4 期待値の性質

期待値にはいくつかの重要な性質があります。例えば、以下のような性質があります。

線形性: 期待値は線形的です。すなわち、定数 (a) と (b) に対して次の式が成り立ちます。

[
E(aX + bY) = aE(X) + bE(Y)
]

和の期待値: 確率変数の和の期待値は、その期待値の和と同じです。

[
E(X + Y) = E(X) + E(Y)
]

これらの性質を理解することで、複雑な確率計算をシンプルにすることができます。

期待値を正しく計算することで、さまざまな場面での意思決定がより実用的かつ理論的に支えられるでしょう。

3. 分散の意味と計算式

分散は、確率変数がどの程度散らばっているかを示す指標であり、データのばらつきの大きさを定量的に理解するために使用されます。分散が高い場合は、データの値が期待値から大きく離れていることを示し、逆に分散が低いとデータが期待値に近いことを示します。

分散の基本的な定義

離散確率変数 ( X ) の分散は、次の公式によって表されます。

[
V(X) = E[(X – \mu)^2]
]

ここで、( \mu ) は期待値 ( E(X) ) を示しています。この公式は、確率変数の値 ( X ) とその期待値 ( \mu ) との距離を2乗し、その平均を求めることで分散を計算しています。したがって、分散は常に非負の値になります。

分散の計算法

分散を計算するための便利な公式があります。以下の式を用いることで、計算が容易になります。

[
V(X) = E[X^2] – (E[X])^2
]

この式では、最初に確率変数 ( X ) の2次モーメントである ( E[X^2] ) を計算し、次に期待値 ( E[X] ) の2乗を引いて算出します。この方法は、手計算の手順を簡略化するために非常に便利です。

分散の具体的な例

実際のデータを用いて分散を計算してみましょう。たとえば、サイコロを1回振った際の結果を考え、可能な出目は1から6までの6つです。この場合、期待値 ( E(X) ) は ( 3.5 ) となります。分散 ( V(X) ) を計算する手順は以下の通りです。

各可能な出目と期待値との差を2乗し、その期待値を求める。
この期待値から分散を導出します。

数値を用いて具体的に計算することにより、データの散らばり具合をより直感的に把握できるでしょう。

分散の解釈と重要性

分散が大きい場合、それはデータ点が期待値から大きく離れていることを示し、逆に分散が小さい場合はデータが期待値に近いことを示します。このため、分散は単なる値のばらつきを示すだけではなく、データの特性や傾向を把握するための重要な指標です。

分散についての理解を深めることで、データ分析における視点を広げることができ、実際の業務にもその利点が生かされます。分散の計算を通じて、多様なデータセットの性質を探求していきましょう。

4. 期待値と分散の関係

期待値と分散は、確率変数を理解する上で非常に重要な２つの指標であり、データの性質を深く知る手助けとなります。このセクションでは、期待値と分散の関係について詳しく考察していきます。

4.1 期待値の役割

期待値は、確率変数の「平均的」な値を表します。特定の試行を繰り返した際に得られる結果が、どのような数値に集まるかを示す指標です。この値は、確率変数の中心を示すものであり、分布の特徴を把握する際の基準点となります。

4.2 分散の役割

一方で分散は、データが期待値からどれだけばらついているかを示す指標です。分散が大きいほど、データは期待値から遠くに散らばり、逆に小さい場合は大半のデータが期待値近くに集中します。このように、分散はデータのばらつき具合や不確実性を測るために重要です。

4.3 期待値と分散の代表的な関係式

期待値と分散は、数学的にも深い関係を持っています。例えば、もし確率変数に定数を加えた場合、その期待値は単にその定数分だけシフトしますが、分散に影響は与えません。この特性により、期待値と分散を分けて考えることが出来ます。

[ E(X + c) = E(X) + c ]

[ V(X + c) = V(X) ]

ここで、( c ) は任意の定数、( E(X) ) は期待値、( V(X) ) は分散を示します。また、確率変数がスケールすると、期待値はそのスケールに従って変わりますが、分散はそのスケールの2乗に比例して変化します。

4.4 期待値や分散が与えるデータの解釈

期待値がデータの「中心」を示す一方で、分散はそのデータが期待値の周りでどれほど広がっているかを教えてくれます。例えば、同じ期待値を持つデータセットでも、分散が大きい場合と小さい場合では、そのデータの特性が全く異なるものになります。

期待値が同じで分散が異なる場合
データセットA: ( E(X) = 50, V(X) = 100 )
データセットB: ( E(X) = 50, V(X) = 10 )
両者の期待値は同じですが、データセットAはより広く分散しているため、より不確実なデータとなります。

このように、期待値と分散はデータを解析する上でそれぞれ独立して重要な役割を果たしており、互いに補完し合ってデータの全体像を理解する手助けをしています。

5. 確率分布から期待値と分散を求める例題

期待値の計算

確率分布から期待値を求めるためには、まずそれぞれの結果にその確率を掛けて合計します。例えば、次の活動があるとしましょう。

袋の中に様々なカードがあります。1が書かれたカードは200枚、10が書かれたカードは80枚、100が書かれたカードは16枚、1000が書かれたカードは4枚です。この袋から1枚取り出す時の期待値 ( E(X) ) を求めてみましょう。

カード数の合計は300枚ですので、各カードの確率は次のように計算できます。

1が書かれたカードの確率: ( \frac{200}{300} = \frac{2}{3} )
10が書かれたカードの確率: ( \frac{80}{300} = \frac{8}{30} )
100が書かれたカードの確率: ( \frac{16}{300} = \frac{16}{300} )
1000が書かれたカードの確率: ( \frac{4}{300} = \frac{4}{300} )

この確率を基に、期待値は次の式で計算されます。

[
E(X) = 1 \cdot \frac{200}{300} + 10 \cdot \frac{80}{300} + 100 \cdot \frac{16}{300} + 1000 \cdot \frac{4}{300}
]

これを計算すると、期待値が求まります。

分散の計算

分散 ( V(X) ) を求める際には、まずデータの期待値を利用します。分散の定義は次の通りです。

[
V(X) = E(X^2) – (E(X))^2
]

ここで、まず ( E(X^2) ) を求めましょう。各カードが持つ数の2乗にその確率を掛けて合計します。

[
E(X^2) = 1^2 \cdot \frac{200}{300} + 10^2 \cdot \frac{80}{300} + 100^2 \cdot \frac{16}{300} + 1000^2 \cdot \frac{4}{300}
]

この計算により、( E(X^2) ) が得られます。

次に ( (E(X))^2 ) を求めたら、分散の式に代入して計算をします。

具体例

実際に数値を代入して計算してみましょう。

期待値の計算:

[
E(X) = 1 \cdot \frac{200}{300} + 10 \cdot \frac{80}{300} + 100 \cdot \frac{16}{300} + 1000 \cdot \frac{4}{300}
]
[
E(X) = \frac{200}{300} + \frac{800}{300} + \frac{1600}{300} + \frac{4000}{300} = \frac{200 + 800 + 1600 + 4000}{300} = \frac{6600}{300} = 22
]

( E(X^2) ) の計算:

[
E(X^2) = 1^2 \cdot \frac{200}{300} + 10^2 \cdot \frac{80}{300} + 100^2 \cdot \frac{16}{300} + 1000^2 \cdot \frac{4}{300}
]
[
E(X^2) = \frac{200}{300} + \frac{8000}{300} + \frac{160000}{300} + \frac{4000000}{300} = \frac{4000000 + 160000 + 8000 + 200}{300} = \frac{4168200}{300} \approx 13894
]

分散の計算:

[
V(X) = E(X^2) – (E(X))^2 = \frac{4168200}{300} – 22^2
]
[
= \frac{4168200}{300} – 484 = \frac{4168200}{300} – \frac{145200}{300} = \frac{4023000}{300}
]

これにより、期待値と分散の計算が完了します。このように、確率分布を基にした計算は、期待値や分散を求める上で非常に重要な手法となります。

まとめ

期待値と分散は確率変数の重要な性質を表す指標です。期待値は確率変数の平均的な値を示し、分散は値のばらつきの大きさを表します。これらを理解することで、不確実性のある状況下での意思決定や、データの特性を深く知ることができます。本ブログでは、期待値と分散の定義、計算方法、そして互いの関係性について説明しました。これらの知識を活用し、様々な場面でデータ分析の精度を高めていくことが重要です。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

AI見習い

　大学卒業後、デジタルマーケティング企業に入社し、BtoBマーケティングのコンサルに従事。200社以上のコンサルティング経験に加え、ウェビナー・ワークショップ・Academyサイトの立ち上げに携わり、年間40件のイベント登壇と70件の学習コンテンツ制作を担当。
　その後、起業を志す中で、施策先行型のサービス展開ではなく企業の本質的な体質改善を促せる事業を展開できるよう、AI/DX分野において実績のあるAIソリューション企業へ転職。
　現在はAIソリューション企業に所属しながら、個人としてもAI×マーケティング分野で”未経験でもわかりやすく”をコンセプトに情報発信活動やカジュアル相談を実施中。