期待値・分散の証明 – データ分析の理解に必須の概念を完全解説!

2024年8月27日

確率論や統計学における期待値と分散は非常に重要な概念です。期待値はデータの平均的な値を、分散はデータのばらつき具合を示す指標となります。本ブログでは、期待値と分散の意味や計算方法、性質などを詳しく解説していきます。これらの概念を理解することで、データ分析や確率的な問題への深い理解が可能になるでしょう。

1. 期待値と分散の概要

期待値と分散は、確率論や統計学における基本的な概念であり、データやプロセスの性質を理解するために欠かせない指標です。このセクションでは、期待値と分散がそれぞれ何を意味し、どのように使われるかについて説明します。

期待値とは？

期待値（えきたいち）とは、確率変数が取る値の平均的な「期待される」結果を示す指標です。ギリシャ文字のμ（ミュー）で表されることが多く、すべての可能な値に、それぞれの出る確率を掛け合わせて合計することで計算されます。期待値は以下の式で定義されます：

[
E[X] = \sum_{i=1}^{n} p_i x_i
]

ここで、( p_i ) は確率、( x_i ) は取り得る値です。期待値は、特定の確率分布における「中心」を定義する役割を果たします。

分散とは？

分散（ぶんさん）は、データのばらつきを示す指標です。特定の確率変数が平均からどれくらい散らばっているかを数値化します。分散は、上下にどの程度散らばっているかを示し、データの変動の大きさを捉えます。通常、( V[X] ) や ( \sigma^2 )（シグマ平方）で表記され、以下の式で定義されます：

[
V[X] = E[(X – \mu_X)^2]
]

この式において、( \mu_X ) は期待値を示しており、実現値と期待値との差を二乗してその平均を取ったものが分散です。

期待値と分散の関係性

期待値と分散は、確率変数の性質を理解する上で非常に密接に関連しています。期待値がデータの「中心」を示すのに対し、分散はその中心に対するデータの「散らばり」を示します。具体的には、期待値が分布の位置を示す一方で、分散はその形状を理解する助けとなります。

期待値と分散の計算の重要性

期待値と分散を計算することによって、データの分析や予測がより正確になります。特に、ランダムな事象を繰り返す場合に、期待値は理論的な予測を提供し、分散はリスクや不確実性を評価する際の重要な要素です。

このように、期待値と分散は、確率論の核心をなす重要な指標であり、様々な分野において応用されています。これらの概念をしっかりと理解することで、より深いデータ分析や確率的理解が可能になるでしょう。

2. 期待値の意味と計算方法

期待値（えきたいち）とは、ある確率変数がとる値に対して、その値がどの程度出現するかを考慮した「平均的な値」を指します。数学的には、期待値はその確率変数の全ての実現値に、その実現値が出現する確率を掛けて合計した結果として定義されます。

期待値の公式

離散型確率変数 X の期待値は、次のように表されます。

[
E[X] = \sum_{i} x_i \cdot P(X = x_i)
]

ここで、(x_i) は確率変数 X が取りうる値、(P(X = x_i)) はその値が出現する確率です。

具体例で考える

期待値を理解するために、具体的な例を考えてみましょう。サイコロを1回投げたときの出目を考えます。このとき、出目の数を X とすると、X の期待値 E(X) は次のように計算できます。

サイコロの出目は 1, 2, 3, 4, 5, 6 の6通りで、それぞれの出目が出る確率は 1/6 です。
期待値は以下のように計算されます。

[
E[X] = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6}
]

この計算を実施すると、

[
E[X] = \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = \frac{21}{6} = 3.5
]

この結果から、サイコロを繰り返し投げると平均して3.5が出ることが期待されます。

別の例：玉を引く場合

次に、異なる状況を考えてみましょう。袋の中に、100が書かれた玉1個と、10が書かれた玉2個が入っている場合です。ここで、玉を1個引いて、その数を確率変数 X とします。

玉の種類と、それぞれの確率を考えます。

100の玉の確率: ( P(X = 100) = \frac{1}{3} )
10の玉の確率: ( P(X = 10) = \frac{2}{3} )

期待値は以下のようになります。

[
E[X] = 100 \cdot \frac{1}{3} + 10 \cdot \frac{2}{3}
]

この計算を実施すると、

[
E[X] = \frac{100 + 20}{3} = \frac{120}{3} = 40
]

この例では、玉を引いたときに40という期待値が得られます。これは、長期的に見るとこの設定で得られる数値の平均として期待されるものです。

期待値の重要性

期待値の概念は、さまざまな分野で重要な役割を果たしています。特に、ギャンブルや投資などの確率に基づく意思決定を行う際に有用です。期待値を理解することで、リスクや利益についての合理的な判断が可能になります。例えば、宝くじにおいては、期待値が購入価格の半分未満であることから、長期的には損失が見込まれることが分かります。

3. 分散の意味と計算方法

分散とは、データのばらつきを表す指標であり、確率変数の取りうる値がその平均からどれだけ離れているかを示します。データが平均値の周りにどれほど広がっているかを定量化することで、情報の散らばり具合を理解することができます。

3.1 分散の定義

分散は通常、次の式で定義されます。

[ V(X) = E[(X – \mu)^2] ]

ここで、( V(X) ) は確率変数 ( X ) の分散、( \mu ) は ( X ) の期待値を意味します。この式は、各データ点と平均 ( \mu ) との差の二乗の期待値を取ることで、ばらつきを計測します。したがって、計算結果は常にゼロ以上の値になります。

3.2 離散分布の分散計算

離散的な確率変数の場合、分散を計算するには次の手順を踏みます。

確率変数の期待値 ( E(X) ) を求める。
( X ) の各値と期待値の差を計算し、その二乗を求める。
二乗した値に各値の出現確率を掛けて、和を求める。

計算例

サイコロを1回投げたときの確率変数 ( X ) の分散 ( V(X) ) を計算してみましょう。

期待値は次のように求められます。

[ E(X) = \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = 3.5 ]

各目の期待値との差を二乗して確率で重み付けします。

[
V(X) = E\left[(X – 3.5)^2\right] = \frac{1}{6}(1 – 3.5)^2 + \frac{1}{6}(2 – 3.5)^2 + \frac{1}{6}(3 – 3.5)^2 + \frac{1}{6}(4 – 3.5)^2 + \frac{1}{6}(5 – 3.5)^2 + \frac{1}{6}(6 – 3.5)^2
]

この計算を行うと、分散の値が得られます。

3.3 連続分布の分散計算

連続分布の場合、分散は次のように定義されます。

[ V(X) = \int_{-\infty}^{+\infty} (x – \mu)^2 f(x) dx ]

ここで、( f(x) ) は確率密度関数、( \mu ) は期待値を示します。したがって、分散は期待値を用いた積分計算によって求められます。

3.4 分散の性質

分散にはいくつかの重要な性質があります。例えば、次のような性質が挙げられます。

( V(X+c) = V(X) ) ：定数を加えても分散は変わらない。
( V(cX) = c^2 V(X) ) ：確率変数に定数を掛けると、分散はその定数の二乗倍になる。
( V(X+Y) = V(X) + V(Y) + 2Cov(X,Y) ) ：二つの確率変数の和の分散は、各確率変数の分散とそれらの共分散の和である。

これらの性質を理解することで、データ分析や確率論においての計算が効率的に行えるようになります。

4. 期待値の性質と証明

期待値は確率論と統計学の核心的な概念であり、さまざまな重要な特性を持っています。このセクションでは、期待値に関連する主要な性質をいくつか取り上げ、それぞれの証明を示します。

4.1 期待値の線形性

期待値の最も重要な特性の一つは「線形性」です。任意の確率変数 (X) および (Y)、ならびに定数 (a) と (b) に対して、次の式が成り立ちます。

[
E[aX + bY] = aE[X] + bE[Y]
]

証明の手順

この性質の証明には期待値の定義を使用します。期待値は、各確率変数の値とその確率の積の総和として定義されます。

[
E[aX + bY] = \sum (aX + bY) P(X, Y)
]

ここで、(P(X, Y)) は (X) と (Y) の同時確率を示します。この式を展開すると、次のようになります。

[
= a \sum X P(X, Y) + b \sum Y P(X, Y) = aE[X] + bE[Y]
]

以上により、期待値の線形性が確認されました。

4.2 独立な確率変数での加法性

もう一つの期待値の重要な特性は「独立な確率変数の加法性」です。独立な確率変数 (X) と (Y) に対して、以下の性質が成り立ちます。

[
E[X + Y] = E[X] + E[Y]
]

証明の流れ

この加法性の証明も期待値の定義から出発します。加法の期待値を考察します。

[
E[X + Y] = \sum (X + Y) P(X, Y)
]

この式を展開すると、各確率変数に対する期待値の合計に帰着します。

[
= \sum X P(X) + \sum Y P(Y) = E[X] + E[Y]
]

このようにして、加法性の特性が証明されました。

4.3 期待値と特性関数の関連

期待値は特性関数の微分とも関連しています。この関係により、期待値を他の確率的特性と結びつける編成が可能になります。確率変数 (X) の特性関数は次のように表現されます。

[
E[e^{itX}]
]

特性関数を (t) について微分することで、期待値に関する情報を引き出せます。

証明方法

特性関数を微分すると、期待値との関連が次の様に表されます。

[
E[iXe^{itX}] = \frac{d}{dt} E[e^{itX}]
]

(t=0) のときにこの式を適用すると、期待値 (E[X]) を求めることが可能です。具体的には以下のようになります。

[
E[X] = -i \left. \frac{d}{dt} E[e^{itX}] \right|_{t=0}
]

このように、特性関数を使用することで、期待値を算出する手法が確立されます。

4.4 無限和に関連する期待値

期待値には無限和に関する特性もあります。任意の確率変数の無限和に対して、期待値を次のように計算できます。

[
E\left[\sum_{n=1}^{\infty} X_n\right] = \sum_{n=1}^{\infty} E[X_n]
]

証明の概要

この性質の証明には、収束条件と期待値の線形性を用います。無限和の期待値は、各項の期待値の合計として表せます。

[
E\left[\sum_{n=1}^{\infty} X_n\right] = \sum_{n=1}^{\infty} E[X_n]
]

無限和が収束することが前提であることを考慮することで、この性質が確認されます。

このセクションでは、期待値における主要な特性とその証明を解説しました。期待値の特性を把握することは、確率論や統計学のより複雑な理論を理解するための基盤となるでしょう。

5. 分散の性質と証明

分散は確率変数におけるばらつきを数値として示す重要な指標です。このセクションでは、分散の基本的な性質とそれに関連する証明を詳しく探求します。

分散の基本的な性質

分散には以下のような重要な性質があります。

基本定義に基づく性質:
[
V(X) = E(X^2) – (E(X))^2
]
ここで、(V(X)) は確率変数 (X) の分散を表しています。この式は分散の基本的な説明であり、確率変数の平均との関係を明らかにします。
定数の加算に関する性質:
[
V(X + c) = V(X)
]
ここで、(c) は任意の定数を示します。この性質は、分散が定数を加えた場合に変化しないことを表しています。
スカラー倍に関する性質:
[
V(cX) = c^2 V(X)
]
ここで、(c) は任意の実数です。この性質は、確率変数にスカラーを掛けることによる分散の変化を示します。
二つの確率変数の和に関する性質:
[
V(X + Y) = V(X) + V(Y) + 2Cov(X, Y)
]
ここで、(Cov(X, Y)) は確率変数 (X) と (Y) の共分散を表します。この性質は、特に独立した確率変数の和における分散の計算に重要な役割を果たします。

各性質の証明

これから、これらの性質の証明を簡潔に示します。

1. 分散の定義

分散の基本的な定義である (V(X) = E(X^2) – (E(X))^2) は、確率変数の散らばりを測定するための基礎的な手法です。

2. 定数加算の不変性

分散が定数の加算で変わらないことを証明します。

[
V(X + c) = E[(X + c – E(X + c))^2] = E[(X – E(X))^2] = V(X)
]

この結果から、任意の定数を加えても分散には影響を与えないことが確認できます。

3. スカラー倍の影響

確率変数にスカラー倍をしたときの分散の変化を考えます。

[
V(cX) = E[(cX – E(cX))^2] = E[(cX – cE(X))^2] = c^2E[(X – E(X))^2] = c^2V(X)
]

この式から、スカラーの二乗が分散に与える影響が分かります。

4. 確率変数の和に対する証明

確率変数 (X) と (Y) の分散に関する性質は次のように展開されます。

[
V(X + Y) = E[(X + Y – E(X + Y))^2] = E[(X – E(X) + Y – E(Y))^2]
]

この式を展開することで、共分散の項が生じ、確率変数間の相関の影響が明らかになります。

証明の総括

分散の性質を理解することは、確率論の基盤を学ぶうえで極めて重要です。これらの証明を通じて、分散の概念が一層明確になり、実際のデータ分析や統計手法の応用にも活かすことが可能になります。各性質について深く理解し、それを実務に応用することが求められます。

まとめ

期待値と分散は、確率論と統計学における基本的かつ重要な概念です。期待値は確率変数の「平均的な値」を示し、分散は「ばらつき」を表す指標であり、これらを理解することで、データ分析や意思決定における予測精度が向上します。本ブログでは、これらの概念の定義、計算方法、性質について詳しく解説しました。これらの知識を習得することで、より深い統計的理解と柔軟な応用が可能になるでしょう。確率論と統計学の基礎を押さえ、実践的な場面で活用することが重要です。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

AI見習い

　大学卒業後、デジタルマーケティング企業に入社し、BtoBマーケティングのコンサルに従事。200社以上のコンサルティング経験に加え、ウェビナー・ワークショップ・Academyサイトの立ち上げに携わり、年間40件のイベント登壇と70件の学習コンテンツ制作を担当。
　その後、起業を志す中で、施策先行型のサービス展開ではなく企業の本質的な体質改善を促せる事業を展開できるよう、AI/DX分野において実績のあるAIソリューション企業へ転職。
　現在はAIソリューション企業に所属しながら、個人としてもAI×マーケティング分野で”未経験でもわかりやすく”をコンセプトに情報発信活動やカジュアル相談を実施中。