精度と再現率のトレードオフを制する！機械学習モデル評価の極意

2024年11月26日

機械学習の分類モデルを構築する際、評価指標の選択は非常に重要です。精度と再現率はよく使われる指標ですが、両者にはトレードオフの関係があります。本ブログでは、精度と再現率の違いを理解した上で、そのトレードオフ関係を数式で説明し、最適なモデル性能を実現するための調整方法についてご紹介します。

1. 精度と再現率の違い – 機械学習でよく使われる評価指標を徹底解説

機械学習における評価指標の重要性

機械学習のモデルを開発する際には、その性能を正確に評価することが不可欠です。特に、分類モデルにおいては「精度（Accuracy）」と「再現率（Recall）」が頻繁に用いられますが、これらはそれぞれ異なる側面を評価します。

精度とは？

精度は、モデルが予測した結果の中で、実際に正しかったものの割合を示す指標です。具体的には以下の式で表されます。

[
\text{精度} = \frac{\text{真陽性} + \text{真陰性}}{\text{全予測数}}
]

精度が高いほど、モデルの予測が正しい可能性が高いことを意味します。しかし、データセットに不均衡がある場合、精度だけではモデルの性能を正確に把握することができません。例えば、大多数のデータが陽性である場合、全てを陽性と予測するだけで高い精度を得られますが、これは実際には無意味な予測です。

再現率とは？

再現率は、実際の陽性サンプルの中で、モデルが正しく陽性と予測したサンプルの割合を示します。この指標は特に、陽性を見逃すリスクが高いシナリオで重要です。再現率は次のように定義されます。

[
\text{再現率} = \frac{\text{真陽性}}{\text{真陽性} + \text{偽陰性}}
]

再現率が高いモデルは、実際に陽性であるインスタンスを多く正しく予測できていることを示しますが、同時に偽陽性も多くなる可能性があります。このバランスが評価の鍵となります。

精度と再現率の使い分け

精度と再現率は、それぞれ異なる情報を提供するため、使い分けが必要です。例えば、医療診断においては再現率が非常に重要です。病気を見逃すことが許されないため、再現率を重視する必要があります。一方で、電子メールのスパムフィルターのように、誤検知が問題となる場合には精度を重視することが多いです。

トレードオフの理解

精度と再現率の間にはしばしばトレードオフの関係があります。一方を高めようとすると、もう一方が低下することが一般的です。このため、モデル選定の際には、具体的なビジネス課題やデータの特性に基づいて、どちらの指標を重視するかを決定することが重要です。

2. 精度と再現率はトレードオフの関係 – 数式で理解する背景理論

精度と再現率の基本概念

精度（Accuracy）と再現率（Recall）は、機械学習モデルの性能を評価する上での重要な指標です。精度は、全体の予測の中で正しく予測できた割合を示します。一方、再現率は、実際の陽性ケースの中でどれだけの割合を正しく予測できたかを示します。これら二つの指標は、特にクラス不均衡の存在するデータセットにおいて、その重要性が一層増します。

精度と再現率の数式

それぞれの指標は以下の数式で表されます：

精度
[
\text{精度} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}}
]
再現率
[
\text{再現率} = \frac{\text{TP}}{\text{TP} + \text{FN}}
]

ここで、TPは真陽性（True Positive）、TNは真陰性（True Negative）、FPは偽陽性（False Positive）、FNは偽陰性（False Negative）を表します。

トレードオフの理解

これらの指標がトレードオフの関係にある理由は、モデルのしきい値（Threshold）を調整することによって、精度と再現率が互いに影響しあうからです。しきい値を低く設定すると、より多くのケースが陽性と予測され、再現率は高くなる一方で、精度は低下します。なぜなら、多くの偽陽性が増えるからです。逆に、しきい値を高く設定すれば、多くの真陽性が見逃されるため、再現率は低くなりますが、精度は向上します。

数式でのトレードオフの例

例えば、次のように混同行列が与えられたとします：

	実際陽性 (Positive)	実際陰性 (Negative)
予測陽性 (Positive)	TP = 20	FP = 5
予測陰性 (Negative)	FN = 5	TN = 100

この場合、精度と再現率は次のように計算できます。

精度の計算：
[
\text{精度} = \frac{20 + 100}{20 + 100 + 5 + 5} = \frac{120}{130} \approx 0.923 \quad (92.3\%)
]
再現率の計算：
[
\text{再現率} = \frac{20}{20 + 5} = \frac{20}{25} = 0.8 \quad (80\%)
]

この状況では、精度が高い一方で再現率はそれほどではないことがわかります。

しきい値による調整の影響

次に、しきい値の設定を変更することで、どう両者が影響しあうかを見ていきましょう。しきい値を極端に下げると、例えば次のような混同行列が得られます。

	実際陽性 (Positive)	実際陰性 (Negative)
予測陽性 (Positive)	TP = 25	FP = 50
予測陰性 (Negative)	FN = 0	TN = 55

この場合、精度と再現率は次のように変化します。

精度の計算：
[
\text{精度} = \frac{25 + 55}{25 + 55 + 50 + 0} = \frac{80}{130} \approx 0.615 \quad (61.5\%)
]
再現率の計算：
[
\text{再現率} = \frac{25}{25 + 0} = 1 \quad (100\%)
]

この例からもわかるように、しきい値を下げることで再現率が向上したが、精度は低下しました。このように、精度と再現率はトレードオフの関係にあることが数式からも明確に示されています。

3. トレードオフを上手く調整する方法 – 予測モデルの性能を最適化する

3.1 しきい値を利用した調整

トレードオフを調整する上で、最も直接的な方法は「しきい値」の設定です。しきい値とは、モデルが予測した確率に基づいて陽性または陰性と判断するための基準値です。しきい値を変化させることで、再現率や適合率を調整することができます。

例えば、しきい値を低く設定することで、多くのデータポイントを陽性と判断しますが、この場合は再現率が高くなる一方で、適合率が低下する傾向があります。一方で、しきい値を高く設定すると、モデルは非常に自信がある場合のみ陽性と判断するため、適合率は上がりますが再現率は下がります。このように、しきい値の設定によって、両者のバランスを調整することが可能です。

3.2 F値の活用

再現率と適合率のバランスを保つためのもう一つの方法は、F値を使用することです。F値は、再現率と適合率の調和平均を計算したもので、両者のトレードオフを数値的に評価するのに役立ちます。特にF1スコアは、再現率と適合率が等しく重要視される場合に便利な指標です。

F1スコアを最大化する方向でモデルをチューニングすることで、両者の絶妙なバランスを維持することが可能になります。このアプローチは、特にクラス不均衡なデータセットで効果的です。

3.3 ビジネスニーズの明確化

モデルのチューニングには、ビジネスニーズの理解が欠かせません。適合率重視や再現率重視は、ビジネスのコンテキストに依存するため、事前に優先順位を付けることが重要です。例えば、詐欺検出のようなフレームでは、再現率が重要視されますが、製品推奨では適合率が重視される可能性があります。

具体的なビジネスゴールに応じて、しきい値やF値に基づいた調整を行うことで、より効果的なモデルを構築することができます。

3.4 クロスバリデーションの使用

モデルの調整においては、クロスバリデーションを活用することでより信頼性の高い評価が可能になります。異なるデータセットに対してモデルを訓練し、得られた性能指標に基づいてトレードオフを調整することを繰り返すことで、汎化性能を向上させることができます。このプロセスによって、過学習を防ぎながら、精度や再現率の最適化が進むことになります。

3.5 指標の可視化と分析

最後に、トレードオフを調整する際には各評価指標を可視化することが非常に有効です。適合率と再現率の両者をプロットして、シンプルに可視化することで、どちらを重視した調整が必要かを直感的に理解できます。このビジュアルを利用して、しきい値の調整やモデルの選択を行うことで、より理想的なパフォーマンスを引き出すことが可能です。

4. 精度と再現率の使い分け – ビジネス課題に合わせた指標選択

機械学習モデルを評価する際、精度と再現率は非常に重要な指標ですが、どちらを優先すべきかはビジネスの特性や課題によって異なります。このセクションでは、それぞれの指標の特性や適切な使い分けについて詳しく見ていきます。

精度（Precision）の重要性

精度は、モデルが陽性と予測したデータのうち、実際に陽性である割合を示します。この指標が重要になるのは、次のような場面です。

誤分類による損失が大きい場合: たとえば、不正検知システムにおいて、正常な取引を不正だと誤って分類することは、顧客体験を損ない、ビジネスにマイナスの影響を与える可能性があります。このような場合、精度を優先することで、誤検知を減少させることができます。
リスクアセスメント: 医療分野では、陽性と診断された患者が実際に病気である確率が非常に重要です。この場合、高い精度を維持することが、患者の安全を守るために欠かせません。

再現率（Recall）の重要性

一方、再現率は、実際に陽性であるデータのうち、モデルがどれだけ正しく陽性と予測できたかを示します。この指標が重要とされるのは、以下のような状況です。

見逃しが重大な結果を招く場合: たとえば、病気の早期発見やセキュリティの脅威を検出する場合は、すべての陽性ケースを把握することが求められます。このため、再現率を高めることが優先されることが多いです。
特定のクラスが稀な場合: 例えば、詐欺検出などでは、詐欺は全体のトランザクションの中で非常に少数派です。この場合、再現率を重視することで、軽視されがちな詐欺事例を見逃すリスクを軽減できます。

ビジネス課題に応じた指標選択

ビジネス課題に合わせて精度と再現率のどちらを優先するか決定する際は、以下のポイントを考慮することが重要です。

影響評価: 精度と再現率のトレードオフを理解し、どの指標が実際のビジネスに与える影響を評価すること。
業界特性: 業界ごとに求められる要件やリスクは異なるため、業界特有の事情も考慮に入れる必要があります。
最小限の基準設定: どちらか一方の指標において、最低限達成すべき基準を設定すると、目標達成に向けた具体的な指針が得られます。

このように、精度と再現率を使い分けることによって、機械学習モデルの特性を最大限に活かし、ビジネスの目的を果たすことが可能になります。

5. 実データを使った精度・再現率の計算例 – わかりやすい実践ケース

概要

このセクションでは、実際のデータを用いて精度（Accuracy）と再現率（Recall）を計算する例を見ていきます。データは架空の病気診断モデルを用い、その診断結果に基づいて指標を算出します。

データセットの設定

仮に、ある病気の診断を行うモデルが以下のような結果を出したとします。

実際の状態	病気あり (陽性)	病気なし (陰性)
診断結果	真陽性 (TP) 5	偽陽性 (FP) 1
	偽陰性 (FN) 2	真陰性 (TN) 12

この表を基に、各指標を計算してみましょう。

精度の計算

精度は以下の式で計算されます。

[
\text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}}
]

実際の値を代入して計算します。

[
\text{Accuracy} = \frac{5 + 12}{5 + 12 + 1 + 2} = \frac{17}{20} = 0.85
]

つまり、このモデルの精度は85%となります。

再現率の計算

再現率は以下の式で計算されます。

[
\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}
]

この場合も同様にして、計算してみましょう。

[
\text{Recall} = \frac{5}{5 + 2} = \frac{5}{7} \approx 0.714
]

再現率は約71.4%となります。

解釈と考察

上記の計算結果を見てみると、モデルの精度が高い一方で、再現率はやや低めであることが分かります。つまり、モデルは多くのインスタンスを正確に分類していますが、実際に病気を持っている患者の中で見逃しているケースも存在します。

この例は、特に病気の診断などの重要な問題においては再現率が鍵となることを示しています。高い精度が必ずしも良いモデルを意味するわけではありません。実際のアプリケーションでは、どちらの指標も重要であるため、ビジネスニーズに応じて適切に評価指標を選ぶ必要があります。

他の指標について

精度と再現率だけでなく、適合率（Precision）などの他の評価指標も考慮することで、モデルの性能をより総合的に評価できます。それぞれの指標の利点や欠点を理解することで、より精緻なモデル評価が可能になります。

次のセクションでは、これらの指標のトレードオフについて詳しく解説していきます。

まとめ

機械学習におけるモデル評価は非常に重要な要素であり、「精度」と「再現率」はその代表的な指標といえます。本記事では、これらの指標の違いや背景理論、トレードオフの関係、そしてビジネス課題に合わせた使い分けについて詳しく解説しました。実データを用いた具体例を示しながら、指標の算出方法と解釈のポイントを明らかにしました。機械学習モデルを開発する際は、ビジネスの目的に応じて精度と再現率のバランスを適切に調整することが不可欠です。本記事で学んだ知識を活かし、ビジネス課題の解決に役立てていただければ幸いです。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

AI見習い

　大学卒業後、デジタルマーケティング企業に入社し、BtoBマーケティングのコンサルに従事。200社以上のコンサルティング経験に加え、ウェビナー・ワークショップ・Academyサイトの立ち上げに携わり、年間40件のイベント登壇と70件の学習コンテンツ制作を担当。
　その後、起業を志す中で、施策先行型のサービス展開ではなく企業の本質的な体質改善を促せる事業を展開できるよう、AI/DX分野において実績のあるAIソリューション企業へ転職。
　現在はAIソリューション企業に所属しながら、個人としてもAI×マーケティング分野で”未経験でもわかりやすく”をコンセプトに情報発信活動やカジュアル相談を実施中。