混同行列の評価方法マスター講座：機械学習モデルの性能を徹底解析！

2024年11月24日

機械学習モデルの性能評価は非常に重要な課題です。その中でも、混同行列(Confusion Matrix)は分類モデルの評価に欠かせない基本ツールとなります。適切な評価指標を選び、モデルの強みと改善点を把握することができます。本ブログでは、混同行列の仕組みと適合率、再現率などの評価指標について徹底的に解説します。機械学習の理解を深め、より高精度なモデル構築を目指しましょう。

1. 混同行列とは何か?2値分類と多クラス分類の違い

混同行列の定義

混同行列（Confusion Matrix）とは、分類問題においてモデルが予測した結果と実際の結果を整理した表のことです。この行列は、モデルがクラスをどのように予測したのか、どのクラスを正しく認識し、どのクラスを誤って認識したのかを可視化するための重要なツールです。

2値分類とその特徴

2値分類は、言うなれば「ネコかネコ以外か」のように、二つのクラスに分けるタスクです。具体的には次のような状況が考えられます。

真陽性 (True Positive): 正しくネコと予測されたネコの数
偽陽性 (False Positive): ネコ以外のものを誤ってネコと予測した数
真陰性 (True Negative): 正しくネコ以外と予測されたネコ以外の数
偽陰性 (False Negative): ネコを誤ってネコ以外と予測した数

このように、混同行列では各クラスにおける予測結果を整理し、モデルの性能を評価します。

多クラス分類と違い

一方、多クラス分類は、例えば「犬、猫、鳥」のように、3つ以上のクラスにデータを分類するタスクです。この場合、混同行列はより複雑になり、各クラスに対して真陽性、偽陽性などが計算されます。

多クラス分類の混同行列は以下のように表されることが一般的です：

	猫	犬	鳥
猫	TP	FP	FP
犬	FN	TN	FN
鳥	FN	FN	TN

このように、各クラスが行と列で表され、モデルがどのように誤認識を行ったかを一目で確認できるようになります。

混同行列の重要性

混同行列は、モデルのパフォーマンスを評価する際に非常に有用です。特に、単に「正解率」を見るだけでは分からない部分も多く、誤認識のパターンを把握することで、モデルの改善点を見つける手助けとなります。また、どのクラスが特に誤認識されやすいのかを把握することで、さらなるデータ収集やラベル付けの見直しが必要になります。

このように、混同行列は2値分類と多クラス分類の違いを理解し、各クラスの予測結果を視覚的に整理するための基盤を提供します。これをもとに、後の評価指標について詳しく考察していくことが重要です。

2. 混同行列の解説と正解率の落とし穴

混同行列の基本構造

混同行列は、機械学習モデルの性能を視覚的に表現する強力なツールです。通常、2値分類問題において使用され、以下の4つの指標を含んでいます：

真陽性 (TP): モデルが陽性と予測し、実際も陽性だったケース。
真陰性 (TN): モデルが陰性と予測し、実際も陰性だったケース。
偽陽性 (FP): モデルが陽性と予測したが、実際は陰性だったケース。
偽陰性 (FN): モデルが陰性と予測したが、実際は陽性だったケース。

これらの値は行列として整理され、モデルの判断の正確性や偏りを視覚化します。

正解率の落とし穴

混同行列を使用すると、多くの指標を計算できる一方で、正確な評価には注意が必要です。特に、正解率 (Accuracy) はしばしば見落とされがちな落とし穴を持っています。

正解率とは？

正解率は、モデルが正しく予測したサンプルの割合を示します。計算式は次の通りです：

[
\text{正解率} = \frac{TP + TN}{TP + TN + FP + FN}
]

一見すると、正解率が高ければモデルの性能が良いように思えます。しかし、データが偏っている場合（例えば、陽性サンプルが少ない場合）には、正解率が高い状態でもモデルが実際には無意味な場合があります。

正解率の誤解

たとえば、サンプルの95%が陰性で5%が陽性の場合を想定してみましょう。仮にモデルがすべてを陰性と予測した場合、正解率は95%となります。しかし、このモデルは陽性を一切検出していないため、実用的には無意味です。このように、正解率だけに依存してモデルの性能を判断することは危険です。

代替指標の必要性

正解率の問題点を考慮すると、他の指標、たとえば適合率 (Precision) や再現率 (Recall) を用いた評価が必要になってきます。これによって、モデルの予測がどれだけ信頼できるかをより正確に理解することができるのです。

適合率や再現率は、それぞれ以下のように定義されます：

適合率 (Precision):
[
\text{適合率} = \frac{TP}{TP + FP}
]
再現率 (Recall):
[
\text{再現率} = \frac{TP}{TP + FN}
]

これらの指標を使用することで、モデルの正しい陽性判定の能力や、実際の陽性をどれだけ検出できるかを評価することができます。このように、混同行列を使用することで、モデルの性能を包括的に評価し、より適切な判断を下すことが可能となります。

3. 適合率と再現率の計算方法と使い分け

モデルの性能を評価する上で、適合率と再現率は重要な指標となります。これらを正しく理解し、それぞれの計算方法を知っておくことで、評価を適切に行うことが可能です。

適合率の定義と計算方法

適合率（Precision）は、モデルが陽性と判断したデータのうち、どれだけが実際に陽性であったかを示す指標です。適合率の計算式は次のようになります。

適合率 = TP / (TP + FP) × 100

ここで、TP（真陽性）は正確に陽性と判断されたサンプルの数、FP（偽陽性）は誤って陽性と識別されたサンプルの数です。適合率が高い場合、モデルが陽性と予測した結果が信頼できることを示します。

再現率の定義と計算方法

再現率（Recall）は、実際に陽性であるデータの中で、モデルが正しく陽性と判定できた割合を指します。再現率の計算式は以下の通りです。

再現率 = TP / (TP + FN) × 100

ここにおいて、FN（偽陰性）は実際には陽性であるにも関わらずモデルが陰性と判断したサンプルの数です。再現率が高いということは、モデルが実際の陽性を見逃していないことを意味します。

適合率と再現率を重視する状況

適合率と再現率の重要性は、具体的な状況によって異なります。

適合率を重視すべきケース

詐欺検出のように、誤って正常な取引を陽性と判断する危険がある場合、適合率を優先して高めることが望まれます。この場合、誤った陽性判定を減少させることが求められます。

再現率を重視すべきケース

医療分野、特に患者の診断においては、実際に病気である患者を見逃すことが深刻な結果を招く可能性があるため、再現率が特に重視されます。がん検査などでは、陽性患者を見逃さないことが重要です。

適合率と再現率のバランス

適合率と再現率の間にはトレードオフの関係があり、一方を改善するともう一方が低下する場合があります。そのため、使用するシナリオに応じて、どちらの指標を重視するか慎重に決定する必要があります。このバランスを取ることによって、より効果的なモデル評価を実現することができます。

具体的な計算例

具体的な例を用いて、適合率および再現率を計算してみましょう。

真陽性（TP）: 60
偽陽性（FP）: 10
偽陰性（FN）: 20

この場合の適合率は次のように計算されます。

適合率 = 60 / (60 + 10) × 100 = 85.71%

再現率は次のように求められます。

再現率 = 60 / (60 + 20) × 100 = 75.00%

この計算により、モデルは適合率が比較的高いものの、再現率には改善の余地があることが示されます。このように、実際の数値をもとにモデルの強みや弱点を把握することが重要です。

4. F値による再現率と適合率の統合的な評価

機械学習のモデル評価において、再現率と適合率は不可欠な指標です。しかし、これらはしばしば対立する特性を持ち、片方を重視することでもう片方が犠牲になってしまうことがあります。そこで、両者を統合的に考慮できる指標が必要となります。その役割を果たすのがF値です。

F値の基本的な理解

F値は、再現率と適合率の調和平均によって算出されます。この数学的な表現は次の通りです。

[
F値 = \frac{2 \times (適合率 \times 再現率)}{適合率 + 再現率}
]

この数式から分かるように、F値は再現率と適合率の双方を反映し、どちらか一方の数値が低くなると、F値もそれに応じて低くなります。

再現率と適合率のバランス

再現率を優先すると、モデルは多くの陽性サンプルを捉えることができ、見逃しが少なくなりますが、同時に誤陽性（誤った陽性予測）が増える可能性があります。一方、適合率を向上させようとすると、陽性と判断する基準が厳格になり、結果として見逃しが発生することが多くなります。このように、これらの指標はしばしばトレードオフの関係にあります。

具体例による考察

例えば、ある疾病の診断モデルを考えてみましょう。がん患者を見落とさないことが求められる場合、再現率を高めることが重要です。しかし、その結果として健康な人を間違って陽性と判断するケースが増加します。逆に、適合率を優先させると、より安全な陽性予測を行えるものの、実際にがん患者を見逃すリスクが高まります。このような複雑な評価を行う上で、F値が役立ちます。

F値の意義と利点

F値は、再現率と適合率を単に平均するのではなく、両者のバランスを考慮に入れています。これにより、モデルの実際のパフォーマンスを総合的に評価するのに役立ちます。特にクラス間の分布が不均等なデータセットや、特定のクラスが特に重要である場合には、F値が表示する性能が非常に有用です。

F値の最大のメリットは、評価が統一されています。再現率や適合率は異なる側面からの評価ですが、それらを統一された指標であるF値としてまとめることで、比較が容易になります。また、F値は0から1の範囲で表され、値が大きいほどモデルの性能が良好であると評価されます。

このように、F値は機械学習モデルの性能を評価する上で非常に重要な指標となり、再現率と適合率の調和を図るための便利な手段と言えるでしょう。モデルの運用にあたっては、F値を考慮し、最適なバランスを見極めることが求められます。

5. マクロ平均とマイクロ平均による多クラス評価

マクロ平均とマイクロ平均は、多クラス分類モデルの性能を評価する際に非常に重要な指標です。これらの指標は、それぞれ異なる方法でクラス間のパフォーマンスを測定するため、使い方に応じて適切に選択する必要があります。

マクロ平均の理解

マクロ平均は、各クラスごとに評価指標（適合率、再現率、F1スコアなど）を独立して計算し、その値を平均化する手法です。この方法の特徴は、全てのクラスを等しく扱う点です。具体的には、次の手順で計算が行われます：

それぞれのクラスについて、評価指標を算出します。
各クラスから得られた評価値を合計し、クラスの数で割ることで平均値を求めます。

マクロ平均は、特に少数のデータしか存在しないクラスの影響を強調するため、クラス間のパフォーマンスの不均衡を明らかにすることができます。

マイクロ平均の特徴

マイクロ平均は、全てのクラスの予測結果をまとめて評価指標を計算する方式です。この手法では、全クラスの真陽性、偽陽性、偽陰性を合算し、その集約したデータを基に指標を導出します。計算手順は次の通りです：

各クラスの真陽性（TP）、偽陽性（FP）、偽陰性（FN）を集計し、総合的な混同行列を作成します。
この混同行列を使用して、適合率や再現率、F1スコアなどを計算します。

マイクロ平均は、全体的なデータの分布を反映するため、大量のデータを持つクラスの影響をより強く取り入れることができ、特にクラス間でデータ数に差がある場合に適しています。

どちらを選ぶべきか？

マクロ平均とマイクロ平均はそれぞれの強みを持ち、特定のシナリオに合わせて使い分けることが重要です。例えば、

マクロ平均が効果的な状況としては、少ないデータしか持たないクラスのパフォーマンスを重視する際や、全クラスのパフォーマンスのバランスを調べるときがあります。
マイクロ平均は、全体的なモデルのパフォーマンスを確認したり、クラス数が不均衡な場合にも適しています。

このように、マクロ平均とマイクロ平均はそれぞれ異なる視点から多クラス評価を行うため、評価対象や目的に応じて適切に選択することが求められます。

まとめ

混同行列は、機械学習モデルの性能評価に欠かせない重要なツールです。2値分類と多クラス分類の違いを理解し、正解率の落とし穴に注意を払うことが肝心です。適合率と再現率の使い分けは状況に応じて検討し、F値による総合評価も有効です。さらに、マクロ平均とマイクロ平均を適切に使い分けることで、多クラス分類問題におけるモデルの性能をより詳細に分析できます。これらの指標を組み合わせることで、機械学習モデルの改善に役立つ洞察が得られるでしょう。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

AI見習い

　大学卒業後、デジタルマーケティング企業に入社し、BtoBマーケティングのコンサルに従事。200社以上のコンサルティング経験に加え、ウェビナー・ワークショップ・Academyサイトの立ち上げに携わり、年間40件のイベント登壇と70件の学習コンテンツ制作を担当。
　その後、起業を志す中で、施策先行型のサービス展開ではなく企業の本質的な体質改善を促せる事業を展開できるよう、AI/DX分野において実績のあるAIソリューション企業へ転職。
　現在はAIソリューション企業に所属しながら、個人としてもAI×マーケティング分野で”未経験でもわかりやすく”をコンセプトに情報発信活動やカジュアル相談を実施中。