Die Verwechslungsmatrix und der Precision-Recall Tradeoff
Die Verwechslungsmatrix und das Precision-Recall-Diagramm helfen Ihnen dabei, die Genauigkeit Ihres Modells zu beurteilen.
Konfusionsmatrix
Angenommen, Sie überlegen, Kunden, die wahrscheinlich zurückkehren werden, einen zusätzlichen Zuckerwürfel zu geben. Aber natürlich möchten Sie vermeiden, dass Zuckerwürfel unnötig verschenkt werden, also geben Sie sie nur an Kunden, die laut Modell mindestens 30 % zurückgeben werden.
Wenn Sie neue Kunden haben …
Kunden-ID | Alter | Geschlecht |
---|---|---|
… | … | … |
324 | 54 | Weiblich |
325 | 23 | Weiblich |
326 | 62 | Männlich |
327 | 15 | Weiblich |
… | … | … |
…Sie können unser Regressionsmodell verwenden, um vorherzusagen, wie wahrscheinlich es wäre, dass sie zurückkehren…
Kunden-ID | Alter | Geschlecht | Modellgeschätzte Rücktrittswahrscheinlichkeit |
---|---|---|---|
… | … | … | … |
324 | 54 | Weiblich | 34 % |
325 | 23 | Weiblich | 24 % |
326 | 62 | Männlich | 65 % |
327 | 15 | Weiblich | 7 % |
… | … | … | … |
…und beschließen Sie, Kunden mit einer Wahrscheinlichkeit von mindestens 30 % als “Wird zurückgeben” zu klassifizieren und ihnen Zuckerwürfel zu geben:
Kunden-ID | Alter | Geschlecht | Modellgeschätzte Rücktrittswahrscheinlichkeit | Modellprognose (30% Cutoff) |
---|---|---|---|---|
… | … | … | … | … |
324 | 54 | Weiblich | 34 % | Werde zurückgegeben |
325 | 23 | Weiblich | 24 % | Gewonnen |
326 | 62 | Männlich | 65 % | Werde zurückgegeben |
327 | 15 | Weiblich | 7 % | Gewonnen |
… | … | … | … | … |
Um jedoch besser zu verstehen, wie genau unser Modell ist, können Sie das Modell auf die Datenpunkte anwenden, die Sie bereits haben, wo Sie bereits wissen, ob der Kunde letztendlich zurückgekommen ist…
Kunden-ID | Alter | Geschlecht | Modellgeschätzte Rücktrittswahrscheinlichkeit | Modellprognose (30% Cutoff) |
Zurückgegeben |
---|---|---|---|---|---|
1 | 21 | Männlich | 44 % | Werde zurückgegeben | Zurückgegeben |
2 | 34 | Weiblich | 4 % | Gewonnen | Zurückgegeben |
3 | 13 | Weiblich | 65 % | Werde zurückgegeben | Haben Sie nicht |
4 | 25 | Weiblich | 27 % | Gewonnen | Haben Sie nicht |
… | … | … | … | … | … |
…und beurteilen Sie, wie genau die Daten sind…
Kunden-ID | Alter | Geschlecht | Modellgeschätzte Rücktrittswahrscheinlichkeit | Modellprognose (30% Cutoff) |
Zurückgegeben | Prognosegenauigkeit |
---|---|---|---|---|---|---|
1 | 21 | Männlich | 44 % | Werde zurückgegeben | Zurückgegeben | Korrigieren |
2 | 34 | Weiblich | 4 % | Gewonnen | Zurückgegeben | Fehlerhaft |
3 | 13 | Weiblich | 65 % | Werde zurückgegeben | Haben Sie nicht | Fehlerhaft |
4 | 25 | Weiblich | 27 % | Gewonnen | Haben Sie nicht | Korrigieren |
… | … | … | … | … | … | … |
…und dann weiter aufschlüsseln in die folgenden Kategorien:
- Richtig positiv: Vom Modell als “Will return” klassifiziert und hatte tatsächlich “Returned” in Wirklichkeit.
- Falsch positiv: Wird vom Modell als „Wird zurückgeben“ klassifiziert, aber eigentlich „Nicht zurückgekehrt“ in Wirklichkeit.
- True Negativ: Klassifiziert vom Modell als „Won’t return“ und in Wirklichkeit als „Didn’t return“.
- False Negativ: Wird vom Modell als „Gewonnen, nicht zurückgegeben“ klassifiziert, hatte aber tatsächlich „Zurückgegeben“.
Kunden-ID | Alter | Geschlecht | Modellgeschätzte Rücktrittswahrscheinlichkeit | Modellprognose (30% Cutoff) |
Zurückgegeben | Prognosegenauigkeit | Genauigkeitstyp |
---|---|---|---|---|---|---|---|
1 | 21 | Männlich | .44 | Werde zurückgegeben | Zurückgegeben | Korrigieren | Wahr positiv |
2 | 34 | Weiblich | 0,04 | Gewonnen | Zurückgegeben | Fehlerhaft | Falsch negativ |
3 | 13 | Weiblich | .65 | Werde zurückgegeben | Haben Sie nicht | Fehlerhaft | Falsch positiv |
4 | 25 | Weiblich | 0,27 | Gewonnen | Haben Sie nicht | Korrigieren | Wahr negativ |
… | … | … | … | … | … | … | … |
Schließlich könnten Sie all diese Arbeiten in Präzision und Rückruf zusammenfassen.
Genauigkeit:
- Welcher Anteil von denen, die als “Wird zurückkehren” eingestuft sind, hat tatsächlich geholfen?
- Wahr positiv / (wahr positiv + falsch positiv)
Rückruf:
- Rückruf: Von denen, die eigentlich “zurückgekehrt” sind, welcher Anteil wurde so eingestuft?
- Wahr positiv / (wahr positiv + falsch negativ)
Bessere Modelle haben höhere Werte für Präzision und Rückruf.
- Man kann sich ein Modell mit 94% Präzision (fast alle als “Will return” tun eigentlich) und 97% Rückruf (fast alle, die “Returned” als solche identifiziert haben) vorstellen.
- Ein schwächeres Modell könnte 95 % Genauigkeit haben, aber 50 % Rückruf (wenn es jemanden als „Will return“ identifiziert, ist es weitgehend korrekt, aber es wird als „Won’t return“ die Hälfte derjenigen genannt, die tatsächlich später „Return“ getan haben).
- Oder vielleicht hat das Modell 60% Präzision und 60% Recall.
Diese Zahlen sollten Ihnen einen guten Überblick darüber geben, wie genau Ihr Modell ist, auch wenn Sie nie Prognosen erstellen möchten.
Genauigkeit vs. Rückrufkurve
Innerhalb eines Modells können Sie auch die Präzision oder den Rückruf hervorheben. Vielleicht sind Sie bei Zuckerwürfeln sehr kurz und möchten sie nur an Personen weitergeben, von denen Sie sehr zuversichtlich sind, dass sie zurückkehren werden. Daher entscheiden Sie sich, sie nur Kunden zu geben, die 60 % wahrscheinlich zurückgeben (statt 30 %).
Unsere Präzision wird steigen, denn Sie geben nur Zuckerwürfel aus, wenn Sie wirklich zuversichtlich sind, dass jemand „Werden zurückkehren“. Unser Rückruf wird zurückgehen, denn es wird viele Leute geben, die letztendlich “zurückkehren”, denen Sie nicht sicher genug waren, einen Zuckerwürfel zu geben.
Präzision: 62% —> 80%
Recall: 60% —> 30%
Oder wenn Sie sich reich an Zuckerwürfeln fühlen, könnten Sie sie jedem geben, der mindestens 10% Chance hat, ein Rückkehrer zu sein.
Genauigkeit: 62% —> 40%
Recall: 60% —> 90%
Mit diesem Diagramm können Sie diesen Kompromiss zwischen Präzision und Rückruf nachvollziehen:
Es kann hilfreich sein, einen Punkt im Diagramm auszuwählen, der eine schöne Mischung aus Präzision und Rückruf darstellt, und dann ein Gefühl dafür zu gewinnen, wie genau das Modell an diesem Punkt ist.