Na het bouwen van een machine learning model, de volgende stap is het evalueren van het model van de prestaties en begrijpen hoe goed is ons model tegen een benchmark model., De te gebruiken evaluatie-maatstaf hangt af van het type probleem dat u probeert op te lossen —of het een probleem is onder toezicht of zonder toezicht, en of het een classificatie of een regressietaak is.
In dit artikel ga ik het hebben over twee belangrijke evaluatie metrics gebruikt voor regressieproblemen en de nadruk leggen op het belangrijkste verschil tussen hen.
R-kwadraat, ook bekend als de coëfficiënt bepaling, bepaalt de mate waarin de variantie in de afhankelijke variabele (of doel) kan worden verklaard door de onafhankelijke variabele (kenmerken).,
laten we dit begrijpen met een voorbeeld — stel dat de R-kwadraatwaarde voor een bepaald model 0,7 is. Dit betekent dat 70% van de variatie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabelen.
idealiter zouden we willen dat de onafhankelijke variabelen in staat zijn om alle variatie in de doelvariabele te verklaren. In dat scenario zou de R-kwadraatwaarde 1 zijn. Dus kunnen we zeggen dat hoger de R-kwadraat waarde, beter in het model.,
dus, in eenvoudige termen, hoger de R kwadraat, de meer variatie wordt verklaard door uw input variabelen en dus beter is uw model. Ook zou de R-kwadraat variëren van 0 tot 1. Hier is de formule voor het berekenen van R-kwadraat –
Het R-kwadraat wordt berekend door de som van de kwadraten van reststoffen uit het regressiemodel (gegeven door SSRE ‘ s) te delen door de totale som van de kwadraten van fouten uit het gemiddelde model (gegeven door SStot) en deze vervolgens af te trekken van 1.,