Dopo la costruzione di una macchina modello di apprendimento, il passo successivo è quello di valutare le prestazioni dei modelli e capire quanto è buono il nostro modello è contro un modello di riferimento., La metrica di valutazione da utilizzare dipende dal tipo di problema che si sta tentando di risolvere, se si tratta di un problema supervisionato o non supervisionato e se si tratta di un’attività di classificazione o regressione.
In questo post parlerò di due importanti metriche di valutazione utilizzate per i problemi di regressione ed evidenzierò la differenza fondamentale tra loro.
R-quadrato, noto anche come determinazione del coefficiente, definisce il grado in cui la varianza nella variabile dipendente (o target) può essere spiegata dalla variabile indipendente (caratteristiche).,
Capiamo questo con un esempio — diciamo che il valore R-quadrato per un particolare modello risulta essere 0.7. Ciò significa che il 70% della variazione nella variabile dipendente è spiegato dalle variabili indipendenti.
Idealmente, vorremmo che le variabili indipendenti siano in grado di spiegare tutte le variazioni nella variabile di destinazione. In questo scenario, il valore r-quadrato sarebbe 1. Quindi possiamo dire che più alto è il valore r-quadrato, meglio nel modello.,
Quindi, in termini semplici, maggiore è la R al quadrato, maggiore è la variazione spiegata dalle variabili di input e quindi migliore è il tuo modello. Inoltre, l’r-quadrato andrebbe da 0 a 1. Ecco la formula per calcolare R-squared –
L’R-squared viene calcolato dividendo la somma dei quadrati di residui dal modello di regressione (dato da SSres) per la somma totale dei quadrati di errori dal modello medio (dato da SStot) e quindi sottrarlo da 1.,
Uno svantaggio di r-squared è che si assume ogni variabile che aiuta a spiegare la variazione della destinazione, che potrebbe non essere sempre vero. Ad esempio, se aggiungiamo nuove funzionalità ai dati (che possono o non possono essere utili), il valore r-quadrato per il modello aumenterebbe o rimarrebbe lo stesso ma non diminuirebbe mai.
Questo è curato da una versione leggermente modificata di r-squared, chiamata r-squared regolata.,
Aggiustato R-quadrato
Simile a R-quadrato, l’aggiustato R-quadrato misura la variazione della variabile dipendente (o target), spiegata solo dalle caratteristiche che sono utili per fare previsioni. A differenza di R-squared, l’R-squared regolato ti penalizzerebbe per l’aggiunta di funzionalità che non sono utili per prevedere il target.
Cerchiamo di capire matematicamente come questa funzione è alloggiata in R-Quadrato regolato., Ecco la formula per la adjusted r-squared
R^2 è r quadrato calcolato, N è il numero di righe e M è il numero di colonne. All’aumentare del numero di funzionalità, il valore nel denominatore diminuisce.
- Se l’R2 aumenta di un valore significativo, allora l’r-quadrato aggiustato aumenterebbe.
- Se non ci sono cambiamenti significativi in R2, l’r2 corretto diminuirebbe.