SVM en Kernel SVM

In dit artikel leer je meer over SVM of Support Vector Machine, dat is een van de meest populaire AI-algoritmen (het is een van de top 10 AI-algoritmen) en over de Kernel Trick, die zich bezighoudt met de niet-lineariteit en hogere dimensies., We zullen onderwerpen als hyperplanes, Lagrange Multipliers, we zullen visuele voorbeelden en code voorbeelden (vergelijkbaar met de code voorbeeld gebruikt in het KNN hoofdstuk) om dit zeer belangrijke algoritme beter te begrijpen.

SVM uitgelegd

De Support Vector Machine is een begeleid leren algoritme meestal gebruikt voor classificatie, maar het kan ook worden gebruikt voor regressie. Het belangrijkste idee is dat op basis van de gelabelde data (trainingsdata) het algoritme probeert het optimale hypervlak te vinden dat kan worden gebruikt om nieuwe datapunten te classificeren. In twee dimensies is het hypervlak een eenvoudige lijn.,

gewoonlijk probeert een leeralgoritme de meest voorkomende kenmerken (wat een klasse van een andere onderscheidt) van een klasse te leren en de classificatie is gebaseerd op die representatieve geleerde kenmerken (dus classificatie is gebaseerd op verschillen tussen klassen). De SVM werkt andersom. Het vindt de meest vergelijkbare voorbeelden tussen de klassen. Dat zijn de dragers.

als voorbeeld, laten we twee klassen beschouwen, appels en citroenen.,

andere algoritmen zullen de meest evidente, meest representatieve kenmerken van appels en citroenen leren, zoals appels groen en afgerond zijn, terwijl citroenen geel zijn en elliptische vorm hebben.

daarentegen zal SVM zoeken naar appels die sterk lijken op citroenen, bijvoorbeeld appels die geel zijn en elliptische vorm hebben. Dit zal een ondersteuningsvector zijn. De andere steun vector zal een citroen vergelijkbaar met een appel (groen en afgerond). Dus andere algoritmen leert de verschillen, terwijl SVM leert overeenkomsten.,

Als we visualiseren het bovenstaande voorbeeld in 2D zal zijn, hebben wij iets als dit:

Als we gaan van links naar rechts, alle voorbeelden worden geclassificeerd als appels tot we bij de gele appel. Vanaf dit punt daalt het vertrouwen dat een nieuw voorbeeld een appel is, terwijl het vertrouwen van de citroenklasse toeneemt., Wanneer het vertrouwen van de citroenklasse groter wordt dan het vertrouwen van de appelklasse, worden de nieuwe voorbeelden geclassificeerd als citroenen (ergens tussen de gele appel en de groene citroen).

Op basis van deze ondersteuningsvectoren probeert het algoritme het beste hypervlak te vinden dat de klassen scheidt. In 2D de hyperplane is een lijn, dus het zou er als volgt uitzien:

Ok, maar waarom deed ik teken de blauwe grens, zoals in de foto hierboven?, Ik zou ook grenzen als deze kunnen tekenen:

in dit geval kunnen we geen rechte lijn vinden om appels van citroenen te scheiden. Dus hoe kunnen we dit probleem oplossen. We zullen de Kerneltruc gebruiken!

het basisidee is dat wanneer een gegevensset onafscheidelijk is in de huidige dimensies, een andere dimensie toevoegt, misschien op die manier zullen de gegevens scheidbaar zijn., Denk er eens over na, het voorbeeld hierboven is in 2D en het is onafscheidelijk, maar misschien is er in 3D een kloof tussen de appels en de citroenen, misschien is er een niveauverschil, dus citroenen zijn op niveau één en citroenen zijn op niveau twee. In dit geval kunnen we gemakkelijk een scheidend hypervlak tekenen (in 3D is een hypervlak een vlak) tussen niveau 1 en 2.

Mapping naar hogere dimensies

om dit probleem op te lossen moeten we niet blindelings een andere dimensie toevoegen, we moeten de ruimte transformeren zodat we dit niveauverschil opzettelijk genereren.,

Mapping van 2D naar 3D

laten we aannemen dat we een andere dimensie toevoegen genaamd X3. Een andere belangrijke transformatie is dat in de nieuwe dimensie de punten worden georganiseerd met behulp van deze formule x12 + x22.

als we het door de X2 + y2 formule gedefinieerde vlak plotten, krijgen we zoiets als dit:

nu moeten we de appels en citroenen (die slechts eenvoudige punten zijn) in kaart brengen naar deze nieuwe ruimte. Denk er goed over na, wat hebben we gedaan?, We gebruikten net een transformatie waarbij we niveaus optelden op basis van afstand. Als je in de oorsprong, dan zullen de punten op het laagste niveau. Als we ons van de oorsprong verwijderen, betekent dit dat we de heuvel beklimmen (vanuit het midden van het vlak naar de marges bewegen) zodat het niveau van de punten hoger zal zijn., Als wij nu overwegen, dat de oorsprong is van de citroen van het centrum, we zullen iets als dit:

Nu kunnen we gemakkelijk scheiden van de twee klassen. Deze transformaties worden kernels genoemd. Populaire kernels zijn: polynomiale Kernel, Gaussiaanse Kernel, radiale basisfunctie (RBF), Laplace RBF Kernel, Sigmoid Kernel, Anove RBF Kernel, etc. (Zie Kernel functies of een meer gedetailleerde beschrijving Machine Learning Kernels).,

Mapping van 1D 2D

een Andere, eenvoudiger voorbeeld in 2D zou zijn:

Na het gebruik van de kernel en nadat alle voor de transformaties krijgen we:

Dus na de transformatie, we kunnen gemakkelijk scheiden van de twee klassen met behulp van slechts een enkele lijn.,

in real life toepassingen zullen we geen eenvoudige rechte lijn hebben, maar we zullen veel krommen en hoge dimensies hebben. In sommige gevallen zullen we geen twee hypervliegtuigen hebben die de gegevens scheiden zonder punten ertussen, dus hebben we wat afwegingen nodig, tolerantie voor uitschieters. Gelukkig heeft het SVM-algoritme een zogenaamde regularisatieparameter om de trade-off te configureren en uitschieters te tolereren.

Tuning Parameters

zoals we in de vorige paragraaf zagen is het kiezen van de juiste kernel cruciaal, want als de transformatie onjuist is, dan kan het model zeer slechte resultaten hebben., Als vuistregel moet je altijd controleren of je lineaire data hebt en in dat geval altijd lineaire SVM (lineaire kernel) gebruiken. Lineaire SVM is een parametrisch model, maar een RBF kernel SVM niet, dus de complexiteit van de laatste groeit met de grootte van de trainingsset. Niet alleen is het duurder om een RBF kernel SVM te trainen, maar je moet ook de kernelmatrix rondhouden, en de projectie in deze” oneindige ” hogere dimensionale ruimte waar de gegevens lineair scheidbaar worden is ook duurder tijdens de voorspelling., Bovendien heb je meer hyperparameters om af te stemmen, dus modelselectie is ook duurder! En tot slot is het veel gemakkelijker om een complex model over te steken!

regularisatie

De Regularisatieparameter (in python heet het C) vertelt de SVM-optimalisatie hoe graag u wilt voorkomen dat u het classificeren van elk trainingsvoorbeeld mist.

als de C hoger is, zal de optimalisatie kleinere marge hyperplane kiezen, zodat de training data miss classification rate lager zal zijn.,

aan de andere kant, als de C laag is, dan zal de marge groot zijn, zelfs als er mis geclassificeerde opleidingsgegevens voorbeelden zullen zijn. Dit wordt weergegeven in de volgende twee diagrammen: