Technische Dokumentation des KI-gestĂĽtzten Klassifikationsmodells
Dieses KI-Modell klassifiziert automatisch verschiedene Arten von Hautläsionen mit modernster Computer Vision Technologie und unterstützt Dermatologen bei der Diagnose.
Wichtiger Hinweis: Dieses Modell dient nur zu Informationszwecken und ersetzt keine professionelle medizinische Beratung oder Diagnose.
Ein 224×224 Pixel Bild wird in 196 Patches (14×14 Grid) von je 16×16 Pixeln aufgeteilt. Jeder Patch wird als "Token" behandelt, ähnlich wie Wörter in einem Text. Das Transformer-Modell analysiert dann die Beziehungen zwischen diesen Patches und erkennt komplexe Muster.
Hautbild (224Ă—224)
Patches (16Ă—16 Pixel)
196 Patches gesamt
Patch Embeddings
768 Dimensionen
Transformer Encoder
12 Layer mit Self-Attention
MLP Classifier
768 → 7 Klassen
Klassifikation
Wahrscheinlichkeiten fĂĽr 7 Klassen
Das Modell kann zwischen sieben verschiedenen Arten von Hautläsionen unterscheiden:
Harmlose, warzenähnliche Hautveränderungen
Häufigste Form von Hautkrebs, langsam wachsend
Präkanzeröse Läsionen durch Sonnenschäden
Gefäßbedingte Hautveränderungen
Pigmentierte Muttermale
Gefährlichste Form von Hautkrebs
Gutartige Bindegewebsknoten der Haut
Verwendung des Skin Cancer Dataset von Marmal88 mit Tausenden von kategorisierten Hautkrebs-Bildern
Bilder werden auf 224×224 Pixel normalisiert und in Trainings- und Validierungsdatensätze aufgeteilt
Das vortrainierte ViT-Modell wird mit einem neuen Klassifikations-Head fĂĽr Hautkrebs angepasst
5 Epochen Training mit Adam-Optimizer, Batch-Größe 32 und Cross-Entropy Loss
Finale Genauigkeit: 96.95% auf dem Validierungsdatensatz nach 5 Epochen
| Epoche | Training Loss | Training Genauigkeit | Validierung Loss | Validierung Genauigkeit |
|---|---|---|---|---|
| 1/5 | 0.7168 | 75.9% | 0.4994 | 83.5% |
| 2/5 | 0.4550 | 84.7% | 0.3237 | 89.7% |
| 3/5 | 0.2959 | 90.3% | 0.1790 | 95.3% |
| 4/5 | 0.1595 | 94.8% | 0.1498 | 95.5% |
| 5/5 | 0.1208 | 96.1% | 0.1000 | 97.0% |
Das Hautkrebs-Klassifikationsmodell zeigt beeindruckende Leistung mit einer Genauigkeit von 96.95%. Die Verwendung der Vision Transformer Architektur ermöglicht es, komplexe Muster in medizinischen Bildern zu erkennen und verschiedene Arten von Hautläsionen zu unterscheiden.
Durch Transfer Learning auf einem vortrainierten ViT-Modell konnten wir mit relativ wenig Trainingszeit hervorragende Ergebnisse erzielen. Die kontinuierliche Verbesserung ĂĽber die Epochen zeigt, dass das Modell effektiv lernt und generalisiert.