Hautkrebs-Klassifikation

Technische Dokumentation des KI-gestĂĽtzten Klassifikationsmodells

Vision Transformer 96.95% Genauigkeit

EinfĂĽhrung

Dieses KI-Modell klassifiziert automatisch verschiedene Arten von Hautläsionen mit modernster Computer Vision Technologie und unterstützt Dermatologen bei der Diagnose.

Wichtiger Hinweis: Dieses Modell dient nur zu Informationszwecken und ersetzt keine professionelle medizinische Beratung oder Diagnose.

Vision Transformer Architektur

Was ist ein Vision Transformer?

  • Revolutionäre Architektur: ViT wendet Transformer-Technologie auf Bilder an
  • Patch-basiert: Bilder werden in 16Ă—16 Pixel-Patches unterteilt
  • Self-Attention: Das Modell kann verschiedene Bildregionen gleichzeitig betrachten
  • Vortrainiert: Basiert auf Google's ViT mit ImageNet21k

Technische Spezifikationen

  • Patch-Größe: 16Ă—16 Pixel
  • Eingabegröße: 224Ă—224 Pixel
  • Ausgabeklassen: 7 Hautkrebs-Kategorien
  • Parameter: ~86 Millionen trainierbare Parameter

Patch-Verarbeitung

Ein 224×224 Pixel Bild wird in 196 Patches (14×14 Grid) von je 16×16 Pixeln aufgeteilt. Jeder Patch wird als "Token" behandelt, ähnlich wie Wörter in einem Text. Das Transformer-Modell analysiert dann die Beziehungen zwischen diesen Patches und erkennt komplexe Muster.

Vision Transformer Architektur

Hautbild (224Ă—224)

↓
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Patches (16Ă—16 Pixel)

196 Patches gesamt

↓
...

Patch Embeddings

768 Dimensionen

↓
Self-Attention
→
MLP
Self-Attention
→
MLP
Self-Attention
→
MLP
... 12 Layer total

Transformer Encoder

12 Layer mit Self-Attention

↓
Classification Head

MLP Classifier

768 → 7 Klassen

↓
Melanom
85%
Nävus
12%
Keratose
2%
Andere
1%

Klassifikation

Wahrscheinlichkeiten fĂĽr 7 Klassen

Technische Details:

Patch Processing:
  • • 224Ă—224 Bild → 14Ă—14 Patches
  • • Jeder Patch: 16Ă—16 = 256 Pixel
  • • Linear Projection zu 768D Vektor
  • • Position Encoding hinzugefĂĽgt
Attention Mechanism:
  • • Self-Attention ĂĽber alle Patches
  • • 12 Attention Heads pro Layer
  • • Lernt Beziehungen zwischen Bildregionen
  • • Globaler Kontext vs. lokale Details

Klassifikationskategorien

Das Modell kann zwischen sieben verschiedenen Arten von Hautläsionen unterscheiden:

Gutartige Keratose-ähnliche Läsionen

Harmlose, warzenähnliche Hautveränderungen

Basalzellkarzinom

Häufigste Form von Hautkrebs, langsam wachsend

Aktinische Keratosen

Präkanzeröse Läsionen durch Sonnenschäden

Vaskuläre Läsionen

Gefäßbedingte Hautveränderungen

Melanozytäre Nävi

Pigmentierte Muttermale

Melanom

Gefährlichste Form von Hautkrebs

Dermatofibrom

Gutartige Bindegewebsknoten der Haut

Trainingsprozess

  1. Datensammlung

    Verwendung des Skin Cancer Dataset von Marmal88 mit Tausenden von kategorisierten Hautkrebs-Bildern

  2. Datenaufbereitung

    Bilder werden auf 224×224 Pixel normalisiert und in Trainings- und Validierungsdatensätze aufgeteilt

  3. Transfer Learning

    Das vortrainierte ViT-Modell wird mit einem neuen Klassifikations-Head fĂĽr Hautkrebs angepasst

  4. Training

    5 Epochen Training mit Adam-Optimizer, Batch-Größe 32 und Cross-Entropy Loss

Trainings-Parameter

  • Optimizer: Adam (Learning Rate: 1e-4)
  • Loss-Funktion: Cross-Entropy
  • Batch-Größe: 32
  • Epochen: 5

Hardware-Anforderungen

  • GPU: NVIDIA mit CUDA-Support
  • RAM: Mindestens 16GB
  • VRAM: Mindestens 8GB
  • Trainingszeit: ~2-3 Stunden

Trainingsergebnisse

Finale Genauigkeit: 96.95% auf dem Validierungsdatensatz nach 5 Epochen

EpocheTraining LossTraining GenauigkeitValidierung LossValidierung Genauigkeit
1/50.7168
75.9%
0.4994
83.5%
2/50.4550
84.7%
0.3237
89.7%
3/50.2959
90.3%
0.1790
95.3%
4/50.1595
94.8%
0.1498
95.5%
5/50.1208
96.1%
0.1000
97.0%

Positive Entwicklung

  • Kontinuierliche Verbesserung der Genauigkeit
  • Reduzierung des Validation Loss
  • Keine Anzeichen von Overfitting
  • Stabile Konvergenz

Metriken Erklärung

  • Loss: MaĂź fĂĽr Vorhersagefehler
  • Accuracy: Anteil korrekter Vorhersagen
  • Training: Datensatz zum Lernen
  • Validation: Unabhängiger Test-Datensatz

Fazit und Ausblick

Das Hautkrebs-Klassifikationsmodell zeigt beeindruckende Leistung mit einer Genauigkeit von 96.95%. Die Verwendung der Vision Transformer Architektur ermöglicht es, komplexe Muster in medizinischen Bildern zu erkennen und verschiedene Arten von Hautläsionen zu unterscheiden.

Durch Transfer Learning auf einem vortrainierten ViT-Modell konnten wir mit relativ wenig Trainingszeit hervorragende Ergebnisse erzielen. Die kontinuierliche Verbesserung ĂĽber die Epochen zeigt, dass das Modell effektiv lernt und generalisiert.

Stärken des Modells

  • Hohe Genauigkeit (96.95%)
  • Moderne Transformer-Architektur
  • Schnelle Inferenzzeit
  • Sieben verschiedene Klassifikationen

Verbesserungsmöglichkeiten

  • Mehr Trainingsdaten sammeln
  • Data Augmentation Techniken
  • Ensemble-Methoden
  • Kontinuierliches Lernen implementieren
🔬 Hobby- & Spaßprojekt

Entwickelt von Dipl.-Ing. Andreas Babic , BSc - Weitere Projekte finden Sie in meinem Portfolio

Diese Anwendung dient ausschlieĂźlich zu Bildungs- und Demonstrationszwecken. FĂĽr medizinische Diagnosen konsultieren Sie bitte immer einen Facharzt.