Es war ein ganz normaler Dienstagabend. Ich saß mit meinem Kaffee vor dem Rechner, chattete mal wieder mit ChatGPT und dachte dabei: Warum schicke ich eigentlich alles, was ich tippe, an irgendwelche Server in Amerika? Meine Texte, meine Fragen, meine Ideen – alles landet irgendwo in der Cloud.

Das hat mich genug geärgert, dass ich angefangen habe zu recherchieren. Und drei Stunden später lief auf meinem eigenen PC eine vollwertige KI. Kein Abo. Keine Cloud. Keine fremden Augen auf meinen Daten.

Was ich dir heute zeige, hat mich selbst überrascht: Es ist nämlich erschreckend einfach. Du brauchst kein Informatikstudium, keinen Gaming-PC für 3.000 Euro und keine Erfahrung mit Linux oder Docker. Du brauchst nur einen normalen Windows-PC (oder Mac oder Linux), etwas Zeit und diese Anleitung hier.

Lass uns loslegen.


Was ist überhaupt eine „lokale KI“ – und warum sollte dich das interessieren?

Laptop Frau - Addis Techblog

Bevor ich dir die Installation erkläre, lass mich kurz erklären, was wir hier eigentlich machen.

Wenn du ChatGPT oder Google Gemini nutzt, passiert folgendes: Du schreibst eine Nachricht, die wird verschlüsselt an einen Server irgendwo auf der Welt geschickt, dort von einem riesigen KI-Modell verarbeitet, und die Antwort kommt zurück zu dir. Das kostet die Anbieter Strom und Rechenzeit – deshalb verlangen sie entweder Geld oder nutzen deine Daten.

Eine lokale KI funktioniert anders: Das KI-Modell läuft komplett auf deinem eigenen Rechner. Deine Fragen verlassen deinen PC nie. Kein Internet notwendig. Kein Abo. Und – das hat mich am meisten überrascht – die Qualität ist inzwischen wirklich beeindruckend.

Klar, das Allerbeste von OpenAI bekommst du so nicht. Aber für das tägliche Arbeiten, für Textentwürfe, Code-Hilfe, Zusammenfassungen oder einfach als Gesprächspartner für Ideen? Absolut ausreichend. Und manchmal sogar besser, weil du das Modell ganz auf deine Bedürfnisse anpassen kannst.


Die zwei Zutaten: Ollama und Open WebUI

Für unser Vorhaben brauchen wir zwei Programme – und ich erkläre dir kurz, was jedes davon macht.

Ollama ist sozusagen der Motor. Es ist ein Programm, das im Hintergrund läuft und die KI-Modelle verwaltet und ausführt. Stell dir vor: eine Art App Store für KI-Modelle, kombiniert mit dem Antrieb, der sie zum Laufen bringt. Du kannst mit Ollama verschiedene Modelle herunterladen – kleine, die auf schwächerer Hardware laufen, und große, die bei entsprechender Hardware beeindruckende Ergebnisse liefern.

Open WebUI ist die Oberfläche. Damit der ganze Spaß auch benutzerfreundlich ist, gibt es dieses Projekt: eine wunderschöne, ChatGPT-ähnliche Weboberfläche, die du einfach in deinem Browser öffnest. Du siehst: Chatfenster links, Modellauswahl oben, Gesprächsverlauf in der Sidebar. Fühlt sich fast genauso an wie ChatGPT – nur dass alles bei dir zu Hause bleibt.


Was braucht mein PC dafür? – Die ehrliche Systemcheck-Liste

Hier werde ich ehrlich mit dir, weil ich selbst auch erst testen musste, was geht und was nicht.

Der Unterschied zwischen GPU und CPU (einfach erklärt)

KI lokal betreiben - Tutorial

Dein PC hat zwei Arten von Recheneinheiten: die CPU (das ist der normale Prozessor, das „Gehirn“ deines Computers) und eventuell eine GPU (die Grafikkarte, ursprünglich für Spiele gemacht, aber mittlerweile auch perfekt für KI).

KI-Modelle laufen auf beiden – aber der Unterschied ist enorm. Auf einer modernen Nvidia-Grafikkarte (RTX 3060 oder besser) bekommst du Antworten in Sekunden. Auf der CPU alleine dauert das gleiche manchmal eine Minute oder länger, weil die CPU für diese Art von Berechnungen nicht optimiert ist.

Meine persönliche Empfehlung:

Hast du eine Nvidia RTX-Grafikkarte mit mindestens 6 GB VRAM (Videospeicher)? Dann wirst du begeistert sein, wie flott das läuft. Ohne dedizierte Grafikkarte funktioniert es trotzdem – es ist nur etwas langsamer.

Die Mindestanforderungen im Überblick

Absolutes Minimum (CPU-only, „es läuft, aber langsam“):

  • Windows 10/11, macOS 12+, oder Linux
  • 8 GB RAM (16 GB empfohlen)
  • 10–20 GB freier Festplattenplatz (je nach Modellgröße)
  • Kein Breitbandinternet nötig (nur für den initialen Download)

Empfohlen für flüssigen Betrieb:

  • Nvidia GPU ab RTX 3060 mit 8 GB+ VRAM
  • 16–32 GB RAM
  • SSD mit 30+ GB freiem Platz

Mac-User aufgepasst: Macs mit Apple Silicon (M1, M2, M3, M4) sind hier eine echte Überraschung. Wegen der gemeinsamen Speicherarchitektur laufen die Modelle auf Apple Chips oft flüssiger als auf Windows-PCs ohne dedizierte GPU. Wenn du einen neueren Mac hast, bist du gut aufgestellt.

Ich selbst habe das zuerst auf einem älteren Laptop ohne Grafikkarte getestet – es lief, aber die Geduld wurde auf die Probe gestellt. Dann habe ich es auf meinem Desktop mit einer RTX 3070 probiert – und das war ein Erlebnis wie Tag und Nacht.


Schritt 1: Docker installieren – der unsichtbare Helfer

Bevor wir Open WebUI installieren, brauchen wir Docker. Ich weiß, der Name klingt erstmal technisch und einschüchternd. Lass mich dir kurz erklären, was das ist.

Stell dir Docker vor wie eine Art Mini-Container, in dem ein Programm komplett isoliert läuft – mit all seinen Abhängigkeiten, Libraries und Einstellungen. So musst du nichts manuell installieren, nichts konfigurieren, keine Abhängigkeiten auflösen. Du sagst Docker „starte das“, und Docker macht den Rest. Es ist der Grund, warum diese Installation so einfach ist. Was genau Docker ist und wie du es es auf Windows installierst, erklären wir dir in unserer großen Docker Tutorial Serie. Docker ist dabei nicht schwer zu insallieren.

Auf Linux ist es etwas anders, aber für Linux-User setze ich voraus, dass ihr die Docker-Dokumentation lesen könnt. 😄


Schritt 2: Ollama installieren – der KI-Motor startet

Das ist der einfachste Schritt von allen.

  1. Geh auf ollama.com
  2. Klick auf „Download“
  3. Wähle dein Betriebssystem
  4. Installiere das Programm wie jede andere Software

Fertig. Wirklich. Ollama läuft nach der Installation automatisch im Hintergrund. Du erkennst es am kleinen Llama-Symbol in deiner Taskleiste.

Erstes Modell herunterladen:

Jetzt kommt der erste spannende Moment. Öffne die Eingabeaufforderung (auf Windows: Drücke Windows + R, tippe cmd, Enter drücken) oder das Terminal auf Mac/Linux.

Tippe folgendes ein und drücke Enter:

ollama pull llama3.2

Was passiert jetzt? Ollama lädt das Modell „Llama 3.2“ von Meta herunter – eines der besten frei verfügbaren KI-Modelle. Es ist etwa 2 GB groß, also kurz warten.

Wenn der Download fertig ist, kannst du es direkt testen. Tippe:

ollama run llama3.2

Jetzt kannst du direkt mit der KI chatten – im Terminal! Schreib einfach etwas und drücke Enter. Du siehst: es funktioniert. Aber zugegeben: Chatten im schwarzen Terminalfenster ist nicht besonders komfortabel. Deshalb kommt jetzt Schritt 3.

Welche Modelle gibt es?

Auf ollama.com/library findest du alle verfügbaren Modelle. Hier ein paar Empfehlungen für den Einstieg:

  • llama3.2 – Gute Balance aus Qualität und Geschwindigkeit, ideal zum Starten (2 GB)
  • mistral – Sehr schnell, gut für einfachere Aufgaben (4 GB)
  • gemma3 – Googles Open-Source-Modell, überraschend gut (5 GB)
  • llama3.1:8b – Etwas größer, deutlich bessere Qualität (5 GB)
  • llama3.1:70b – Das Flaggschiff – nur wenn du viel RAM und eine starke GPU hast (40+ GB)

Mein Tipp: Fang mit llama3.2 an. Du kannst später immer weitere Modelle nachladen.


Schritt 3: Open WebUI starten – das schöne Gesicht der KI

Jetzt bringen wir das alles zusammen. Hier kommt Docker ins Spiel.

Öffne deine Eingabeaufforderung oder dein Terminal und kopiere diesen Befehl hinein:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Ich weiß, das sieht erstmal wie Kauderwelsch aus. Du musst ihn aber nicht verstehen – nur ausführen. Was er macht: Docker lädt Open WebUI herunter und startet es als kleinen, dauerhaft laufenden Dienst auf deinem PC.

Einmal ausführen, das wars.

Warte 1–2 Minuten. Dann öffne deinen Browser und gib folgendes in die Adressleiste ein:

http://localhost:3000

Du siehst eine Login-Seite. Klick auf „Registrieren“, lege einen Benutzernamen und ein Passwort fest – und du bist drin.

Vor dir liegt eine Oberfläche, die verdächtig nach ChatGPT aussieht. Oben links kannst du dein Ollama-Modell auswählen. Mittig das Chatfeld. Links die Gesprächshistorie.

Schreib deine erste Nachricht. Und genieße das Gefühl, dass diese Unterhaltung deinen PC nie verlässt.


Was Open WebUI alles kann – das hat mich überrascht

Ich hatte ehrlich gesagt nur erwartet, dass das ein simples Chatfenster ist. Was Open WebUI tatsächlich bietet, hat mich positiv überrascht.

Mehrere Modelle gleichzeitig nutzen: Du kannst in einem Gespräch einfach das Modell wechseln und vergleichen, wie verschiedene KIs auf dieselbe Frage antworten. Faszinierend und sehr nützlich.

Dokumente hochladen: Du kannst PDFs, Word-Dokumente oder Textdateien direkt hochladen und mit der KI darüber sprechen. Die KI liest das Dokument und beantwortet Fragen dazu. Das war für mich ein echter Game Changer für die Arbeit.

Eigene System-Prompts: Du kannst der KI eine „Persönlichkeit“ oder Rolle geben, die bei jedem Gespräch aktiv ist – zum Beispiel „Du bist ein erfahrener Lektor und gibst konstruktives Feedback auf Texte“.

Bilder analysieren (wenn das Modell es unterstützt): Mit Modellen wie llava kannst du sogar Bilder hochladen und fragen „Was siehst du hier?“ oder „Erkläre mir diesen Screenshot“.

Spracheingabe: Ja, wirklich – du kannst per Mikrofon sprechen. Ich nutze das manchmal, wenn meine Finger nach langem Tippen streiken.


Ehrliches Troubleshooting – was bei mir schiefgelaufen ist

Ich wäre nicht ehrlich, wenn ich dir erzähle, dass alles beim ersten Versuch perfekt funktioniert hat. Hier die häufigsten Probleme und wie ich sie gelöst habe.

Problem: Open WebUI startet, aber kein Modell erscheint zur Auswahl

Das passiert, wenn Docker und Ollama nicht miteinander sprechen. Die Lösung: Überprüfe, ob Ollama wirklich läuft (Llama-Symbol in der Taskleiste). Dann starte den Docker-Container neu: Öffne Docker Desktop, klicke auf deinen Open WebUI-Container und klick „Restart“.

Problem: Die KI antwortet, aber extrem langsam

Das ist normal ohne Grafikkarte. Probiere ein kleineres Modell: ollama pull llama3.2:1b – die 1-Milliarden-Parameter-Version ist viel kleiner und deutlich schneller, wenn auch qualitativ etwas eingeschränkter.

Problem: „Docker Desktop is not running“

Starte Docker Desktop manuell (Suchleiste: „Docker Desktop“). Warte bis das grüne Symbol erscheint, dann nochmal versuchen.

Problem: Port 3000 ist bereits belegt

In diesem Fall ändere im langen Docker-Befehl -p 3000:8080 zu -p 3001:8080 und rufe dann http://localhost:3001 auf.

Problem: Nach Neustart ist Open WebUI weg

Keine Sorge, deine Daten sind noch da. Öffne Docker Desktop und starte den Container manuell neu – oder gib ihm beim ursprünglichen Start den Parameter --restart always mit (ist im Befehl oben bereits enthalten).

Problem: Meine GPU wird nicht genutzt

Für Nvidia-GPUs brauchst du zusätzlich den Nvidia Container Toolkit. Das ist etwas fortgeschrittener, aber auf der Ollama-Website gibt es eine gute Anleitung dazu. Für Einsteiger reicht der CPU-Modus erst mal vollkommen aus.


Meine liebsten Anwendungsfälle – wofür ich das täglich nutze

Jetzt, wo alles läuft, stellst du dir vielleicht die Frage: Wofür nutze ich das eigentlich? Hier sind meine ehrlichen Alltagsanwendungen.

Texte überarbeiten und Feedback holen: Ich lasse Artikel, E-Mails und Berichte von der lokalen KI gegenlesen. Kein Mensch sieht diese Texte – perfekt für berufliche Dokumente.

Code erklären und debuggen: Wenn ich ein Code-Snippet nicht verstehe oder einen Fehler suche, frage ich einfach. Llama und Co. sind überraschend gut in Python, JavaScript und mehr.

Ideen brainstormen: Manchmal braucht man einfach jemanden zum Denken. Die KI gibt ungefiltertes Feedback ohne soziale Rücksichten.

Dokumente zusammenfassen: Ein 40-seitiges PDF hochladen und fragen „Fass das in fünf Punkten zusammen“ – das spart enorm viel Zeit.

Sprachen lernen: Ich führe manchmal ganze Gespräche auf Englisch oder Spanisch mit der KI. Sie korrigiert mich geduldig und erklärt Fehler.


Fazit: Deine eigene KI ist kein Hexenwerk mehr

Als ich das erste Mal „meine“ KI lokal laufen hatte, hatte ich so ein Gefühl wie damals, als ich meinen ersten PC zusammengebaut habe: ein Gemisch aus Stolz, Begeisterung und dem Gedanken „Wow, das hab ich selbst gemacht.“

Die Zeiten, in denen KI nur für große Unternehmen oder Entwickler zugänglich war, sind vorbei. Du kannst heute mit ein paar Klicks und Befehlen eine vollwertige KI auf deinem Heimrechner betreiben – kostenlos, privat, jederzeit verfügbar.

Ja, es hat ein paar Stunden gedauert, bis ich alles zum Laufen gebracht hatte. Ja, ich habe Fehlermeldungen gesehen und manches zweimal lesen müssen. Aber das Ergebnis ist es absolut wert.

Fang heute an. Installiere Ollama, lade llama3.2 herunter und starte Docker mit Open WebUI. In einer Stunde kannst du mit deiner eigenen, privaten KI chatten.

Und wenn du Fragen hast oder auf Probleme stößt: Schreib’s in die Kommentare. Ich antworte wirklich – versprochen.


Schnellübersicht: Alle Befehle auf einen Blick

Für alle, die nochmal kurz nachschauen wollen, hier die wichtigsten Befehle:

# Ollama installieren: ollama.com → Download

# Erstes Modell herunterladen
ollama pull llama3.2

# Modell direkt im Terminal testen
ollama run llama3.2

# Weitere interessante Modelle
ollama pull mistral
ollama pull gemma3
ollama pull llava  # Für Bildanalyse

# Open WebUI starten (einmalig ausführen)
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

# Open WebUI im Browser aufrufen
# http://localhost:3000

Dieser Artikel wird regelmäßig aktualisiert, da sich Ollama und Open WebUI ständig weiterentwickeln. Letzte Aktualisierung: März 2026.

Avatar-Foto

Johanna

Ich bin Johanna, leidenschaftliche Technologie-Enthusiastin und Autorin bei "Addis Techblog". Mein besonderer Fokus liegt auf Innovationen und den neuesten Entwicklungen in der Tech-Welt. Es begeistert mich, komplexe Themen verständlich und zugänglich zu machen, damit meine Leser bestens über die dynamische Welt der Technologie informiert sind. In meiner Freizeit experimentiere ich gerne mit neuen Gadgets und Software, um immer am Puls der Zeit zu bleiben.