Kennst du diesen Moment, wenn Alexa mitten in deine Musikwiedergabe platzt mit „Übrigens – schau dir unsere Angebote für Prime-Mitglieder an“? Ich hab meinen Echo daraufhin aus dem Fenster geworfen. Okay, ich hab ihn nur in die hinterste Schublade verbannt – aber der Impuls war da.
Und ich bin damit nicht allein. Die Cloud-Falle schnappt gerade für Millionen von Smart-Home-Nutzern zu: Google Nest stellt Dienste ein, Amazon macht Features kostenpflichtig, und irgendjemand irgendwo in einem Rechenzentrum entscheidet, was dein Zuhause darf und was nicht. Das nervt. Das ist datenrechtlich fragwürdig. Und das muss 2026 so nicht mehr sein.
Die Lösung heißt Home Assistant Voice kombiniert mit Ollama – lokale Sprachsteuerung, lokal laufende KI, dein Haus, deine Regeln. Und genau darum geht es in diesem Artikel: Ich zeige dir, welche Hardware du wirklich brauchst, damit dieser Traum nicht zur laggy Katastrophe wird. Denn der Fehler, den die meisten machen, kostet sie zweimal Geld.
Lass mich von Anfang an ehrlich sein: Ich hab diesen Fehler selbst gemacht. Und jetzt teile ich die Lektion, damit du es nicht musst.
Wie lokale Sprachsteuerung überhaupt funktioniert – und warum die Hardware so entscheidend ist
Bevor wir zu den Kaufempfehlungen kommen, müssen wir kurz unter die Haube schauen. Denn viele kaufen Hardware, ohne zu verstehen, was diese Hardware eigentlich leisten soll. Das Ergebnis: Frust, Neubestellung, doppelte Kosten.
Wenn du also in deinen Wohnraum rufst „Hey Jarvis, mach das Licht an“, passieren hinter den Kulissen genau fünf Dinge – und jedes stellt andere Anforderungen an deine Hardware:
Schritt 1: Wake-Word-Erkennung Software wie OpenWakeWord oder Porcupine hört dauerhaft auf das Mikrofon und wartet auf dein Aktivierungswort – also auf „Hey Jarvis“ oder was auch immer du konfiguriert hast. Das ist rechenleicht. Ein Raspberry Pi macht das locker.
Schritt 2: Speech-to-Text (STT) Jetzt kommt Whisper ins Spiel – ein Spracherkennungsmodell von OpenAI, das du lokal betreiben kannst. Whisper wandelt dein gesprochenes Kommando in Text um. Also aus „Mach das Licht an“ wird der String mach das licht an. Für Whisper brauchst du schon etwas mehr Power, aber ein moderner Mini-PC mit Intel N100 kann das noch stemmen.
Schritt 3: Das Gehirn – Ollama / LLM Hier wird’s kritisch. Ollama ist eine Software, mit der du sogenannte LLMs (Large Language Models, also große Sprachmodelle) lokal auf deiner Hardware betreiben kannst – Modelle wie Llama 3, Qwen oder Mistral. Das LLM versteht den Text, interpretiert deine Absicht und generiert eine Antwort oder Aktion. Dieses Gehirn frisst RAM und Rechenpower wie nichts anderes. Und genau hier kollabiert günstige Hardware.
Schritt 4: Text-to-Speech (TTS) Piper wandelt die Antwort des LLMs zurück in gesprochene Sprache. Ebenfalls kein Ressourcenfresser – läuft auch auf schwacher Hardware.
Schritt 5: Home Assistant Die eigentliche Smart-Home-Schaltzentrale führt dann den Befehl aus. Licht an, Rollade runter, Thermostat auf 21 Grad. Home Assistant selbst braucht keine extreme Hardware.
Das Problem auf den Punkt gebracht: Schritte 1, 2, 4 und 5 laufen problemlos auf einem 80-Euro-Raspberry Pi oder einem 150-Euro-Mini-PC. Schritt 3 – das LLM-Gehirn via Ollama – bricht auf dieser Hardware komplett zusammen. Wer hier spart, wartet 30 Sekunden auf eine Antwort. Das ist kein Smart Home mehr, das ist eine Geduldsprobe.
Im Jahr 2026 ist ein Smarthome ohne lokale KI-Instanz eigentlich nur eine glorifizierte Zeitschaltuhr.
Und jetzt weißt du, warum ich diesen Guide schreibe. Lass uns die richtige Hardware finden.
Die zwei Hardware-Grundgesetze für lokale KI (merkt sie euch)
Bevor ich konkrete Geräte nenne, gibt es zwei absolute Grundregeln. Wer diese ignoriert, kauft falsche Hardware – garantiert.
RAM ist King

KI-Modelle werden vollständig in den Arbeitsspeicher (RAM) geladen, bevor sie irgendetwas tun können. Das ist keine Softwareschwäche, das ist Systemarchitektur. Und das bedeutet:
- 8 GB RAM → Absolutes No-Go für lokale KI im Jahr 2026. Vergiss es. Du kannst damit Home Assistant betreiben, aber Ollama wird dich nur auslachen.
- 16 GB RAM → Das Minimum. Reicht für kleine Modelle bis etwa 7 Milliarden Parameter (7B), also z. B. Llama 3.2 8B oder Qwen2.5 7B. Brauchbar, aber schon etwas eng.
- 32 GB RAM → Meine Empfehlung für Addis Techblog-Leser. Warum? Weil Mini-PCs ohne dedizierte Grafikkarte ihren Arbeitsspeicher für alles teilen: Betriebssystem, laufende Apps, Grafik – und die KI. Mit 32 GB hast du Luft für 14B-Modelle und bist zukunftssicher.
SSD statt HDD – ohne Diskussion
KI-Modelle sind 5 bis 10 Gigabyte groß. Wenn du die von einer alten mechanischen Festplatte (HDD) lädst, wartest du beim Start locker 2–3 Minuten. Das ist inakzeptabel.
Pflicht: Eine NVMe M.2 SSD mit mindestens 512 GB, besser 1 TB. NVMe ist dabei entscheidend – klassische SATA-SSDs sind schnell genug für Home Assistant, aber für das Laden großer Modelle macht der Geschwindigkeitsunterschied schon einen Unterschied. Moderne NVMe-SSDs schaffen 3.000–7.000 MB/s Lesegeschwindigkeit. Eine alte SATA-SSD kommt auf 550 MB/s. Das spürst du.
Zusammenfassend: Für lokale KI via Ollama brauchst du 2026 mindestens 16 GB RAM (besser 32 GB) und zwingend eine NVMe M.2 SSD. Alles andere ist Geldverschwendung.
Kategorie 1: Der Einsteiger-Fehler – Bitte ließ das, bevor du kaufst
Ich muss diesen Abschnitt schreiben, weil ich weiß, was jetzt in deinem Kopf vorgeht: „Ich hab doch noch einen Raspberry Pi 4 rumliegen. Oder ich kauf mir einen Home Assistant Green. Oder diesen günstigen N100 Mini-PC für 150 Euro.“
Ich verstehe den Impuls. Ich war da. Aber ich muss dir das ausreden.
Raspberry Pi 5 – super, aber nicht für Ollama

Der Raspberry Pi 5 ist ein brillantes Gerät. Ich betreibe darauf mein MQTT-Broker, verschiedene Monitoring-Tools und Home Assistant selbst seit Jahren problemlos. Mit dem Raspberry Pi AI HAT+ kann man sogar einfache Modelle anschieben. Aber für Ollama mit einem vernünftigen 7B-Modell? Da schlackert der Pi mit den Ohren. Maximal 8 GB RAM, kein NVMe-Slot im eigentlichen Sinne, keine GPU-beschleunigte KI-Inferenz. Für Wake-Word und Whisper: perfekt. Für das LLM-Gehirn: nein.
Home Assistant Green & Yellow – Smart Home ja, KI nein
Der Home Assistant Green ist für rund 100 Euro die wohl beste Möglichkeit, Home Assistant zu betreiben. Kompakt, stromsparend, offiziell unterstützt. Aber er hat 4 GB RAM und einen ARM-Chip ohne jede GPU-Beschleunigung. Ollama läuft dort rein technisch – aber mit einem aktuellen 7B-Modell kommst du auf gefühlte 1–2 Token pro Sekunde. Das ist wie tippen mit Fäustlingen.
Intel N100 Mini-PCs – für Home Assistant genial, für KI zu schwach
Mini-PCs mit dem Intel N100 (oft unter Marken wie Beelink S12 Pro, Minisforum oder TRIGKEY zu finden) sind für etwa 120–180 Euro absolute Empfehlungen, wenn du nur Home Assistant, Zigbee2MQTT, Node-RED und ähnliches betreibst. Stromsparend, leise, kompakt. Ich hab so einen als reinen Smart-Home-Server laufen und bin zufrieden.
Aber: Der N100 hat eine schwache Intel UHD Grafik. KI-Beschleunigung? Minimal. Und selbst mit 16 GB RAM (was für diesen Chip oft das Maximum ist) wirst du bei Ollama Laufzeiten sehen, die dir den Spaß am Smart Home verderben.
Der teuerste Fehler, den du machen kannst: einen günstigen Mini-PC kaufen, merken dass Ollama zu langsam ist, und dann nochmal einen besseren kaufen. Das kenn ich aus eigener Erfahrung. Kauf einmal richtig.
Zusammenfassend: Raspberry Pi 5, Home Assistant Green und Intel N100 Mini-PCs sind exzellente Geräte für reines Smart Home. Für lokale KI via Ollama sind sie 2026 schlicht zu schwach. Wer hier spart, kauft zweimal.
Kategorie 2: Der Sweet Spot – Die besten Mini-PCs für lokale KI 2026
Jetzt kommen wir zum eigentlichen Teil: Was kaufst du, wenn du es richtig machen willst? Ich hab mich durch die aktuelle Landschaft gewühlt, Benchmarks verglichen und einige dieser Geräte selbst in der Hand gehabt. Hier sind meine Empfehlungen für 2026.
Die Apple-Route: Mac Mini M4
Ich weiß, ich weiß – Empfehlung eines Apple-Geräts auf einem Hardware-Blog. Hört mir kurz zu, bevor ihr den Tab schließt.
Der Mac Mini M4 (Basismodell mit 16 GB RAM, ab ca. 699 Euro) ist aus einem ganz bestimmten Grund für lokale KI nahezu unschlagbar: Unified Memory.
Was ist Unified Memory? Bei normalen PCs gibt es getrennten Arbeitsspeicher für die CPU und – falls vorhanden – einen eigenen VRAM für die GPU. Apples M-Chips haben dagegen einen gemeinsamen Speicherpool für CPU und GPU. Und genau das ist für LLMs Gold wert: Die GPU kann direkt auf den vollen RAM zugreifen, ohne dass Daten hin- und herkopiert werden müssen.
Das bedeutet in der Praxis: Ein Mac Mini M4 mit 16 GB Unified Memory verhält sich bei Ollama wie ein normaler PC mit einer dedizierten GPU und 16 GB VRAM. Du kannst 13B-Modelle flüssig betreiben. Die Antwortgeschwindigkeit liegt bei aktuellen 7B-Modellen bei unter 1 Sekunde. Das fühlt sich wie echte Sprachsteuerung an, nicht wie warten auf eine Bitte.
Zusätzliche Vorteile: Der Mac Mini M4 verbraucht unter Last etwa 20–30 Watt. Das ist für einen 24/7-Server bemerkenswert wenig. macOS ist als Server-Betriebssystem gewöhnungsbedürftig, aber Ollama läuft nativ, Docker funktioniert über OrbStack, und Home Assistant kann über eine VM oder direkt über HACS angebunden werden.
Mein Tipp: Wenn du 699 Euro locker machen kannst und macOS kein No-Go für dich ist, ist der Mac Mini M4 mit 16 GB RAM aktuell die wahrscheinlich beste Einstiegsoption für lokale KI im Home-Server-Bereich. Mit 24 GB oder 32 GB Unified Memory (Aufpreis nötig) bist du für die nächsten 3–4 Jahre absolut sicher aufgestellt.
Die Windows/Linux-Route: AMD Ryzen 8845HS und Ryzen AI 9
Für alle, die kein macOS wollen (und das ist völlig legitim), empfehle ich Mini-PCs mit AMD Ryzen 7 8845HS oder den neueren Ryzen AI 9 HX 375/395-Prozessoren.
Warum AMD und nicht Intel für diese Aufgabe? Zwei Gründe:
Erstens die integrierte GPU: Der 8845HS hat die AMD Radeon 780M als integrierte Grafikeinheit. Die ist nicht nur für Spiele besser als Intels Xe-Grafik – sie hat auch deutlich bessere Unterstützung für GPU-beschleunigte KI-Inferenz unter ROCm (AMDs Antwort auf CUDA). Ollama kann die Radeon 780M nutzen, um Berechnungen zu beschleunigen. Das macht in der Praxis einen massiven Unterschied.
Zweitens die NPU: Neuere Chips wie der Ryzen AI 9 HX 375 haben eine dedizierte NPU (Neural Processing Unit) – also einen Chip, der speziell für KI-Berechnungen optimiert ist. Die NPU-Integration in Ollama ist noch in Entwicklung, aber sie zeigt, wohin die Reise geht. Wer jetzt investiert, kauft Hardware mit Luft nach oben.
Zu den Herstellern: Beelink, Minisforum und Geekom sind die drei Marken, die ich dir für diese Chip-Klasse empfehle. Die Geräte liegen preislich zwischen 400 und 650 Euro, je nach Ausstattung. Kauf ausschließlich Varianten mit 32 GB DDR5 RAM – das ist Pflicht, nicht Option.
Konkrete Modelle, die ich mir angeschaut habe:
- Beelink SER8 (Ryzen 7 8745HS): Sehr gutes Preis-Leistungs-Verhältnis, 32 GB DDR5 konfigurierbar
- Minisforum UM890 Pro (Ryzen 9 8945HS): Etwas teurer, aber mit besserer Thermik und zwei NVMe-Slots
- Geekom AE9 (Ryzen AI 9 HX 370): Aktuelle Generation mit NPU, für zukunftsorientierte Käufer
Alle diese Geräte kommen mit zwei M.2-Slots – ein Glücksfall, denn du kannst eine SSD für das System/die Modelle und eine zweite als Datenspeicher nutzen.
Unter Linux (Ubuntu Server oder Debian) läuft das gesamte Stack – Home Assistant in Docker, Ollama, Whisper, Piper, OpenWakeWord – stabil und wartungsarm. Und wenn du mal Lust hast, dran rumzuschrauben (du liest diesen Blog, also ja), findest du eine riesige Community.
Reaktionszeiten in der Praxis: Mit einem 7B-Modell (z. B. Qwen2.5 7B) auf einem Ryzen 7 8845HS mit GPU-Beschleunigung komme ich auf etwa 15–25 Token pro Sekunde. Eine typische Antwort auf ein Smart-Home-Kommando ist in 1–2 Sekunden fertig. Das ist nutzbar. Das fühlt sich gut an.
Vergleichsübersicht: Was bekommst du wofür?
| Gerät | Preis (ca.) | RAM | LLM-Performance | Stromverbrauch | Empfehlung für |
|---|---|---|---|---|---|
| Raspberry Pi 5 | 80–100 € | max. 8 GB | Unbrauchbar für Ollama | 5–10 W | Reines Smart Home / Wake Word |
| N100 Mini-PC | 130–180 € | max. 16 GB | Sehr langsam (1–3 Token/s) | 10–15 W | Home Assistant ohne KI |
| Mac Mini M4 (16 GB) | 699 € | 16 GB Unified | Sehr gut (30+ Token/s) | 20–30 W | Apple-Nutzer, plug & play |
| Ryzen 7 8845HS Mini-PC | 380–480 € | 32 GB DDR5 | Gut (15–25 Token/s) | 25–45 W | Windows/Linux-Nutzer |
| Ryzen AI 9 HX 375 Mini-PC | 500–650 € | 32 GB DDR5 | Sehr gut (20–35 Token/s) | 30–50 W | Zukunftssicher & leistungshungrig |
Zusammenfassend: Für lokale KI via Ollama ist 2026 der Mac Mini M4 (16 GB) die beste Plug-and-Play-Option, der beste Preis-Leistungs-Wert im Windows/Linux-Bereich liegt bei Mini-PCs mit AMD Ryzen 7 8845HS oder Ryzen AI 9 und mindestens 32 GB DDR5 RAM.
Kategorie 3: NAS als KI-Server – der ehrliche Reality-Check
Ich krieg diese Frage mindestens einmal pro Woche in meinen DMs: „Johanna, ich hab ein Synology NAS, das sowieso 24/7 läuft – kann ich Ollama nicht einfach da drauf in Docker installieren?“
Die kurze Antwort: Ja, technisch. Die ehrliche Antwort: Kommt sehr stark auf dein NAS an.
Was ein Standard-NAS kann und was nicht
Die meisten NAS-Geräte im Heimbereich – denkt an das Synology DS923+ oder das QNAP TS-464 – haben CPUs, die für Dateioperationen, RAID-Verwaltung und leichte Transkodierung ausgelegt sind. Das sind oft Intel Celeron oder AMD Ryzen Embedded Chips mit sehr schwacher Grafikeinheit.
Ollama läuft auf diesen Geräten ausschließlich auf der CPU. Und das bedeutet: 1–2 Token pro Sekunde. Du fragst dein Smart Home etwas, und nach 20–30 Sekunden kommt die Antwort. Das ist kein Sprachassistent, das ist ein Brieffreund.
Ich hab das selbst an einem QNAP getestet. Whisper läuft dort akzeptabel, Home Assistant in Docker sowieso – aber Ollama mit einem 7B-Modell via reiner CPU? Ich hab nach 10 Minuten aufgehört zu warten.
Die Ausnahme: NAS mit PCIe-Steckplatz und GPU-Erweiterung
Manche NAS-Geräte – vor allem von QNAP und dem neueren Hersteller UGREEN NASync – haben einen PCIe-Steckplatz (ein Erweiterungsslot, wie man ihn aus Desktop-PCs kennt). Dort kann man eine dedizierte Grafikkarte nachrüsten.
Für NAS-Betrieb eignen sich stromsparende Karten wie die:
- Nvidia RTX 3060 Low Profile (ca. 200–250 Euro gebraucht)
- Nvidia RTX 4060 Low Profile (ca. 280–320 Euro neu)
Mit einer solchen Karte und ihrem dedizierten VRAM (8–12 GB) läuft Ollama auf dem NAS plötzlich mit 20–30 Token pro Sekunde. Das Gesamtsystem übernimmt dann alle Aufgaben: Datenspeicher, Backup, Home Assistant, und das KI-Gehirn. Klingt verlockend.
Aber: Das Gesamtbudget explodiert schnell. Ein QNAP-NAS mit PCIe-Slot kostet 400–600 Euro, dazu die GPU mit 250–320 Euro – und du bist bei 650–900 Euro für eine Lösung, die in der Praxis nicht viel besser ist als ein dedizierter Mini-PC mit AMD Ryzen.
Meine Empfehlung für NAS-Besitzer
Wenn du bereits ein NAS hast und es weiter für Datenspeicherung, Backups und Medienserver nutzen willst: behalte es. Kauf zusätzlich einen Mini-PC aus Kategorie 2 für die KI-Aufgaben. Die Investition von 400–650 Euro für den Mini-PC gibt dir deutlich mehr Flexibilität und Performance als das Nachrüsten einer GPU ins NAS.
Das NAS bleibt das Datengrab, der Mini-PC wird das Gehirn. Saubere Trennung, wartbares Setup, und du kannst beide Komponenten unabhängig voneinander upgraden.
Zusammenfassend: Standard-NAS von Synology oder QNAP sind für Ollama ohne GPU-Erweiterung zu langsam (1–2 Token/s). Eine PCIe-GPU macht es besser, aber das Preis-Leistungs-Verhältnis spricht für einen separaten Mini-PC mit AMD Ryzen als KI-Server.
Das Setup verstehen: Wie alles zusammenspielen sollte
Ich will kurz skizzieren, wie ein sinnvolles Home-AI-Setup 2026 aussieht, damit du ein Zielbild vor Augen hast.
Die Hardware: Dein Mini-PC (AMD Ryzen oder Mac Mini) läuft 24/7 als Server. Dort laufen alle Dienste in Docker-Containern: Home Assistant, Ollama, Whisper (via faster-whisper), Piper für TTS, und Wyoming-Protokoll-Services für die Sprachkommunikation. Das Wyoming-Protokoll ist die Sprache, in der diese Komponenten miteinander reden – du musst das nicht verstehen, aber wissen dass es da ist, hilft.
Die Mikrofone: Verteilt im Haus hängen günstige ESP32-basierte Geräte mit Mikrofon (z. B. M5Stack oder selbstgebaute ATOM Echo-Varianten). Diese laufen Wake-Word-Erkennung lokal auf dem Mikrocontroller und schicken bei Aktivierung Audio an deinen Server. Kein Cloud-Kontakt, kein Mithören außerhalb des lokalen Netzwerks.
Der Ablauf: Du sagst „Hey Jarvis“ → ESP32 erkennt das Wake Word → schickt Audio an den Server → Whisper wandelt es in Text → Ollama versteht den Text und generiert eine Antwort → Home Assistant führt die Aktion aus → Piper spricht die Antwort aus dem nächsten Lautsprecher.
Gesamtlatenz bei guter Hardware: 2–4 Sekunden. Das ist nicht Alexa-Geschwindigkeit, aber es ist lokal, privat, und gehört dir.
Was du an Ollama-Modellen nutzen solltest:
- Für einfache Smart-Home-Befehle: Qwen2.5 7B oder Llama 3.2 3B (schnell, effizient)
- Für komplexere Aufgaben: Llama 3.1 8B oder Mistral 7B
- Wenn du 32 GB RAM hast und mehr willst: Qwen2.5 14B oder Llama 3.1 14B
Das Modell ist kein Kaufargument für die Hardware – du kannst Modelle wechseln, die Hardware nicht.
Strom und Dauerbetrieb: Was kostet dich das im Jahr?
Ich weiß, dass du das willst. Hier sind realistische Verbrauchswerte im Dauerbetrieb (Idle, kein aktiver KI-Job):
- Mac Mini M4: ~5–8 Watt im Idle → ca. 43–70 kWh/Jahr → bei 30 Cent/kWh: 13–21 Euro/Jahr
- Ryzen 7 8845HS Mini-PC: ~10–18 Watt im Idle → ca. 88–158 kWh/Jahr → 26–47 Euro/Jahr
Zum Vergleich: Ein alter Desktop-PC mit Nvidia RTX 3060 als Server? Leicht 80–120 Watt im Idle. Das wären 210–315 Euro Stromkosten pro Jahr. Ein Mini-PC bezahlt sich also schnell durch niedrigere Betriebskosten zurück.
Home Assistant konkret: Was läuft wo?
Ich bekomme oft die Frage: Muss ich Home Assistant auf dem KI-Mini-PC betreiben, oder kann ich das trennen?
Meine klare Empfehlung: Wenn du sowieso einen leistungsstarken Mini-PC für Ollama kaufst, lauf Home Assistant dort in einem Docker-Container oder direkt als VM. Das vereinfacht die Netzwerkkonfiguration und du hast alles an einem Ort.
Alternativ, wenn du bereits einen dedizierten Home Assistant Green oder ein ähnliches Gerät hast: Behalte das als Home Assistant Host und konfiguriere Ollama und die Sprachkomponenten als externe Server auf dem Mini-PC. Home Assistant kann über Home Assistant Voice PE oder über Wyoming-Integration mit externen Servern kommunizieren. Das funktioniert wunderbar und gibt dir mehr Flexibilität.
Für die Integration brauchst du folgende Add-ons / Container:
- Wyoming Whisper – lokale STT-Integration
- Wyoming Piper – lokale TTS-Integration
- Wyoming OpenWakeWord – lokale Wake-Word-Erkennung
- Ollama – der LLM-Runner
- Extended OpenAI Conversation – die HA-Integration, die Ollama als KI-Backend einbindet
Die Einrichtung ist nicht trivial, aber gut dokumentiert.
Häufige Fragen
Ja, eGPUs (externe Grafikkarten via Thunderbolt) funktionieren auf dem Mac mit Einschränkungen, unter Linux ist die Unterstützung sehr fragil. Für einen stabilen 24/7-Betrieb würde ich das nicht empfehlen. Kauf einen Mini-PC mit starker iGPU statt an einer eGPU zu basteln.
Absolut. Ein gut gefinetuntes 7B-Modell wie Qwen2.5 7B oder Llama 3.2 versteht Smart-Home-Befehle sehr zuverlässig. Für reine Smart-Home-Intents brauchst du kein riesiges Modell. Die Größe des Modells entscheidet über die Flexibilität bei komplexen Fragen, nicht über die Zuverlässigkeit bei einfachen Kommandos.
Die meisten Mini-PCs kommen mit Windows 11 Pro oder Home vorinstalliert. Für einen Server würde ich trotzdem Ubuntu Server 24.04 LTS empfehlen – kostenlos, stabil, und die Community-Dokumentation für unser Setup ist auf Linux am besten. Wenn du Windows bevorzugst: es funktioniert auch, Ollama hat einen Windows-Installer
Gar nicht zwingend. Ein einmal installiertes 7B-Modell läuft. Neue Modelle bringen Verbesserungen, aber du wirst nicht wie bei Cloud-Diensten gezwungen, Updates zu machen oder für neue Features zu zahlen. Das ist das Schöne an lokal laufender KI.
Was kommt 2026 noch? Ein Ausblick
Der Markt für lokale KI-Hardware bewegt sich gerade sehr schnell. Ein paar Entwicklungen, die ich beobachte:
NPU-Integration in Ollama: Die NPUs in neueren AMD und Intel Chips (Meteor Lake, Strix Point) werden zunehmend für Inferenz-Aufgaben nutzbar. Wenn Ollama das effizient nutzt, könnte ein Ryzen AI 9 Mini-PC nochmal deutlich schneller werden – bei noch niedrigerem Stromverbrauch.
Apple M4 Pro Mini-Mac: Das Basismodell reicht schon gut, aber mit 24 GB Unified Memory und der stärkeren GPU-Einheit des Pro-Chips wäre das ein Monster für lokale KI. Gerüchten zufolge kommen da 2025/2026 noch interessante Varianten.
UGREEN NASync und ähnliche Hybridgeräte: Hersteller bauen NAS-Geräte mit stärkeren CPUs und PCIe-Erweiterungen explizit für den Heimserver-Markt. Das könnte das All-in-one-Setup für NAS und KI irgendwann günstiger machen.
Fazit: Wer 2026 wie in Star Trek wohnen will, braucht die richtige Hardware
Lokale Sprachsteuerung mit Home Assistant und Ollama ist kein Bastelprojekt für Geduldige mehr – sie ist real, sie ist schnell genug für den Alltag, und sie ist vollständig in deiner Hand. Keine Abos, keine Werbung, keine Cloud-Abhängigkeit.
Aber das funktioniert nur, wenn du die Hardware-Grundregeln respektierst:
Kurz und klar:
- 8 GB RAM → Nein. Nicht diskutieren.
- 16 GB RAM + N100 → Nur für Home Assistant ohne KI.
- Mac Mini M4 (16 GB) → Beste Plug-and-Play-Option, Apple-Ökosystem nötig.
- AMD Ryzen 7 8845HS / Ryzen AI 9 + 32 GB DDR5 → Bester Preis-Leistungs-Wert unter Windows/Linux.
- NAS alleine → Zu langsam ohne GPU-Erweiterung.
- NAS + dedizierter Mini-PC → Die sauberste Lösung für NAS-Besitzer.
Wer 2026 lokale Sprachsteuerung will, die sich wie Jarvis und nicht wie eine Telefonwarteschleife anfühlt, kommt um einen Mini-PC mit 32 GB RAM und einem starken AMD-Chip oder dem Mac Mini M4 nicht herum. Das ist die Hardware-Wahrheit – und ich stehe dazu.
