Einmal AI mit ohne bitte

Ich mache mir die Welt…

Widdewiddewitt und Drei macht Neune !! Ich mach’ mir die Welt Widdewidde wie sie mir gefällt.

Es gibt diese Momente, in denen man merkt: Okay. Das hier ist kein Hype mehr. Das ist eine Verschiebung.

Aktuell mehr und mehr im Kommen ist Claude Code von Anthropic.
Mein erster Kontakt damit ließ mich tatsächlich staunen – und das passiert mir nicht oft.

Vor zwei Jahren war ich schon ernsthaft beeindruckt von OpenAI und dem, was sie mit ChatGPT auf die Beine gestellt haben. Damals fühlte sich das an wie: Zukunft. Heute fühlt sich das eher an wie: frühe Version.

Schon nach einem ersten Eintauchen in Claude Code war klar:
Das hier spielt in einer anderen Liga – besonders im Kontext von Softwareentwicklung. Strukturierter. Kontextbewusster. Weniger „Raterei“, mehr System.

Und während die kostenfreie Nutzung von ChatGPT zunehmend eingeschränkt wird und man merkt, dass Token eben doch Währung sind, entsteht eine andere Frage:

Warum eigentlich abhängig bleiben? Warum nicht die Kontrolle zurückholen?

Denn das wirklich Spannende ist nicht, dass Claude Code gut ist.
Das wirklich Spannende ist: Man kann sich eine vergleichbare Entwicklungsumgebung lokal selbst bauen – auf einem starken Ubuntu-Server, mit Open-Source-Modellen über Ollama.

Keine Token-Kosten. Keine Rate-Limits. Keine API-Abhängigkeit. Nur Rechenleistung. Und Verantwortung!

In diesem Artikel beschreibe ich, wie ich mir meine eigene interaktive KI-Coding-Welt aufgesetzt habe – lokal, skalierbar, vollständig unter eigener Kontrolle. Nicht aus Trotz. Sondern aus Überzeugung. Because the Dude abides.

Geht nicht? Gibt’s nicht!

Seit Anfang 2026 ist etwas möglich, das viele für ausgeschlossen hielten – und es ist dabei erstaunlich elegant gelöst.

Claude selbst – also das große Modell von Anthropic – läuft weiterhin ausschließlich in der Cloud. Es lässt sich nicht lokal installieren, nicht self-hosten, nicht einfach auf einen Ubuntu-Server werfen und loslegen.

Aber hier kommt der interessante Teil:

Claude Code – das agentische Coding-Tool von Anthropic, das direkt im Terminal läuft und für Code-Editing, Refactoring, Multi-File-Projekte und Tool-Integration optimiert ist – unterstützt seit Januar 2026 offiziell die Anthropic-Messages-API-Kompatibilität von Ollama.

Und genau hier verschiebt sich das Spielfeld.

Das bedeutet konkret: Du kannst Claude Code mit jedem lokalen Ollama-Modell betreiben. Komplett kostenlos. Ohne Token-Limits. Ohne API-Key von Anthropic. Und zu 100 % lokal auf deinem starken Ubuntu-Server.

Die agentische Logik bleibt erhalten. Planung. Tool-Use. Dateiänderungen über mehrere Module hinweg. Refactoring mit Kontext über ganze Projekte.

Claude Code „denkt“ weiterhin wie Claude Code. Nur das zugrunde liegende Sprachmodell kommt jetzt nicht mehr aus der Anthropic-Cloud, sondern aus deiner eigenen Maschine. Dabei kann man sogar wählen: CodeLlama oder DeepSeek-Coder oder Qwen3-Coder oder GLM-4.7. Alles lokal. Alles unter deiner Kontrolle.

Also holt es wieder raus – das alte Eisen. Am Ende eine Frage von RAM (hier ohne Luftfahrwerk) und CPU – bzw. GPU.

Claude Code + Ollama auf Ubuntu Server einrichten

Jetzt kommen wir vom Manifest in die Realität. Schraubenzieher raus, Ärmel hoch. Bevor wir loslegen, eine kleine, aber nicht ganz unwichtige Randnotiz: Es ist hilfreich, wenn sudo aktiv ist – und ihr euer Passwort kennt. Ja, das klingt banal. Nein, das ist kein Witz. Spätestens wenn ihr Systemdienste einrichtet oder Ports öffnet, wollt ihr nicht anfangen, Passwörter zu raten wie ein Script-Kiddie in 2004.

Als erstes installieren wir Ollama auf unseren sich bereits vorgewärmten Server.

curl -fsSL https://ollama.com/install.sh | sh

Wer die Installation auf einem Linux-Server durchzieht – insbesondere auf einem dedizierten Ubuntu-Host im Keller, Rechenzentrum oder Rack – wird am Ende der Ollama-Installation vermutlich folgenden Hinweis sehen:

WARNING: No NVIDIA/AMD GPU detected. Ollama will run in CPU-only mode.

Keine Panik.

Viele Server – besonders das „alte Eisen“, das nie für 3D-Shooter oder Raytracing optimiert war – kommen ohne NVIDIA- oder AMD-GPU daher. Keine CUDA-Cores. Kein VRAM. Kein Bling. Und ja, GPU-Beschleunigung ist sexy. Aber sie ist nicht zwingend.

Ein solider Server mit:
– vielen CPU-Kernen
– hoher Taktfrequenz
– und vor allem ordentlich RAM

macht das erstaunlich gut weg.

Gerade Coding-Modelle in moderater Größe (7B–14B) laufen auf einer starken CPU-Maschine absolut brauchbar – insbesondere wenn genug RAM vorhanden ist, um das Modell sauber im Speicher zu halten. Der Unterschied ist am Ende keiner von „geht oder geht nicht“, sondern von „Antwort in 1–2 Sekunden“ versus „Antwort in 4–8 Sekunden“.

Und ganz ehrlich: Wenn man vorher Cloud-Roundtrips hatte, Rate-Limits oder Token-Timeouts, fühlt sich selbst CPU-only oft schneller an – weil es konstant ist. Kein Netzwerk. Keine API-Drossel. Keine Rechnung am Monatsende. Nur du, dein Server und ein Modell, das tut, was du ihm sagst. Und das ist der Punkt.

Das Hirn: Ein ernstzunehmendes Coding-Modell

Als Nächstes brauchen wir das, worum sich am Ende alles dreht:
Ein starkes Coding-Modell. Claude Code bringt die Agent-Logik mit – Planung, Tool-Use, Multi-File-Refactoring. Aber wie gut das Ganze wirklich ist, hängt maßgeblich vom zugrunde liegenden Modell ab.

Wenn wir Claude-Code-ähnliche Performance wollen, brauchen wir ein Modell, das:

– strukturiert denken kann
– längere Code-Kontexte versteht
– sauber diff-basiert Änderungen formuliert
– und nicht bei komplexeren Refactorings in sich zusammenfällt.

Sehr stark und aktuell extrem beliebt sind Qwen3-Coder von Alibaba Cloud – insbesondere die :flash oder :cloud Varianten für höhere Geschwindigkeit und GLM-4.7 von Zhipu AI – ebenfalls oft als optimierte Speed-Variante verfügbar. Beide Modelle liefern bemerkenswert gute Ergebnisse bei Code-Generierung, Bugfixing und strukturellem Refactoring – gerade in Kombination mit der Agent-Logik von Claude Code.

Wer es klassischer mag oder bewährte Kandidaten bevorzugt, greift zu:

– CodeLlama von Meta
– DeepSeek-Coder-V2 von DeepSeek
– gpt-oss:20b (Open-Source-Variante mit ordentlicher Modellgröße)

Wichtig ist weniger der Name – sondern: Modellgröße vs. verfügbarer RAM, Kontextlänge und Inferenzgeschwindigkeit auf eurer Hardware.

Ein 20B-Modell auf einer Maschine mit 32 GB RAM kann funktionieren – aber es wird sportlich. Ein gut quantisiertes 7B–14B-Modell auf 64–128 GB RAM dagegen fühlt sich oft erstaunlich souverän an.

Hier entscheidet nicht Marketing. Hier entscheidet eure Hardware. Und genau das ist der Unterschied zur Cloud: Man skaliert nicht mit Kreditkarte. Man skaliert mit Metall.

Unser Test geht auf einen Server mit 98GB RAM. Im aktuellen alltäglichen Betrieb sind davon 94 GB RAM frei. Das ist also kein Aldi-Server mehr – das ist schon ein (kleines) Statement. Mit ~86 GB wirklich frei verfügbarem RAM können wir ernsthaft spielen. Nicht „7B mal gucken“, sondern erwachsen.

Wir wollen aber auch keinen reinen Coder, sondern einen Allzweck-Dude-KI-Agenten, der Claude-Code-Logik liefern kann – für Java, Bash, Linux, Docker, Webseiten, mal ein bisschen NLP-Kram, alles lokal, CPU-only tauglich auf einem 94‑GB-RAM-Server. Also entscheiden wir uns für einen ersten Test für:

Qwen3-Coder 32B, quantisiert (Q4 oder Q5)

Das Modell bietet uns Multi-File & Refactoring und ist dabei stark bei Java, gerade bei komplexen Projekten. Es bietet auch Tool-Use & CLI für Bash-Skripte, Docker-Kommandos, System-Setup. Aber auch Web & einfache NLP: HTML, CSS, kleine JS-Schnipsel laufen solide. Es ist CPU-only tauglich mit Quantisierung (~20–30 GB RAM) nutzt es die 94 GB locker.

ollama pull qwen3-coder

Wie viele Bier ihr nun aus dem Keller holen müsst, errechnet sich recht einfach aus eurer Internetgeschwindigkeit, der gewählten Modellgröße – und natürlich eurem persönlichen Durst. Keiner sagt, dass ihr nicht erst austrinken könnt, bevor Ollama fertig geladen hat.

Für die, die nur mal spielen wollen: Für nicht-Coding-Aufgaben (Texte, Chat, Ideen generieren) genügen kleinere Modelle für Ollama, z. B. CodeLlama 13B, um schnelleren Durchsatz zu haben.

Und schon können wir Ollama starten. Entweder zum probieren direkt:

ollama serve

Oder – wir wollen es ja auf dem Server verfügbar machen – als Dienst:

sudo systemctl enable --now ollama

Wir wollen später aus dem Netzwerk darauf zugreifen können via claude code, weshalb wir den Server noch sichtbar machen müssen. Dazu editieren wir die Konfiguration des Services:

sudo systemctl edit ollama

Wir aktivieren den Service:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

Und starten den Service durch:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Was läuft denn hier?

Um nun hands-on unsere Freude zu haben, müssen wir Claude Code installieren. Claude Code wird über npm installiert (Node.js muss da sein, was wir mal eben sicherstellen):

sudo apt install nodejs npm -y
sudo npm install -g @anthropic-ai/claude-code

Nun müssen wir Claude Code auf Ollama umstellen (das ist der entscheidende Schritt). Dazu setzen wir diese Environment-Variablen (am besten in ~/.bashrc oder ~/.profile für Dauerhaftigkeit):

echo 'export ANTHROPIC_AUTH_TOKEN=ollama' >> ~/.bashrc
echo 'export ANTHROPIC_API_KEY=""'        >> ~/.bashrc
echo 'export ANTHROPIC_BASE_URL=http://127.0.0.1:11434' >> ~/.bashrc
source ~/.bashrc

Um claude nicht zu verwirren, müssen wir es stets mit dem von uns per ollama bereitgestellten Modell starten. Damit wir das nicht jedes mal komplett eingeben müssen, legen wir ein Alias an:

alias claude-local='claude --model qwen3-coder'

Und das war es schon – wir gehen in ein beliebigen Verzeichnis zum Testen:

claude-local

Viel Spaß beim Spielen und Probieren – oder beim Geizen und dafür den Keller Heizen.