{"id":101,"date":"2026-02-23T16:21:47","date_gmt":"2026-02-23T16:21:47","guid":{"rendered":"https:\/\/walterism.naphta.li\/?p=101"},"modified":"2026-02-23T18:27:03","modified_gmt":"2026-02-23T18:27:03","slug":"claude-einmal-mit-ohne","status":"publish","type":"post","link":"https:\/\/walterism.naphta.li\/?p=101","title":{"rendered":"Einmal AI mit ohne bitte"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\">Ich mache mir die Welt&#8230;<\/h2>\n\n\n\n<p><em>Widdewiddewitt und Drei macht Neune !! Ich mach&#8217; mir die Welt Widdewidde wie sie mir gef\u00e4llt.<\/em><\/p>\n\n\n\n<p>Es gibt diese Momente, in denen man merkt: Okay. Das hier ist kein Hype mehr. Das ist eine Verschiebung.<\/p>\n\n\n\n<p>Aktuell mehr und mehr im Kommen ist Claude Code von Anthropic.<br>Mein erster Kontakt damit lie\u00df mich tats\u00e4chlich staunen \u2013 und das passiert mir nicht oft.<\/p>\n\n\n\n<p>Vor zwei Jahren war ich schon ernsthaft beeindruckt von OpenAI und dem, was sie mit ChatGPT auf die Beine gestellt haben. Damals f\u00fchlte sich das an wie: Zukunft. Heute f\u00fchlt sich das eher an wie: fr\u00fche Version.<\/p>\n\n\n\n<p>Schon nach einem ersten Eintauchen in Claude Code war klar:<br>Das hier spielt in einer anderen Liga \u2013 besonders im Kontext von Softwareentwicklung. Strukturierter. Kontextbewusster. Weniger \u201eRaterei\u201c, mehr System.<\/p>\n\n\n\n<p>Und w\u00e4hrend die kostenfreie Nutzung von ChatGPT zunehmend eingeschr\u00e4nkt wird und man merkt, dass Token eben doch W\u00e4hrung sind, entsteht eine andere Frage:<\/p>\n\n\n\n<p><em>Warum eigentlich abh\u00e4ngig bleiben? Warum nicht die Kontrolle zur\u00fcckholen?<\/em><\/p>\n\n\n\n<p>Denn das wirklich Spannende ist nicht, dass Claude Code gut ist.<br>Das wirklich Spannende ist: Man kann sich eine vergleichbare Entwicklungsumgebung lokal selbst bauen \u2013 auf einem starken Ubuntu-Server, mit Open-Source-Modellen \u00fcber Ollama.<\/p>\n\n\n\n<p><em>Keine Token-Kosten. Keine Rate-Limits. Keine API-Abh\u00e4ngigkeit. Nur Rechenleistung. Und Verantwortung!<\/em><\/p>\n\n\n\n<p>In diesem Artikel beschreibe ich, wie ich mir meine eigene interaktive KI-Coding-Welt aufgesetzt habe \u2013 lokal, skalierbar, vollst\u00e4ndig unter eigener Kontrolle. Nicht aus Trotz. Sondern aus \u00dcberzeugung. Because the Dude abides.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Geht nicht? Gibt&#8217;s nicht!<\/h2>\n\n\n\n<p>Seit Anfang 2026 ist etwas m\u00f6glich, das viele f\u00fcr ausgeschlossen hielten \u2013 und es ist dabei erstaunlich elegant gel\u00f6st.<\/p>\n\n\n\n<p>Claude selbst \u2013 also das gro\u00dfe Modell von Anthropic \u2013 l\u00e4uft weiterhin ausschlie\u00dflich in der Cloud. Es l\u00e4sst sich nicht lokal installieren, nicht self-hosten, nicht einfach auf einen Ubuntu-Server werfen und loslegen.<\/p>\n\n\n\n<p>Aber hier kommt der interessante Teil:<\/p>\n\n\n\n<p>Claude Code \u2013 das agentische Coding-Tool von Anthropic, das direkt im Terminal l\u00e4uft und f\u00fcr Code-Editing, Refactoring, Multi-File-Projekte und Tool-Integration optimiert ist \u2013 unterst\u00fctzt seit Januar 2026 offiziell die Anthropic-Messages-API-Kompatibilit\u00e4t von Ollama.<\/p>\n\n\n\n<p>Und genau hier verschiebt sich das Spielfeld.<\/p>\n\n\n\n<p>Das bedeutet konkret: Du kannst Claude Code mit jedem lokalen Ollama-Modell betreiben. Komplett kostenlos. Ohne Token-Limits. Ohne API-Key von Anthropic. Und zu 100 % lokal auf deinem starken Ubuntu-Server.<\/p>\n\n\n\n<p>Die agentische Logik bleibt erhalten. Planung. Tool-Use. Datei\u00e4nderungen \u00fcber mehrere Module hinweg. Refactoring mit Kontext \u00fcber ganze Projekte.<\/p>\n\n\n\n<p>Claude Code \u201edenkt\u201c weiterhin wie Claude Code. Nur das zugrunde liegende Sprachmodell kommt jetzt nicht mehr aus der Anthropic-Cloud, sondern aus deiner eigenen Maschine. Dabei kann man sogar w\u00e4hlen: CodeLlama oder DeepSeek-Coder oder Qwen3-Coder oder GLM-4.7. Alles lokal. Alles unter deiner Kontrolle.<\/p>\n\n\n\n<p>Also holt es wieder raus &#8211; das alte Eisen. Am Ende eine Frage von RAM (hier ohne Luftfahrwerk) und CPU &#8211; bzw. GPU.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Claude Code + Ollama auf Ubuntu Server einrichten<\/h2>\n\n\n\n<p>Jetzt kommen wir vom Manifest in die Realit\u00e4t. Schraubenzieher raus, \u00c4rmel hoch. Bevor wir loslegen, eine kleine, aber nicht ganz unwichtige Randnotiz: Es ist hilfreich, wenn sudo aktiv ist \u2013 und ihr euer Passwort kennt. Ja, das klingt banal. Nein, das ist kein Witz. Sp\u00e4testens wenn ihr Systemdienste einrichtet oder Ports \u00f6ffnet, wollt ihr nicht anfangen, Passw\u00f6rter zu raten wie ein Script-Kiddie in 2004.<\/p>\n\n\n\n<p>Als erstes installieren wir Ollama auf unseren sich bereits vorgew\u00e4rmten Server. <\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>curl -fsSL https:\/\/ollama.com\/install.sh | sh<\/code><\/pre>\n\n\n\n<p>Wer die Installation auf einem Linux-Server durchzieht \u2013 insbesondere auf einem dedizierten Ubuntu-Host im Keller, Rechenzentrum oder Rack \u2013 wird am Ende der Ollama-Installation vermutlich folgenden Hinweis sehen:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><strong>WARNING<\/strong>: No NVIDIA\/AMD GPU detected. Ollama will run in CPU-only mode.<\/p>\n<\/blockquote>\n\n\n\n<p>Keine Panik. <\/p>\n\n\n\n<p>Viele Server \u2013 besonders das \u201ealte Eisen\u201c, das nie f\u00fcr 3D-Shooter oder Raytracing optimiert war \u2013 kommen ohne NVIDIA- oder AMD-GPU daher. Keine CUDA-Cores. Kein VRAM. Kein Bling. Und ja, GPU-Beschleunigung ist sexy. Aber sie ist nicht zwingend.<\/p>\n\n\n\n<p>Ein solider Server mit:<br>&#8211; vielen CPU-Kernen<br>&#8211; hoher Taktfrequenz<br>&#8211; und vor allem ordentlich RAM<br><br>macht das erstaunlich gut weg.<\/p>\n\n\n\n<p>Gerade Coding-Modelle in moderater Gr\u00f6\u00dfe (7B\u201314B) laufen auf einer starken CPU-Maschine absolut brauchbar \u2013 insbesondere wenn genug RAM vorhanden ist, um das Modell sauber im Speicher zu halten. Der Unterschied ist am Ende keiner von \u201egeht oder geht nicht\u201c, sondern von \u201eAntwort in 1\u20132 Sekunden\u201c versus \u201eAntwort in 4\u20138 Sekunden\u201c.<\/p>\n\n\n\n<p>Und ganz ehrlich: Wenn man vorher Cloud-Roundtrips hatte, Rate-Limits oder Token-Timeouts, f\u00fchlt sich selbst CPU-only oft schneller an \u2013 weil es konstant ist. Kein Netzwerk. Keine API-Drossel. Keine Rechnung am Monatsende. Nur du, dein Server und ein Modell, das tut, was du ihm sagst. Und das ist der Punkt.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Das Hirn: Ein ernstzunehmendes Coding-Modell<\/h2>\n\n\n\n<p>Als N\u00e4chstes brauchen wir das, worum sich am Ende alles dreht:<br>Ein starkes Coding-Modell. Claude Code bringt die Agent-Logik mit \u2013 Planung, Tool-Use, Multi-File-Refactoring. Aber wie gut das Ganze wirklich ist, h\u00e4ngt ma\u00dfgeblich vom zugrunde liegenden Modell ab.<\/p>\n\n\n\n<p>Wenn wir Claude-Code-\u00e4hnliche Performance wollen, brauchen wir ein Modell, das:<br><br>&#8211; strukturiert denken kann<br>&#8211; l\u00e4ngere Code-Kontexte versteht<br>&#8211; sauber diff-basiert \u00c4nderungen formuliert<br>&#8211; und nicht bei komplexeren Refactorings in sich zusammenf\u00e4llt.<\/p>\n\n\n\n<p>Sehr stark und aktuell extrem beliebt sind Qwen3-Coder von Alibaba Cloud \u2013 insbesondere die :flash oder :cloud Varianten f\u00fcr h\u00f6here Geschwindigkeit und GLM-4.7 von Zhipu AI \u2013 ebenfalls oft als optimierte Speed-Variante verf\u00fcgbar. Beide Modelle liefern bemerkenswert gute Ergebnisse bei Code-Generierung, Bugfixing und strukturellem Refactoring \u2013 gerade in Kombination mit der Agent-Logik von Claude Code.<\/p>\n\n\n\n<p>Wer es klassischer mag oder bew\u00e4hrte Kandidaten bevorzugt, greift zu:<br><br>&#8211; CodeLlama von Meta<br>&#8211; DeepSeek-Coder-V2 von DeepSeek<br>&#8211; gpt-oss:20b (Open-Source-Variante mit ordentlicher Modellgr\u00f6\u00dfe)<\/p>\n\n\n\n<p>Wichtig ist weniger der Name \u2013 sondern: Modellgr\u00f6\u00dfe vs. verf\u00fcgbarer RAM, Kontextl\u00e4nge und Inferenzgeschwindigkeit auf eurer Hardware.<\/p>\n\n\n\n<p>Ein 20B-Modell auf einer Maschine mit 32 GB RAM kann funktionieren \u2013 aber es wird sportlich. Ein gut quantisiertes 7B\u201314B-Modell auf 64\u2013128 GB RAM dagegen f\u00fchlt sich oft erstaunlich souver\u00e4n an.<\/p>\n\n\n\n<p>Hier entscheidet nicht Marketing. Hier entscheidet eure Hardware. Und genau das ist der Unterschied zur Cloud: Man skaliert nicht mit Kreditkarte. Man skaliert mit Metall.<\/p>\n\n\n\n<p>Unser Test geht auf einen Server mit 98GB RAM. Im aktuellen allt\u00e4glichen Betrieb sind davon 94 GB RAM frei. Das ist also kein Aldi-Server mehr \u2013 das ist schon ein (kleines) Statement. Mit ~86 GB wirklich frei verf\u00fcgbarem RAM k\u00f6nnen wir ernsthaft spielen. Nicht \u201e7B mal gucken\u201c, sondern erwachsen. <\/p>\n\n\n\n<p>Wir wollen aber auch keinen reinen <em>Coder<\/em>, sondern einen Allzweck-Dude-KI-Agenten, der Claude-Code-Logik liefern kann \u2013 f\u00fcr Java, Bash, Linux, Docker, Webseiten, mal ein bisschen NLP-Kram, alles lokal, CPU-only tauglich auf einem 94\u2011GB-RAM-Server. Also entscheiden wir uns f\u00fcr einen ersten Test f\u00fcr:<\/p>\n\n\n\n<p><strong>Qwen3-Coder 32B<\/strong>, quantisiert (Q4 oder Q5)<\/p>\n\n\n\n<p>Das Modell bietet uns Multi-File &amp; Refactoring und ist dabei stark bei Java, gerade bei komplexen Projekten. Es bietet auch Tool-Use &amp; CLI f\u00fcr Bash-Skripte, Docker-Kommandos, System-Setup. Aber auch Web &amp; einfache NLP: HTML, CSS, kleine JS-Schnipsel laufen solide. Es ist CPU-only tauglich mit Quantisierung (~20\u201330 GB RAM) nutzt es die 94 GB locker.<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>ollama pull qwen3-coder<\/code><\/pre>\n\n\n\n<p>Wie viele Bier ihr nun aus dem Keller holen m\u00fcsst, errechnet sich recht einfach aus eurer Internetgeschwindigkeit, der gew\u00e4hlten Modellgr\u00f6\u00dfe \u2013 und nat\u00fcrlich eurem pers\u00f6nlichen Durst. Keiner sagt, dass ihr nicht erst austrinken k\u00f6nnt, bevor Ollama fertig geladen hat.<\/p>\n\n\n\n<p><em>F\u00fcr die, die nur mal spielen wollen: F\u00fcr nicht-Coding-Aufgaben (Texte, Chat, Ideen generieren) gen\u00fcgen kleinere Modelle f\u00fcr Ollama, z. B. CodeLlama 13B, um schnelleren Durchsatz zu haben. <\/em><\/p>\n\n\n\n<p>Und schon k\u00f6nnen wir Ollama starten. Entweder zum probieren direkt:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>ollama serve<\/code><\/pre>\n\n\n\n<p>Oder &#8211; wir wollen es ja auf dem Server verf\u00fcgbar machen &#8211; als Dienst:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>sudo systemctl enable --now ollama<\/code><\/pre>\n\n\n\n<p>Wir wollen sp\u00e4ter aus dem Netzwerk darauf zugreifen k\u00f6nnen via claude code, weshalb wir den Server noch sichtbar machen m\u00fcssen. Dazu editieren wir die Konfiguration des Services:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>sudo systemctl edit ollama<\/code><\/pre>\n\n\n\n<p>Wir aktivieren den Service:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>&#91;Service]\nEnvironment=\"OLLAMA_HOST=0.0.0.0\"<\/code><\/pre>\n\n\n\n<p>Und starten den Service durch:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>sudo systemctl daemon-reload\nsudo systemctl restart ollama<\/code><\/pre>\n\n\n\n<h2 class=\"wp-block-heading\">Was l\u00e4uft denn hier?<\/h2>\n\n\n\n<p>Um nun hands-on unsere Freude zu haben, m\u00fcssen wir Claude Code installieren. Claude Code wird \u00fcber npm installiert (Node.js muss da sein, was wir mal eben sicherstellen):<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>sudo apt install nodejs npm -y\nsudo npm install -g @anthropic-ai\/claude-code<\/code><\/pre>\n\n\n\n<p>Nun m\u00fcssen wir Claude Code auf Ollama umstellen (das ist der entscheidende Schritt). Dazu setzen wir diese Environment-Variablen (am besten in ~\/.bashrc oder ~\/.profile f\u00fcr Dauerhaftigkeit):<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>echo 'export ANTHROPIC_AUTH_TOKEN=ollama' >> ~\/.bashrc\necho 'export ANTHROPIC_API_KEY=\"\"'        >> ~\/.bashrc\necho 'export ANTHROPIC_BASE_URL=http:\/\/127.0.0.1:11434' >> ~\/.bashrc\nsource ~\/.bashrc<\/code><\/pre>\n\n\n\n<p>Um claude nicht zu verwirren, m\u00fcssen wir es stets mit dem von uns per ollama bereitgestellten Modell starten. Damit wir das nicht jedes mal komplett eingeben m\u00fcssen, legen wir ein Alias an:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>alias claude-local='claude --model qwen3-coder'<\/code><\/pre>\n\n\n\n<p>Und das war es schon &#8211; wir gehen in ein beliebigen Verzeichnis zum Testen:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>claude-local<\/code><\/pre>\n\n\n\n<p>Viel Spa\u00df beim Spielen und Probieren &#8211; oder beim Geizen und daf\u00fcr den Keller Heizen.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Ich mache mir die Welt&#8230; Widdewiddewitt und Drei macht Neune !! Ich mach&#8217; mir die Welt Widdewidde wie sie mir gef\u00e4llt. Es gibt diese Momente, in denen man merkt: Okay. Das hier ist kein Hype mehr. Das ist eine Verschiebung. Aktuell mehr und mehr im Kommen ist Claude Code von Anthropic.Mein erster Kontakt damit lie\u00df [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[11,5],"tags":[],"class_list":["post-101","post","type-post","status-publish","format-standard","hentry","category-technik","category-wissenschaft"],"_links":{"self":[{"href":"https:\/\/walterism.naphta.li\/index.php?rest_route=\/wp\/v2\/posts\/101","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/walterism.naphta.li\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/walterism.naphta.li\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/walterism.naphta.li\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/walterism.naphta.li\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=101"}],"version-history":[{"count":26,"href":"https:\/\/walterism.naphta.li\/index.php?rest_route=\/wp\/v2\/posts\/101\/revisions"}],"predecessor-version":[{"id":129,"href":"https:\/\/walterism.naphta.li\/index.php?rest_route=\/wp\/v2\/posts\/101\/revisions\/129"}],"wp:attachment":[{"href":"https:\/\/walterism.naphta.li\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=101"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/walterism.naphta.li\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=101"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/walterism.naphta.li\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=101"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}