Lokale KI auf eigenem Server

KI ist nach wie vor in aller Munde, wobei ich der Meinung bin, dass die großen Fortschritte seit der ersten Veröffentlichung von OpenAIs KI ausgeblieben sind. KIs sind und bleiben eine Inselbegabung. Die eine kann gut Gesichter erkennen, die andere erstellt interessante Illustrationen. Wiederum andere können gut übersetzen, gut formulieren, Videos erstellen oder leider auch halluzinieren. Von einer allumfassenden KI sind wir noch weit weg und mit bestimmten Fragen, kann man auch zeigen, dass die KIs rasch an ihre Grenzen stoßen. So wie im Alltag über KI gesprochen wird, dichten (framen) wir ihnen Intelligenz zu. Die Entwickler von KIs unterstützen dieses Framing, indem sie dem Benutzer vermittlen, die KI „denke nach“, wenn wir mehrere Sekunden auf eine Antwort warten müssen. Und wenn wir ein LLM darauf hinweisen, dass die gegebene Antwort falsch ist, liefert sie eine nette Entschuldigung, als wäre sie ein Mensch.

Üblicherweise läuft eine KI-Anwendung als Cloud-Service, weil es viel Rechenleistung in Anspruch nimmt und der eigene PC oder Laptop damit nur mühsam zurecht kommt. Wir wissen aber, dass Cloud nichts anderes bedeutete als „der Rechner anderer Leute“. Das heißt, alles was wir einer KI anvertrauen, kann und wird von dieser für weitere Zwecke genutzt werden. Ich erinnere gerne an den Film „Made to measure“ (siehe auch https://linux-bildung.at/2021/09/made-to-measure-google-daten-analysiert/),….

Große Konzerne nutzten nicht nur die Daten, mit der wir die KI direkt füttern, sondern z.b im Falle von Google, quasi alles, das wir Online posten. Siehe auch „https://gizmodo.com/google-says-itll-scrape-everything-you-post-online-for-1850601486“ Und auch jene Dinge, die wir bei Google-Diensten hochladen (E-Mails, Dokumente,…) Mehr dazu in Googles AGBs – Besonders relevant ist der Abschnitt, in dem erläutert wird, welche Nutzungsrechte ihr Google an euren Inhalten einräumt und dass Google diese Rechte auch an Dritte weitergeben darf. https://policies.google.com/terms#toc-permission („Diese Lizenz erlaubt Google:“….) Man kann annehmen, dass ähnliches für andere große Konzerne gilt (Microsoft, Meta,…)

Das LLMs Urheberrechtsverletzungen begehen ist schon lange bekannt. https://www.derstandard.at/story/3000000242439/ehemaliger-mitarbeiter-erhebt-schwere-vorwuerfe-gegen-openai und auch mit einer Studie untermauert: https://orf.at/stories/3389468/
https://www.theatlantic.com/technology/archive/2025/03/libgen-meta-openai/682093/

KI hat aber noch andere Problem, Energieverbrauch, Bias, Deepfakes, mangelnde Transparenz, ethische Fragen, etc.

Der eigene KI Server

Zu Test- und Lernzwecken bauen wir einen eigenen KI-Server auf Basis von ollama und openweb-UI.

Folgende Hardware haben wir für den KI-Server verwendet, die ca. 1000€ gekostet hat.

ASUS Dual Radeon RX 7600 XT OC, DUAL-RX7600XT-O16G, 16GB
AMD Ryzen 5 7600X, 6C/12T, 4.70-5.30GHz
ASUS PRIME B650-PLUS
INTER-TECH B-42
ENDORFY Spartan 5 Max
ENDORFY Supremo FM5 Gold 650W ATX
WESTERN Digital WD Blue SN580 NVMe SSD
500GB
Kingston FURY Beast RGB DIMM Kit 16GB, DDR5-5200

Das wichtigste bei einem KI-Server ist die Grafikkarte und der dazugehörige Speicher, weil ein LLM im besten Fall auf einer GPU und nicht auf der CPU läuft, da es dadurch deutlich schneller ist.

Den Rechner zusammenbauen war kein großes Problem und durften zwei Schüler übernehmen. Anschließend haben wir Debian 12 ohne UI auf dem Computer installiert.

Was ist Ollama?

Ollama ist eine moderne Plattform, die es ermöglicht, Open-Source-Sprachmodelle unkompliziert direkt auf dem eigenen Rechner auszuführen. Die Plattform bündelt Modellgewichte, Konfigurationen und Daten in einem einzigen, durch eine Modelfile definierten Paket, wodurch aufwändige Installations- und Konfigurationsschritte entfallen. So können leistungsstarke KI-Modelle lokal genutzt werden, ohne sich um komplexe Einstellungen oder die optimale GPU-Nutzung kümmern zu müssen.

Um Ollama unter Debian zu installieren würde es reichen folgenden Befehl auszuführen.

curl -fsSL https://ollama.com/install.sh | sh

Sicherheitstechnisch ist das mehr als bedenklich, weil nicht klar ist, was install.sh wirklich auf dem eigenen Rechner installiert. Daher immer zuerst das install.sh herunterladen und überprüfen, ob das Skript keinen schadhaften Code enthält. Es besteht aber auch die Möglichkeit der manuellen Installation. Mehr dazu unter: https://github.com/ollama/ollama/blob/main/docs/linux.md#manual-install

Damit das LLM auch auf der GPU und nicht auf der CPU läuft, brauchen wir noch entsprechende Treiber für die installierte Grafikkarte.

wget https://repo.radeon.com/amdgpu-install/6.4/ubuntu/jammy/amdgpu-install_6.4.60400-1_all.deb
sudo apt install ./amdgpu-install_6.4.60400-1_all.deb
sudo apt update
sudo apt install -y python3-setuptools python3-wheel
sudo usermod -a -G render,video $LOGNAME # Add the current user to the render and video groups
sudo apt install rocm

Details dazu liefert auch die Website: https://rocm.docs.amd.com/projects/install-on-linux/en/latest/install/quick-start.html

Bevor wir ollama jetzt starten, müssen wir uns noch für ein Modell entscheiden. Eine aktuelle Liste von Modellen findet sich unter: https://ollama.com/search

Natürlich können mehrere Modelle heruntergeladen werden, aber nutzen kann man immer nur eines. Für jedes Modell existieren verschiedene Versionen, mit einer unterschiedlichen Anzahl an Parametern und Größe. Wichtig ist, dass das Modell nicht größer ist, als der verhandene VRAM der GPU, da sonst nicht das ganze Modell in den Speicher geladen werden kann.

Egal ob Gemma, Deepseek, Mistral oder Llama, jedes Modell hat seine Vor- und Nachteile. Einfach verschiedene Modelle probieren und vergleichen.

Wir starten mal mit

ollama run gemma3:12b

Ein kurzes Video zeigt, dass die Antwort sehr flott generiert wird.

Ollama mit Gemma3:12b in Aktion

Um die KI noch anderen Personen zugänglich zu machen, eignet sich openweb-ui als Frontend sehr gut. Die Installation ist sehr gut dokumentiert, egal ob man dies mit Docker, Python oder dem Installationsscript macht.

https://docs.openwebui.com

Verweise:

^{Image by Gerd Altmann from Pixabay}

Veröffentlicht von Thomas K am 06.05.202506.05.2025

Der eigene KI Server

Was ist Ollama?

Verweise:

0 Kommentare

Schreibe einen Kommentar Antworten abbrechen

Kurzbeitrag

Tschüss Privatsphäre! – So verraten Tinder, Spotify & Co. intime Details von dir

Kurzbeitrag

Digitale Souveränität – warum?

Kurzbeitrag

Datenschutz ist Gesellschaftsschutz

Lokale KI auf eigenem Server

Veröffentlicht von Thomas K am 06.05.202506.05.2025

Der eigene KI Server

Was ist Ollama?

Verweise:

0 Kommentare

Schreibe einen Kommentar Antworten abbrechen

Verwandte Beiträge

Kurzbeitrag

Tschüss Privatsphäre! – So verraten Tinder, Spotify & Co. intime Details von dir

Kurzbeitrag

Digitale Souveränität – warum?

Kurzbeitrag

Datenschutz ist Gesellschaftsschutz