Ollama Artikel 06 von 08

Ollama-API praktisch nutzen

Vom Browser zur Integration: lokale Modelle per REST, curl, Python und OpenAI-kompatibler Base-URL ansprechen.

Hier nutzt du die Ollama API mit curl, Python und kompatiblen Clients für eigene lokale Tools. Nach Open WebUI geht es um den Zugriff ohne Oberfläche. Ollama läuft als lokaler Server auf Port 11434. Jede Anwendung die HTTP-Anfragen stellen kann, kann damit kommunizieren. Das ist der Grund warum sich Ollama so gut in eigene Workflows einbinden lässt.

Die API folgt weitgehend dem OpenAI-Format. Viele Tools und Libraries die für OpenAI entwickelt wurden, funktionieren mit Ollama ohne Anpassungen, nur mit einer anderen Basis-URL.

Die wichtigsten Endpunkte

POST

/api/generate

Text generieren. Einfachste Anfrage: Modell und Prompt übergeben, Antwort kommt zurück.

POST

/api/chat

Chat-Format mit Nachrichten-Verlauf. Entspricht dem OpenAI Chat Completions Format.

GET

/api/tags

Alle installierten Modelle auflisten.

POST

/api/pull

Modell per API herunterladen.

POST

/v1/chat/completions

OpenAI-kompatibler Endpunkt. Funktioniert mit allen OpenAI-kompatiblen Libraries direkt.

Erste Anfrage mit curl

Ollama muss laufen. Dann reicht im Terminal:

Einfache Anfrage

curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3.5:9b",
    "prompt": "Was ist lokale KI in einem Satz?",
    "stream": false
  }'

Mit "stream": false kommt die vollständige Antwort auf einmal zurück. Ohne diesen Parameter streamt Ollama die Antwort Token für Token, was für Oberflächen nützlich ist.

Chat-Format mit Verlauf

Für Gespräche mit Kontext nutzt du den /api/chat Endpunkt und gibst den bisherigen Nachrichtenverlauf mit:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3.5:9b",
    "messages": [
      { "role": "system", "content": "Du bist ein hilfreicher Assistent." },
      { "role": "user", "content": "Erkläre mir den Unterschied zwischen RAM und VRAM." }
    ],
    "stream": false
  }'

Mit Python nutzen

Über die OpenAI-Python-Library kannst du Ollama ohne eigene HTTP-Logik ansprechen. Einfach die Basis-URL ändern:

pip install openai

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # beliebiger Wert, wird nicht geprüft
)

response = client.chat.completions.create(
    model="qwen3.5:9b",
    messages=[
        {"role": "user", "content": "Was ist Ollama?"}
    ]
)

print(response.choices[0].message.content)

Der Vorteil: Skripte die du für OpenAI geschrieben hast, laufen mit Ollama ohne Änderungen an der eigentlichen Logik. Nur base_url und model müssen angepasst werden.

Ollama-eigene Python-Library

Alternativ gibt es die offizielle Ollama-Library die alle API-Funktionen direkt abbildet:

pip install ollama

import ollama

response = ollama.chat(
    model="qwen3.5:9b",
    messages=[
        {"role": "user", "content": "Schreib mir einen kurzen Python-Snippet der die aktuelle Zeit ausgibt."}
    ]
)

print(response.message.content)

Wie ich die API nutze

Ich binde Ollama hauptsächlich über n8n in Automatisierungen ein. n8n hat einen eigenen Ollama-Node der die API-Details versteckt. Für eigene Skripte nutze ich die OpenAI-Library mit geänderter Base-URL, weil ich so denselben Code auch gegen echte OpenAI-Modelle laufen lassen kann wenn ich es brauche. Artikel 07 zeigt das konkret am Beispiel eines n8n-Workflows.

Der nächste sinnvolle Schritt

Wenn du diesen Teil verstanden hast, passen diese Seiten als Nächstes:

Häufige Fragen

Welche URL nutzt die Ollama API lokal?

Standardmäßig läuft Ollama lokal auf Port 11434. Viele Tools sprechen daher http://localhost:11434 an.

Kann ich Ollama wie eine OpenAI API nutzen?

Für viele Clients gibt es OpenAI-kompatible Endpunkte oder Base-URL-Konfigurationen. Details hängen vom jeweiligen Tool ab.

Wofür lohnt sich die API?

Für Skripte, Automationen, lokale Assistenten, n8n-Workflows und Anwendungen, die nicht über eine Cloud-KI laufen sollen.

Zurück: Open WebUI verbinden Weiter: Ollama in n8n einbinden