Aller au contenu principal
Ollama : exécuter des modèles IA en local facilement
Retour aux articles

Ollama : exécuter des modèles IA en local facilement

Auteur 1 min de lecture

Qu'est-ce qu'Ollama ?

Ollama est un outil open source qui permet d'exécuter des modèles de langage (LLM) directement sur votre machine locale. Plus besoin de dépendre d'APIs cloud payantes ou d'une connexion internet — vos données restent chez vous.

Ollama simplifie considérablement le processus d'installation et d'utilisation des LLM en fournissant une interface en ligne de commande intuitive et une API REST locale.

Installation

Linux et macOS

bash
curl -fsSL https://ollama.com/install.sh | sh

Windows

Téléchargez l'installateur depuis le site officiel d'Ollama.

Vérifier l'installation

bash
ollama --version

Télécharger et exécuter un modèle

Ollama propose un large catalogue de modèles. Pour télécharger et lancer un modèle :

bash
# Télécharger et lancer Llama 3
ollama run llama3

# Télécharger et lancer Mistral
ollama run mistral

# Télécharger et lancer un modèle plus léger
ollama run phi3

La première exécution télécharge le modèle. Les lancements suivants sont quasi instantanés.

Commandes essentielles

bash
# Lister les modèles installés
ollama list

# Télécharger un modèle sans le lancer
ollama pull llama3

# Supprimer un modèle
ollama rm llama3

# Afficher les informations d'un modèle
ollama show llama3

Utiliser l'API REST

Ollama expose une API REST locale sur le port 11434 :

bash
# Générer une réponse
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Explique-moi le machine learning en 3 phrases."
}'

Exemple avec un chat

bash
curl http://localhost:11434/api/chat -d '{
  "model": "llama3",
  "messages": [
    { "role": "user", "content": "Bonjour, comment ça va ?" }
  ]
}'

Intégration avec Python

python
import requests

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "llama3",
    "prompt": "Qu'est-ce que le deep learning ?",
    "stream": False
})

print(response.json()["response"])

Créer un modèle personnalisé

Vous pouvez créer un modèle avec un prompt système personnalisé via un Modelfile :

dockerfile
FROM llama3

SYSTEM """
Tu es un assistant spécialisé en développement web.
Tu réponds toujours en français.
Tu donnes des exemples de code quand c'est pertinent.
"""

PARAMETER temperature 0.7

Puis construisez et utilisez votre modèle :

bash
ollama create mon-assistant -f Modelfile
ollama run mon-assistant

Modèles recommandés

ModèleTailleUsage recommandé
llama34.7 GoUsage général, bonne qualité
mistral4.1 GoRapide, bon en français
phi32.3 GoLéger, idéal pour les petites machines
codellama3.8 GoGénération et analyse de code
llama3:70b40 GoHaute qualité, nécessite un GPU puissant

Configuration matérielle

  • Minimum : 8 Go de RAM, CPU moderne
  • Recommandé : 16 Go de RAM, GPU avec 8 Go+ de VRAM
  • Optimal : 32 Go+ de RAM, GPU NVIDIA avec 16 Go+ de VRAM

Ollama détecte automatiquement votre GPU (NVIDIA, AMD, Apple Silicon) et l'utilise si disponible.

Conclusion

Ollama rend l'IA locale accessible à tous. En quelques commandes, vous pouvez exécuter des modèles performants sur votre propre machine, garder vos données privées et expérimenter librement sans frais d'API. C'est un outil incontournable pour tout développeur qui souhaite intégrer l'IA dans ses projets.

Articles similaires