Ollama : exécuter des modèles IA en local facilement

Qu'est-ce qu'Ollama ?

Ollama est un outil open source qui permet d'exécuter des modèles de langage (LLM) directement sur votre machine locale. Plus besoin de dépendre d'APIs cloud payantes ou d'une connexion internet — vos données restent chez vous.

Ollama simplifie considérablement le processus d'installation et d'utilisation des LLM en fournissant une interface en ligne de commande intuitive et une API REST locale.

Installation

Linux et macOS

bash

curl -fsSL https://ollama.com/install.sh | sh

Windows

Téléchargez l'installateur depuis le site officiel d'Ollama.

Vérifier l'installation

bash

ollama --version

Télécharger et exécuter un modèle

Ollama propose un large catalogue de modèles. Pour télécharger et lancer un modèle :

bash

# Télécharger et lancer Llama 3
ollama run llama3

# Télécharger et lancer Mistral
ollama run mistral

# Télécharger et lancer un modèle plus léger
ollama run phi3

La première exécution télécharge le modèle. Les lancements suivants sont quasi instantanés.

Commandes essentielles

bash

# Lister les modèles installés
ollama list

# Télécharger un modèle sans le lancer
ollama pull llama3

# Supprimer un modèle
ollama rm llama3

# Afficher les informations d'un modèle
ollama show llama3

Utiliser l'API REST

Ollama expose une API REST locale sur le port 11434 :

bash

# Générer une réponse
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Explique-moi le machine learning en 3 phrases."
}'

Exemple avec un chat

bash

curl http://localhost:11434/api/chat -d '{
  "model": "llama3",
  "messages": [
    { "role": "user", "content": "Bonjour, comment ça va ?" }
  ]
}'

Intégration avec Python

python

import requests

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "llama3",
    "prompt": "Qu'est-ce que le deep learning ?",
    "stream": False
})

print(response.json()["response"])

Créer un modèle personnalisé

Vous pouvez créer un modèle avec un prompt système personnalisé via un Modelfile :

dockerfile

FROM llama3

SYSTEM """
Tu es un assistant spécialisé en développement web.
Tu réponds toujours en français.
Tu donnes des exemples de code quand c'est pertinent.
"""

PARAMETER temperature 0.7

Puis construisez et utilisez votre modèle :

bash

ollama create mon-assistant -f Modelfile
ollama run mon-assistant

Modèles recommandés

Modèle	Taille	Usage recommandé
`llama3`	4.7 Go	Usage général, bonne qualité
`mistral`	4.1 Go	Rapide, bon en français
`phi3`	2.3 Go	Léger, idéal pour les petites machines
`codellama`	3.8 Go	Génération et analyse de code
`llama3:70b`	40 Go	Haute qualité, nécessite un GPU puissant

Configuration matérielle

Minimum : 8 Go de RAM, CPU moderne
Recommandé : 16 Go de RAM, GPU avec 8 Go+ de VRAM
Optimal : 32 Go+ de RAM, GPU NVIDIA avec 16 Go+ de VRAM

Ollama détecte automatiquement votre GPU (NVIDIA, AMD, Apple Silicon) et l'utilise si disponible.

Conclusion

Ollama rend l'IA locale accessible à tous. En quelques commandes, vous pouvez exécuter des modèles performants sur votre propre machine, garder vos données privées et expérimenter librement sans frais d'API. C'est un outil incontournable pour tout développeur qui souhaite intégrer l'IA dans ses projets.

Ollama : exécuter des modèles IA en local facilement

Qu'est-ce qu'Ollama ?

Installation

Linux et macOS

Windows

Vérifier l'installation

Télécharger et exécuter un modèle

Commandes essentielles

Utiliser l'API REST

Exemple avec un chat

Intégration avec Python

Créer un modèle personnalisé

Modèles recommandés

Configuration matérielle

Conclusion

Articles similaires

Intelligence artificielle et LLM : comprendre les modèles de langage

Guide Complet : Comment Créer un Projet de Développement Structuré

Docker : conteneuriser vos applications simplement