Installer et configurer un LLM local sur Raspberry Pi 4

Pourquoi installer un LLM sur son RPI ?

Quand on auto-héberge, on aime garder le contrôle sur ses données. Mais les solutions d'IA actuelles nous push vers le cloud : GPT-4, Claude, Gemini — toutes ces API sont séduisantes, mais elles nous forcent à envoyer nos données sur des serveurs externes. Pour certains usages, c'est acceptable. Mais quand on gère des emails personnels, des documents sensibles ou des workflows d'automatisation qui contains personal information, ça pose question.

Installer un LLM en local sur son Raspberry Pi, c'est récupérer cette maîtrise. Votre assistant IA tourne chez vous, sur votre propre matériel, et vos données ne quittent jamais votre réseau local. Bien sûr, on ne va pas remplacer ChatGPT pour écrire du code complexe ouanalyser des documents longs — les modèles qui tournent sur un RPI sont plus modestes. Mais pour des tâches précises comme classifier des emails, résumer des textes courts ou générer des réponses simples, c'est amplement suffisant.

Qu'est-ce qu'Ollama ?

Ollama est un outil open-source qui rend l'installation et l'utilisation de LLMs locaux simple comme une application. Développé pour macOS et Linux, il fonctionne aussi très bien sur un Raspberry Pi sous Raspberry Pi OS. L'idée est simple : une commande pour télécharger un modèle, une commande pour le lancer, et une API REST disponible pour les intégrations.

Concrètement, Ollama s'occupe de tutto : le téléchargement du modèle, la gestion de la mémoire, le service de l'API. Pas besoin de bidouiller avec Docker, compile des binaires ou configurer des variables d'environnement complexes. C'est peut-être l'outil qui a démocratisé l'IA locale ces dernières années.

La liste des modèles disponibles grows régulièrement. On trouve les poids lourds comme Llama 3, Mistral ou Qwen, mais aussi des modèles plus légers parfaits pour le RPI : Llama 3.2 1B, Phi-3 Mini, TinyLlama. Tout est packagé dans un format simple, et un simple ollama pull nom_du_modele suffit pour commencer.

Installation d'Ollama

1. Préparer le RPI

# Mettre à jour
sudo apt update && sudo apt upgrade -y

# Installer curl si absent
sudo apt install curl -y

2. Installer Ollama

curl -fsSL https://ollama.com/install.sh | sh

Alternative Docker :

docker run -d --name ollama \
  --restart unless-stopped \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  ollama/ollama

3. Vérifier l'installation

ollama --version
# Devrait afficher: 0.5.0 ou supérieur

Modèles recommandés pour RPI 4GB

Modèle Taille RAM Qualité Vitesse Idéal pour
llama3.2:1b ~1GB Bonne ✅ Très rapide Classification, prompts simples
qwen3.5:0.8b ~1GB Bonne ✅ Très rapide Français, multitâche
phi3:mini ~2GB Très bonne ✅ Rapide Raisonnement
tinyllama:1.1b ~700MB Basique ✅ Ultra rapide Tests, prototypes

Recommandation pour commencer :

# Le plus incontourn
ollama pull llama3.2:1b

# Alternative française
ollama pull qwen3.5:0.8b

Tester le modèle

En ligne de commande

ollama run llama3.2:1b "Dis bonjour en français"

Via API REST

curl -s http://localhost:11434/api/generate \
  -d '{
    "model": "llama3.2:1b",
    "prompt": "Quoi de neuf?",
    "stream": false
  }' | jq .response

Réponse typique : "~1-2 secondes sur RPI 4"

Intégration avec n8n

C'est là que ça devient intéressant ! On peut utiliser le LLM local dans vos workflows d'automatisation.

Cas d'usage : Filtre anti-spam

Problème : Vous recevez trop de mails non sollicités.

Solution : Un workflow n8n qui classe les emails.

Step 1 : Le workflow

[Email Trigger (IMAP)] → [LLM] → [IF spam] → [Move to Spam → [IF not spam] → [Inbox]

Step 2 : Configuration du node LLM

Dans n8n, ajouter un node "AI > Language Model".

Paramètres :

Model Provider: Ollama
Model: llama3.2:1b
Base URL: http://192.168.1.247:11434 (IP de votre RPI)
Temperature: 0 (pour des réponses cohérentes)
Max Tokens: 10

Step 3 : Le prompt

Your ONLY task is to classify an email.
Respond with EXACTLY one word: "spam" or "not_spam".
No explanation. No punctuation.

Email from: {{ $json.from }}
Subject: {{ $json.subject }}
Content: {{ $json.textPlain }}

Step 4 : Parser le résultat

Ajouter un node "Edit Fields" après le LLM :

// Expressions
{{ $json.response.trim().toLowerCase() }}

Benchmarks : Quelle vitesse ?

Tests effectués sur RPI 4 (4GB) :

Modèle Temps de réponse Tokens/sec
tinyllama:1.1b ~0.5s ~15
llama3.2:1b ~1.5s ~8
qwen3.5:0.8b ~2s ~6
phi3:mini ~3s ~5

Conclusion : Les modèles 1B sont parfaitement adaptés au RPI. Au-delà de 3B, attendez-vous à attendre.

Optimisations

Charger le modèle en RAM au démarrage

# Editer le service systemd
sudo systemctl edit ollama

# Ajouter:
[Service]
ExecStartPost=/usr/bin/ollama pull llama3.2:1b

Utiliser un SSD au lieu de la carte SD

Les modèles lourds sollicitent beaucoup le stockage. Un NVMe via USB3 est idéal.

# Monter le volume Docker sur le SSD

Limiter la mémoire

# Dans le container Docker
--memory=2g

Cas d'usage concrets

1. Résumé automatique de longs emails

Prompt :

Résume cet email en 2 phrases maximum :
{{ $json.textPlain }}

2. Traduction

Traduis en anglais:
{{ $json.textPlain }}

3. Classification de documents

Classe ce document dans une de ces catégories: Facture, Contrat, Newsletter, Spam.
Réponds par un seul mot.
{{ $json.textPlain }}

4. Génération de réponses

Écris une réponse professionnelle courte à cet email:
{{ $json.textPlain }}

Limitations à accepter

  • ❌ Pas de raisonnement complexe : Oubliez les maths ou la programmation avancée
  • ❌ Contexte limité : 4K-8K tokens max
  • ❌ Latence : 1-3 secondes par réponse
  • ❌ Qualité variable : Parfois le modèle "divague"

Mais pour : classification, résumé, traduction simple — c'est parfait.

Conclusion : Le local a de l'avenir

Installer un LLM sur RPI, c'est :

  • ✅ Pas cher (le RPI existe déjà)
  • ✅ Privé (vos données restent chez vous)
  • ✅ Suffisant pour des tâches simples
  • ✅ Fun à configurer et utiliser

Ce n'est pas un remplacement de GPT-4, mais un complément puissant pour l'automatisation.

Indroduction

Un Raspberry Pi 4 peut faire tourner des modèles de langage locaux. Voici comment installer Ollama, choisir le bon modèle, et l'intégrer à vos workflows d'automatisation comme n8n.

Installer un LLM en local, c'est :

  • 🔒 Vie privée : Aucune donnée ne quitte votre réseau
  • 💰 Gratuit : Plus d'abonnements API
  • 🌐 Autonome : Fonctionne sans internet (pour l'inférence)
  • ⚡ Rapide : Suffisant pour des tâches simples

Matériel requis

- Raspberry Pi 4 (4GB ou 8GB RAM)
- Carte SD ou SSD NVMe (pour le stockage des modèles)
- Raspberry Pi OS Lite (64-bit)

Note : 4GB de RAM suffisent pour les petits modèles (1-3B paramètres). Pour 8B+, prenez la version 8GB.

Ressources

  • Ollama : https://ollama.com" target="_blank" rel="noopener">https://ollama.com
  • Modèles recommandés : llama3.2:1b, qwen3.5:0.8b, phi3:mini
  • Article précédent : OpenClaw : Mon assistant local

Nombre de Lectures : 6
Date de mise en ligne : 03 mars 2026 à 18:00

Les Catégories

Linux IA

Une Pub