🤖 Assistant RAG Générique LocalRAG
Système RAG complet avec modèles Qwen3 de dernière génération
🚀 Powered by ZeroGPU - GPU gratuit Hugging Face
🧠 Qwen3-Embedding-4B • 🎯 Qwen3-Reranker-4B • 💬 Qwen3-4B • ⚡ Recherche en 2 étapes
📦 Repository: VincentGOURBIN/swift-mlx-Qwen3-Embedding-4B
| 📊 Vecteurs: 7,511
1 10
Améliore la pertinence avec un modèle de reranking spécialisé
🚀 Architecture LocalRAG Step 03
- 📥 Step 02 : Embeddings chargés depuis Hugging Face Hub au format SafeTensors
- 🔍 Recherche : Index FAISS reconstructé pour recherche vectorielle haute performance
- 🎯 Reranking : Qwen3-Reranker-4B pour affiner la sélection des documents
- 💬 Génération : Qwen3-4B-Instruct-2507 pour des réponses contextuelles optimisées
🚀 Optimisations ZeroGPU
- Allocation dynamique : GPU alloué automatiquement pour le reranking et la génération
- NVIDIA H200 : 70GB VRAM disponible pour les calculs intensifs
- Décorateurs intelligents :
@spaces.GPU()
pour optimiser l'usage GPU - Cache optimisé : Stockage temporaire en
/tmp
pour performances maximales
📊 Lecture des scores
- Score Embedding : Similarité vectorielle initiale (0.0-1.0, plus haut = plus pertinent)
- Score Reranking : Score de pertinence final après analyse contextuelle
- Changement de rang : Evolution de la position du document après reranking