🤖 Assistant RAG Générique LocalRAG

Système RAG complet avec modèles Qwen3 de dernière génération

🚀 Powered by ZeroGPU - GPU gratuit Hugging Face

🧠 Qwen3-Embedding-4B • 🎯 Qwen3-Reranker-4B • 💬 Qwen3-4B • ⚡ Recherche en 2 étapes

📦 Repository: VincentGOURBIN/swift-mlx-Qwen3-Embedding-4B | 📊 Vecteurs: 7,511

1 10

Améliore la pertinence avec un modèle de reranking spécialisé

🚀 Architecture LocalRAG Step 03

  • 📥 Step 02 : Embeddings chargés depuis Hugging Face Hub au format SafeTensors
  • 🔍 Recherche : Index FAISS reconstructé pour recherche vectorielle haute performance
  • 🎯 Reranking : Qwen3-Reranker-4B pour affiner la sélection des documents
  • 💬 Génération : Qwen3-4B-Instruct-2507 pour des réponses contextuelles optimisées

🚀 Optimisations ZeroGPU

  • Allocation dynamique : GPU alloué automatiquement pour le reranking et la génération
  • NVIDIA H200 : 70GB VRAM disponible pour les calculs intensifs
  • Décorateurs intelligents : @spaces.GPU() pour optimiser l'usage GPU
  • Cache optimisé : Stockage temporaire en /tmp pour performances maximales

📊 Lecture des scores

  • Score Embedding : Similarité vectorielle initiale (0.0-1.0, plus haut = plus pertinent)
  • Score Reranking : Score de pertinence final après analyse contextuelle
  • Changement de rang : Evolution de la position du document après reranking