.txt .md .rst .pdf — max 50 Mo
| Fichier | Chunks | Ctx | Date |
|---|
JPG, PNG, GIF, WebP — max 50 Mo chacune
Testez un exercice en mode interactif — le chatbot pose des questions, demande des précisions, donne des indices.
Découpage en blocs de 512 tokens avec overlap de 64. Séparateurs : paragraphes → lignes → phrases.
Pour chaque chunk, Claude Haiku génère 2-3 phrases de contexte à partir du document complet. Coût : ~0.001 $/chunk. Désactivable.
Le chunk contextualisé est encodé via multilingual-e5-large (1024D, local) + vecteur sparse BM25-like. 100% local.
Chaque chunk est stocké avec ses vecteurs dense + sparse, texte original, texte contextualisé, métadonnées (fichier, date, ID).
Qdrant exécute en parallèle une recherche dense (cosinus) et sparse (lexicale), fusionne via RRF.
Les top-K chunks sont injectés dans un prompt structuré. Claude Haiku génère la réponse. Seul appel externe.
Upload via l'interface ou POST /api/index/upload.
Re-uploadez le même fichier : les anciens chunks sont automatiquement supprimés et remplacés.
Par document : DELETE /api/documents/{id}. Reset total : DELETE /api/collection.
Paramètres de tous les étudiants.