Optimisation du traitement documentaire : benchmark des modèles de résumé et d'embedding

Introduction

Dans le cadre de notre projet Personal Assistant chez Nicely, nous avons développé une approche complète de traitement documentaire basée sur deux composants clés : la génération automatique de résumés et leur vectorisation sémantique. Cette approche permet une gestion efficace des documents à travers leur classification et leur recherche.

Notre démarche s'est articulée autour de deux axes majeurs :

  1. L'évaluation des modèles de génération de résumés automatiques
  2. L'analyse comparative des modèles d'embedding pour la vectorisation sémantique

La problématique principale était double : trouver un équilibre optimal entre la qualité des résumés générés et les ressources nécessaires, tout en assurant une vectorisation sémantique performante pour une comparaison efficace des documents, le tout avec une compatibilité multilingue (français et anglais).

Architecture du système

Document source
Lecture
Texte brut
Modèle IA résumé
Résumé
Modèle embedding
Vecteur sémantique
Similarité
Score de similarité

Méthodologie d'évaluation

Benchmark des modèles de résumé

Notre benchmark évalue cinq critères principaux pour les modèles de résumé, avec une pondération spécifique pour chaque critère :

  • Similarité sémantique (x5)
  • Temps d'exécution (x2)
  • Utilisation RAM (x1)
  • Utilisation CPU (x1)
  • Taille du modèle (x1)

Benchmark des modèles d'embedding

Pour les modèles d'embedding, nous avons évalué plus de 40 modèles selon un processus rigoureux en plusieurs étapes :

  1. Prétraitement initial des modèles candidats
  2. Test exhaustif sur l'ensemble des critères
  3. Évaluation avec 13 métriques de similarité différentes
  4. Analyse approfondie des performances

Jeux de test

Pour les résumés

Le benchmark utilise six fichiers de test, répartis équitablement entre le français et l'anglais :

  • Français :
    • Small - textes courts
    • Big - textes moyens
    • XL - textes longs
  • Anglais :
    • Small - textes courts
    • Big - textes moyens
    • XL - textes longs

Pour les embeddings

Nous avons utilisé un jeu de 18 phrases tests soigneusement sélectionnées :

  • 9 phrases en français
  • 9 phrases équivalentes en anglais

Résultats

Modèles de résumé

Falconsai arc_of_conversation (score global : 83.57)

Similarité sémantique 0.94
Temps d'exécution 3.57s
Utilisation mémoire 0.084 GB
Utilisation CPU 26.66%
Taille du modèle 0.228 GB

Modèles d'embedding

deepvk_USER-bge-m3 (score global : 0.92)

Similarité sémantique 0.92
Temps d'exécution 0.08s
Utilisation mémoire 2.0 GB
Utilisation CPU 28.45%
Taille du modèle 1.84 GB

Performance globale des solutions

Top 5 des modèles de résumé

Top 5 des modèles d'embedding

Conclusion

Notre analyse comparative approfondie nous a permis d'identifier la combinaison optimale pour notre système de traitement documentaire :

Cette combinaison offre :

  • Une excellente qualité de résumé avec une forte similarité sémantique
  • Une vectorisation précise et performante en contexte multilingue
  • Des temps d'exécution optimaux
  • Une utilisation efficiente des ressources système

Perspectives

Les prochaines étapes de développement pour Personal Assistant incluent :

  1. L'optimisation de l'intégration entre les deux modèles
  2. L'amélioration continue des performances
  3. L'extension du support multilingue
  4. L'automatisation du processus de mise à jour des modèles

Cette approche constitue une base solide pour un système de gestion documentaire efficace, évolutif et performant, parfaitement adapté aux besoins de nos clients chez Nicely.