Nicely - Benchmark IA

Méthodologie d'évaluation

Benchmark des modèles de résumé

Notre benchmark évalue cinq critères principaux pour les modèles de résumé, avec une pondération spécifique pour chaque critère :

Similarité sémantique (x5)
Temps d'exécution (x2)
Utilisation RAM (x1)
Utilisation CPU (x1)
Taille du modèle (x1)

Benchmark des modèles d'embedding

Pour les modèles d'embedding, nous avons évalué plus de 40 modèles selon un processus rigoureux en plusieurs étapes :

Prétraitement initial des modèles candidats
Test exhaustif sur l'ensemble des critères
Évaluation avec 13 métriques de similarité différentes
Analyse approfondie des performances

Jeux de test

Pour les résumés

Le benchmark utilise six fichiers de test, répartis équitablement entre le français et l'anglais :

Français :
- Small - textes courts
- Big - textes moyens
- XL - textes longs
Anglais :
- Small - textes courts
- Big - textes moyens
- XL - textes longs

Pour les embeddings

Nous avons utilisé un jeu de 18 phrases tests soigneusement sélectionnées :

9 phrases en français
9 phrases équivalentes en anglais

Résultats

Modèles de résumé

Falconsai arc_of_conversation (score global : 83.57)

Similarité sémantique 0.94

Temps d'exécution 3.57s

Utilisation mémoire 0.084 GB

Utilisation CPU 26.66%

Taille du modèle 0.228 GB

Modèles d'embedding

deepvk_USER-bge-m3 (score global : 0.92)

Similarité sémantique 0.92

Temps d'exécution 0.08s

Utilisation mémoire 2.0 GB

Utilisation CPU 28.45%

Taille du modèle 1.84 GB

Performance globale des solutions

Top 5 des modèles de résumé

Top 5 des modèles d'embedding

Conclusion

Notre analyse comparative approfondie nous a permis d'identifier la combinaison optimale pour notre système de traitement documentaire :

Pour la génération de résumés : Falconsai arc_of_conversation
Pour la vectorisation sémantique : deepvk_USER-bge-m3

Cette combinaison offre :

Une excellente qualité de résumé avec une forte similarité sémantique
Une vectorisation précise et performante en contexte multilingue
Des temps d'exécution optimaux
Une utilisation efficiente des ressources système

Perspectives

Les prochaines étapes de développement pour Personal Assistant incluent :

L'optimisation de l'intégration entre les deux modèles
L'amélioration continue des performances
L'extension du support multilingue
L'automatisation du processus de mise à jour des modèles

Cette approche constitue une base solide pour un système de gestion documentaire efficace, évolutif et performant, parfaitement adapté aux besoins de nos clients chez Nicely.

Optimisation du traitement documentaire : benchmark des modèles de résumé et d'embedding

Introduction

Architecture du système