SpamScore : vérification de collections NFT propulsée par l’IA chez Rarible
Aperçu
SpamScore est un sous-système de microservices spécialisé au sein de l’infrastructure de Rarible, conçu pour identifier automatiquement et signaler les collections NFT indésirables et frauduleuses. En s’appuyant sur des techniques avancées d’IA et d’apprentissage automatique, il fournit une évaluation quantitative indiquant si une collection est légitime ou potentiellement frauduleuse.
Fonctionnement
Le système de scoring
SpamScore attribue à chaque collection NFT une valeur numérique comprise entre 0 et 1 :
- 0.00 - 0.79 : Collection légitime
- ≥ 0.80 : Signalée comme spam/arnaque
Toute collection avec un score de 0.80 ou plus est considérée comme une arnaque et peut être filtrée ou signalée sur la plateforme Rarible.
Architecture technique
Le système est construit comme un microservice avec les composants clés suivants :
1. Socle IA
- Modèle : GPT-4o-mini d’OpenAI
- Rôle : analyse les caractéristiques des collections et réalise des classifications intelligentes
2. Embeddings vectoriels
- Stockage : pgvector (extension PostgreSQL)
- Modèle : text-embedding-3-small d’OpenAI
- Rôle : crée des représentations sémantiques des collections pour la recherche de similarités
3. Collecte de données
Pour chaque collection, le système analyse :
- Nom de la collection
- Symbole
- Description
- Adresse du créateur

L’approche RAG
SpamScore met en œuvre une architecture de Génération augmentée par récupération (RAG), qui combine :
Jeu de données d’entraînement
Le système a été entraîné sur 1 000 collections de référence :
- 500 « bonnes » collections : collections légitimes vérifiées avec SpamScore = 0
- 500 « mauvaises » collections : collections de spam/arnaque connues avec SpamScore ≥ 0.80
Flux de traitement
Vectorisation : toutes les collections de référence sont converties en embeddings et stockées dans pgvector
Évaluation d’une nouvelle collection : lorsqu’une nouvelle collection est détectée :
- Extraire son nom, son symbole, sa description et son créateur
- Générer des embeddings pour la collection
- Récupérer des collections similaires depuis la base vectorielle
- Utiliser GPT-4o-mini pour analyser les similarités et les motifs
- Attribuer un score de spam sur la base de l’analyse
Supervision continue : chaque nouvelle collection sur la plateforme est automatiquement évaluée
Pourquoi RAG ?
L’approche RAG offre plusieurs avantages :
- Sensible au contexte : compare les nouvelles collections à des exemples « bons » et « mauvais » connus
- Compréhension sémantique : va au-delà de la correspondance par mots-clés pour saisir le sens et l’intention
- Passage à l’échelle : gère efficacement des volumes élevés de nouvelles collections
- Adaptatif : se met à jour avec de nouveaux exemples à mesure que les tactiques de spam évoluent
Impact
En automatisant la détection du spam, SpamScore contribue à :
- Protéger les utilisateurs des collections frauduleuses
- Maintenir la qualité de la plateforme
- Réduire la charge de modération manuelle
- Offrir une meilleure expérience utilisateur sur Rarible
Récapitulatif de la pile technique
| Composant | Technologie |
|---|---|
| Modèle IA | GPT-4o-mini |
| Embeddings | text-embedding-3-small |
| Stockage vectoriel | pgvector |
| Architecture | Microservice + RAG |
| Évaluation | Temps réel, automatisée |
Note : Ce système représente une application pratique des techniques d’IA modernes (LLM, embeddings, RAG) pour résoudre des problèmes concrets dans l’univers Web3.