SpamScore : vérification de collections NFT propulsée par l’IA chez Rarible

Aperçu

SpamScore est un sous-système de microservices spécialisé au sein de l’infrastructure de Rarible, conçu pour identifier automatiquement et signaler les collections NFT indésirables et frauduleuses. En s’appuyant sur des techniques avancées d’IA et d’apprentissage automatique, il fournit une évaluation quantitative indiquant si une collection est légitime ou potentiellement frauduleuse.

Fonctionnement

Le système de scoring

SpamScore attribue à chaque collection NFT une valeur numérique comprise entre 0 et 1 :

0.00 - 0.79 : Collection légitime
≥ 0.80 : Signalée comme spam/arnaque

Toute collection avec un score de 0.80 ou plus est considérée comme une arnaque et peut être filtrée ou signalée sur la plateforme Rarible.

Architecture technique

Le système est construit comme un microservice avec les composants clés suivants :

1. Socle IA

Modèle : GPT-4o-mini d’OpenAI
Rôle : analyse les caractéristiques des collections et réalise des classifications intelligentes

2. Embeddings vectoriels

Stockage : pgvector (extension PostgreSQL)
Modèle : text-embedding-3-small d’OpenAI
Rôle : crée des représentations sémantiques des collections pour la recherche de similarités

3. Collecte de données

Pour chaque collection, le système analyse :

Nom de la collection
Symbole
Description
Adresse du créateur

L’approche RAG

SpamScore met en œuvre une architecture de Génération augmentée par récupération (RAG), qui combine :

Jeu de données d’entraînement

Le système a été entraîné sur 1 000 collections de référence :

500 « bonnes » collections : collections légitimes vérifiées avec SpamScore = 0
500 « mauvaises » collections : collections de spam/arnaque connues avec SpamScore ≥ 0.80

Flux de traitement

Vectorisation : toutes les collections de référence sont converties en embeddings et stockées dans pgvector
Évaluation d’une nouvelle collection : lorsqu’une nouvelle collection est détectée :
- Extraire son nom, son symbole, sa description et son créateur
- Générer des embeddings pour la collection
- Récupérer des collections similaires depuis la base vectorielle
- Utiliser GPT-4o-mini pour analyser les similarités et les motifs
- Attribuer un score de spam sur la base de l’analyse
Supervision continue : chaque nouvelle collection sur la plateforme est automatiquement évaluée

Pourquoi RAG ?

L’approche RAG offre plusieurs avantages :

Sensible au contexte : compare les nouvelles collections à des exemples « bons » et « mauvais » connus
Compréhension sémantique : va au-delà de la correspondance par mots-clés pour saisir le sens et l’intention
Passage à l’échelle : gère efficacement des volumes élevés de nouvelles collections
Adaptatif : se met à jour avec de nouveaux exemples à mesure que les tactiques de spam évoluent

Impact

En automatisant la détection du spam, SpamScore contribue à :

Protéger les utilisateurs des collections frauduleuses
Maintenir la qualité de la plateforme
Réduire la charge de modération manuelle
Offrir une meilleure expérience utilisateur sur Rarible

Récapitulatif de la pile technique

Composant	Technologie
Modèle IA	GPT-4o-mini
Embeddings	text-embedding-3-small
Stockage vectoriel	pgvector
Architecture	Microservice + RAG
Évaluation	Temps réel, automatisée

Note : Ce système représente une application pratique des techniques d’IA modernes (LLM, embeddings, RAG) pour résoudre des problèmes concrets dans l’univers Web3.

SpamScore : vérification de collections NFT propulsée par l’IA chez Rarible ​

Aperçu ​

Fonctionnement ​

Le système de scoring ​

Architecture technique ​

1. Socle IA ​

2. Embeddings vectoriels ​

3. Collecte de données ​

L’approche RAG ​

Jeu de données d’entraînement ​

Flux de traitement ​

Pourquoi RAG ? ​

Impact ​

Récapitulatif de la pile technique ​