Skip to content

SpamScore : vérification de collections NFT propulsée par l’IA chez Rarible

Aperçu

SpamScore est un sous-système de microservices spécialisé au sein de l’infrastructure de Rarible, conçu pour identifier automatiquement et signaler les collections NFT indésirables et frauduleuses. En s’appuyant sur des techniques avancées d’IA et d’apprentissage automatique, il fournit une évaluation quantitative indiquant si une collection est légitime ou potentiellement frauduleuse.

Fonctionnement

Le système de scoring

SpamScore attribue à chaque collection NFT une valeur numérique comprise entre 0 et 1 :

  • 0.00 - 0.79 : Collection légitime
  • ≥ 0.80 : Signalée comme spam/arnaque

Toute collection avec un score de 0.80 ou plus est considérée comme une arnaque et peut être filtrée ou signalée sur la plateforme Rarible.

Architecture technique

Le système est construit comme un microservice avec les composants clés suivants :

1. Socle IA

  • Modèle : GPT-4o-mini d’OpenAI
  • Rôle : analyse les caractéristiques des collections et réalise des classifications intelligentes

2. Embeddings vectoriels

  • Stockage : pgvector (extension PostgreSQL)
  • Modèle : text-embedding-3-small d’OpenAI
  • Rôle : crée des représentations sémantiques des collections pour la recherche de similarités

3. Collecte de données

Pour chaque collection, le système analyse :

  • Nom de la collection
  • Symbole
  • Description
  • Adresse du créateur

img1

L’approche RAG

SpamScore met en œuvre une architecture de Génération augmentée par récupération (RAG), qui combine :

Jeu de données d’entraînement

Le système a été entraîné sur 1 000 collections de référence :

  • 500 « bonnes » collections : collections légitimes vérifiées avec SpamScore = 0
  • 500 « mauvaises » collections : collections de spam/arnaque connues avec SpamScore ≥ 0.80

Flux de traitement

  1. Vectorisation : toutes les collections de référence sont converties en embeddings et stockées dans pgvector

  2. Évaluation d’une nouvelle collection : lorsqu’une nouvelle collection est détectée :

    • Extraire son nom, son symbole, sa description et son créateur
    • Générer des embeddings pour la collection
    • Récupérer des collections similaires depuis la base vectorielle
    • Utiliser GPT-4o-mini pour analyser les similarités et les motifs
    • Attribuer un score de spam sur la base de l’analyse
  3. Supervision continue : chaque nouvelle collection sur la plateforme est automatiquement évaluée

Pourquoi RAG ?

L’approche RAG offre plusieurs avantages :

  • Sensible au contexte : compare les nouvelles collections à des exemples « bons » et « mauvais » connus
  • Compréhension sémantique : va au-delà de la correspondance par mots-clés pour saisir le sens et l’intention
  • Passage à l’échelle : gère efficacement des volumes élevés de nouvelles collections
  • Adaptatif : se met à jour avec de nouveaux exemples à mesure que les tactiques de spam évoluent

Impact

En automatisant la détection du spam, SpamScore contribue à :

  • Protéger les utilisateurs des collections frauduleuses
  • Maintenir la qualité de la plateforme
  • Réduire la charge de modération manuelle
  • Offrir une meilleure expérience utilisateur sur Rarible

Récapitulatif de la pile technique

ComposantTechnologie
Modèle IAGPT-4o-mini
Embeddingstext-embedding-3-small
Stockage vectorielpgvector
ArchitectureMicroservice + RAG
ÉvaluationTemps réel, automatisée

Note : Ce système représente une application pratique des techniques d’IA modernes (LLM, embeddings, RAG) pour résoudre des problèmes concrets dans l’univers Web3.