Skip to content

SpamScore: KI-gestützte Verifizierung von NFT-Kollektionen bei Rarible

Überblick

SpamScore ist ein spezialisiertes Microservice-Subsystem innerhalb der Rarible-Infrastruktur, das Spam- und Scam-NFT-Kollektionen automatisch identifiziert und markiert. Durch den Einsatz fortschrittlicher KI- und Machine-Learning-Techniken liefert es eine quantitative Einschätzung, ob eine Kollektion legitim oder potenziell betrügerisch ist.

Funktionsweise

Das Bewertungssystem

SpamScore weist jeder NFT-Kollektion einen numerischen Wert zwischen 0 und 1 zu:

  • 0.00 - 0.79: Legitime Kollektion
  • ≥ 0.80: Als Spam/Scam markiert

Jede Kollektion mit einem Score von 0.80 oder höher gilt als Scam und kann auf der Rarible-Plattform gefiltert oder markiert werden.

Technische Architektur

Das System ist als Microservice aufgebaut mit den folgenden Hauptkomponenten:

1. KI-Grundlage

  • Modell: OpenAI GPT-4o-mini
  • Zweck: Analysiert Kollektionseigenschaften und trifft intelligente Klassifikationen

2. Vektor-Embeddings

  • Speicher: pgvector (PostgreSQL-Erweiterung)
  • Modell: OpenAI text-embedding-3-small
  • Zweck: Erstellt semantische Repräsentationen von Kollektionen für Ähnlichkeitsabgleich

3. Datenerfassung

Für jede Kollektion analysiert das system:

  • Name der Kollektion
  • Symbol
  • Beschreibung
  • Erstelleradresse

img1

Der RAG-Ansatz

SpamScore implementiert eine Retrieval-Augmented Generation (RAG)-Architektur, die Folgendes kombiniert:

Trainingsdatensatz

Das System wurde mit 1.000 Referenzkollektionen trainiert:

  • 500 „gute“ Kollektionen: Verifizierte legitime Kollektionen mit SpamScore = 0
  • 500 „schlechte“ Kollektionen: Bekannte Spam/Scam-Kollektionen mit SpamScore ≥ 0.80

Prozessablauf

  1. Vektorisierung: Alle Referenzkollektionen werden in Embeddings umgewandelt und in pgvector gespeichert

  2. Bewertung neuer Kollektionen: Wenn eine neue Kollektion erkannt wird:

    • Name, Symbol, Beschreibung und Ersteller extrahieren
    • Embeddings für die Kollektion erzeugen
    • Ähnliche Kollektionen aus der Vektordatenbank abrufen
    • GPT-4o-mini zur Analyse von Ähnlichkeiten und Mustern verwenden
    • Auf Basis der Analyse einen Spam-Score zuweisen
  3. Kontinuierliches Monitoring: Jede neue Kollektion auf der Plattform wird automatisch bewertet

Warum RAG?

Der RAG-Ansatz bietet mehrere Vorteile:

  • Kontextbewusst: Vergleicht neue Kollektionen mit bekannten guten und schlechten Beispielen
  • Semantisches Verständnis: Geht über Keyword-Matching hinaus und versteht Bedeutung und Intention
  • Skalierbar: Kann hohe Mengen neuer Kollektionen effizient verarbeiten
  • Adaptiv: Kann mit neuen Beispielen aktualisiert werden, wenn sich Spam-Taktiken weiterentwickeln

Auswirkungen

Durch die Automatisierung der Spamerkennung hilft SpamScore:

  • Nutzer vor Scam-Kollektionen zu schützen
  • Die Plattformqualität aufrechtzuerhalten
  • Den manuellen Moderationsaufwand zu reduzieren
  • Eine bessere User Experience auf Rarible zu bieten

Zusammenfassung des technischen Stacks

KomponenteTechnologie
KI-ModellGPT-4o-mini
Embeddingstext-embedding-3-small
Vektorspeicherpgvector
ArchitekturMicroservice + RAG
BewertungEchtzeit, automatisiert

Hinweis: Dieses System ist eine praxisnahe Anwendung moderner KI-Techniken (LLMs, Embeddings, RAG), um reale Probleme im Web3-Bereich zu lösen.