SpamScore: KI-gestützte Verifizierung von NFT-Kollektionen bei Rarible
Überblick
SpamScore ist ein spezialisiertes Microservice-Subsystem innerhalb der Rarible-Infrastruktur, das Spam- und Scam-NFT-Kollektionen automatisch identifiziert und markiert. Durch den Einsatz fortschrittlicher KI- und Machine-Learning-Techniken liefert es eine quantitative Einschätzung, ob eine Kollektion legitim oder potenziell betrügerisch ist.
Funktionsweise
Das Bewertungssystem
SpamScore weist jeder NFT-Kollektion einen numerischen Wert zwischen 0 und 1 zu:
- 0.00 - 0.79: Legitime Kollektion
- ≥ 0.80: Als Spam/Scam markiert
Jede Kollektion mit einem Score von 0.80 oder höher gilt als Scam und kann auf der Rarible-Plattform gefiltert oder markiert werden.
Technische Architektur
Das System ist als Microservice aufgebaut mit den folgenden Hauptkomponenten:
1. KI-Grundlage
- Modell: OpenAI GPT-4o-mini
- Zweck: Analysiert Kollektionseigenschaften und trifft intelligente Klassifikationen
2. Vektor-Embeddings
- Speicher: pgvector (PostgreSQL-Erweiterung)
- Modell: OpenAI text-embedding-3-small
- Zweck: Erstellt semantische Repräsentationen von Kollektionen für Ähnlichkeitsabgleich
3. Datenerfassung
Für jede Kollektion analysiert das system:
- Name der Kollektion
- Symbol
- Beschreibung
- Erstelleradresse

Der RAG-Ansatz
SpamScore implementiert eine Retrieval-Augmented Generation (RAG)-Architektur, die Folgendes kombiniert:
Trainingsdatensatz
Das System wurde mit 1.000 Referenzkollektionen trainiert:
- 500 „gute“ Kollektionen: Verifizierte legitime Kollektionen mit SpamScore = 0
- 500 „schlechte“ Kollektionen: Bekannte Spam/Scam-Kollektionen mit SpamScore ≥ 0.80
Prozessablauf
Vektorisierung: Alle Referenzkollektionen werden in Embeddings umgewandelt und in pgvector gespeichert
Bewertung neuer Kollektionen: Wenn eine neue Kollektion erkannt wird:
- Name, Symbol, Beschreibung und Ersteller extrahieren
- Embeddings für die Kollektion erzeugen
- Ähnliche Kollektionen aus der Vektordatenbank abrufen
- GPT-4o-mini zur Analyse von Ähnlichkeiten und Mustern verwenden
- Auf Basis der Analyse einen Spam-Score zuweisen
Kontinuierliches Monitoring: Jede neue Kollektion auf der Plattform wird automatisch bewertet
Warum RAG?
Der RAG-Ansatz bietet mehrere Vorteile:
- Kontextbewusst: Vergleicht neue Kollektionen mit bekannten guten und schlechten Beispielen
- Semantisches Verständnis: Geht über Keyword-Matching hinaus und versteht Bedeutung und Intention
- Skalierbar: Kann hohe Mengen neuer Kollektionen effizient verarbeiten
- Adaptiv: Kann mit neuen Beispielen aktualisiert werden, wenn sich Spam-Taktiken weiterentwickeln
Auswirkungen
Durch die Automatisierung der Spamerkennung hilft SpamScore:
- Nutzer vor Scam-Kollektionen zu schützen
- Die Plattformqualität aufrechtzuerhalten
- Den manuellen Moderationsaufwand zu reduzieren
- Eine bessere User Experience auf Rarible zu bieten
Zusammenfassung des technischen Stacks
| Komponente | Technologie |
|---|---|
| KI-Modell | GPT-4o-mini |
| Embeddings | text-embedding-3-small |
| Vektorspeicher | pgvector |
| Architektur | Microservice + RAG |
| Bewertung | Echtzeit, automatisiert |
Hinweis: Dieses System ist eine praxisnahe Anwendung moderner KI-Techniken (LLMs, Embeddings, RAG), um reale Probleme im Web3-Bereich zu lösen.