SpamScore: Verificación de colecciones NFT impulsada por IA en Rarible
Descripción general
SpamScore es un subsistema de microservicios especializado dentro de la infraestructura de Rarible, diseñado para identificar y marcar automáticamente colecciones NFT de spam y estafa. Al aprovechar técnicas avanzadas de IA y aprendizaje automático, proporciona una evaluación cuantitativa de si una colección es legítima o potencialmente fraudulenta.
Cómo funciona
El sistema de puntuación
SpamScore asigna a cada colección NFT un valor numérico entre 0 y 1:
- 0.00 - 0.79: Colección legítima
- ≥ 0.80: Marcada como spam/estafa
Cualquier colección con una puntuación de 0.80 o superior se considera una estafa y puede ser filtrada o marcada en la plataforma de Rarible.
Arquitectura técnica
El sistema está construido como un microservicio con los siguientes componentes clave:
1. Base de IA
- Modelo: GPT-4o-mini de OpenAI
- Propósito: Analiza características de las colecciones y realiza clasificaciones inteligentes
2. Embeddings vectoriales
- Almacenamiento: pgvector (extensión de PostgreSQL)
- Modelo: text-embedding-3-small de OpenAI
- Propósito: Crea representaciones semánticas de las colecciones para la coincidencia por similitud
3. Recopilación de datos
Para cada colección, el sistema analiza:
- Nombre de la colección
- Símbolo
- Descripción
- Dirección del creador

El enfoque RAG
SpamScore implementa una arquitectura de Generación aumentada por recuperación (RAG), que combina:
Conjunto de entrenamiento
El sistema se entrenó con 1,000 colecciones de referencia:
- 500 colecciones "buenas": Colecciones legítimas verificadas con SpamScore = 0
- 500 colecciones "malas": Colecciones de spam/estafa conocidas con SpamScore ≥ 0.80
Flujo del proceso
Vectorización: Todas las colecciones de referencia se convierten en embeddings y se almacenan en pgvector
Evaluación de nuevas colecciones: Cuando se detecta una nueva colección:
- Extraer su nombre, símbolo, descripción y creador
- Generar embeddings para la colección
- Recuperar colecciones similares desde la base de datos vectorial
- Usar GPT-4o-mini para analizar similitudes y patrones
- Asignar una puntuación de spam basada en el análisis
Monitoreo continuo: Cada nueva colección en la plataforma se evalúa automáticamente
¿Por qué RAG?
El enfoque RAG ofrece varias ventajas:
- Consciente del contexto: Compara nuevas colecciones con ejemplos conocidos buenos y malos
- Comprensión semántica: Va más allá de la coincidencia por palabras clave para entender significado e intención
- Escalable: Puede manejar grandes volúmenes de nuevas colecciones de forma eficiente
- Adaptable: Se puede actualizar con nuevos ejemplos a medida que evolucionan las tácticas de spam
Impacto
Al automatizar la detección de spam, SpamScore ayuda a:
- Proteger a los usuarios de colecciones fraudulentas
- Mantener la calidad de la plataforma
- Reducir la carga de moderación manual
- Ofrecer una mejor experiencia de usuario en Rarible
Resumen del stack técnico
| Componente | Tecnología |
|---|---|
| Modelo de IA | GPT-4o-mini |
| Embeddings | text-embedding-3-small |
| Almacenamiento vectorial | pgvector |
| Arquitectura | Microservicio + RAG |
| Evaluación | En tiempo real, automatizada |
Nota: Este sistema representa una aplicación práctica de técnicas modernas de IA (LLMs, embeddings, RAG) para resolver problemas del mundo real en el espacio Web3.