SpamScore：Rarible 的 AI 驱动 NFT 合集验证

概览

SpamScore 是 Rarible 基础设施中的一个专用微服务子系统，用于自动识别和标记垃圾与诈骗 NFT 合集。通过利用先进的 AI 与机器学习技术，它为合集是否可信或存在欺诈风险提供量化评估。

工作原理

评分体系

SpamScore 为每个 NFT 合集分配一个介于 0 到 1 的数值：

0.00 - 0.79：可信合集
≥ 0.80：标记为垃圾/诈骗

任何得分在 0.80 或以上的合集都被视为诈骗，并可能在 Rarible 平台中被过滤或标记。

技术架构

该系统以微服务形式构建，包含以下关键组件：

1. AI 基础

模型：OpenAI 的 GPT-4o-mini
目的：分析合集特征并进行智能分类

2. 向量嵌入

存储：pgvector（PostgreSQL 扩展）
模型：OpenAI 的 text-embedding-3-small
目的：为合集创建语义表示以进行相似度匹配

3. 数据收集

对于每个合集，系统会分析：

合集名称
符号（Symbol）
描述
创作者地址

RAG 方法

SpamScore 实现了检索增强生成（RAG）架构，将以下要素结合在一起：

训练数据集

系统使用 1,000 个参考合集进行训练：

500 个“优质”合集：已验证的可信合集，SpamScore = 0
500 个“劣质”合集：已知垃圾/诈骗合集，SpamScore ≥ 0.80

流程

向量化：将所有参考合集转换为嵌入并存储在 pgvector 中
新合集评估：当检测到新合集时：
- 提取其名称、符号、描述和创作者
- 生成该合集的嵌入
- 从向量数据库检索相似合集
- 使用 GPT-4o-mini 分析相似性与模式
- 基于分析分配垃圾评分
持续监控：平台上的每个新合集都会被自动评估

为什么选择 RAG？

RAG 方法具有以下优势：

具备上下文意识：将新合集与已知的优劣示例进行对比
语义理解：超越关键词匹配，理解含义与意图
可扩展：高效处理大量新合集
自适应：可随着垃圾手法演变而更新新示例

影响

通过自动化垃圾检测，SpamScore 有助于：

保护用户免受诈骗合集侵害
维护平台质量
减少人工审核负担
提升 Rarible 上的用户体验

技术栈摘要

组件	技术
AI 模型	GPT-4o-mini
嵌入	text-embedding-3-small
向量存储	pgvector
架构	微服务 + RAG
评估	实时、自动化

注：该系统是现代 AI 技术（LLM、嵌入、RAG）在 Web3 场景中解决实际问题的务实应用。

SpamScore：Rarible 的 AI 驱动 NFT 合集验证 ​

概览 ​

工作原理 ​

评分体系 ​

技术架构 ​

1. AI 基础 ​

2. 向量嵌入 ​

3. 数据收集 ​

RAG 方法 ​

训练数据集 ​

流程 ​

为什么选择 RAG？ ​

影响 ​

技术栈摘要 ​