2025-07-12 04:55:52

在使用AI的过程中，我们去问它一个问题，它回答得头头是道，可我们没法知道这句话到底是怎么来的，是“猜”出来的，还是真的在哪段训练数据里看过。这就好像你问一个人问题，他告诉你了答案，每句话都说“我觉得是对的”，但从来不给出处。

简单理解，传统语言模型用的是 n-gram 技术
1️⃣uni-gram 是看单个词
2️⃣bi-gram 是两个词连在一起
3️⃣tri-gram 是三个词组合

以上的语言逻辑会提供一部分上下文，但内容十分局限，只看现有的问题，根据小语句关联来回答，但忽视当前问题在整个对话的逻辑。

而 Infini-gram 是另一个思路。它不仅看现有问题，而是用一种类似“符号匹配”的方式，把模型输出的每个片段都拿去对照训练集里所有可能出现的“语句”，看它到底是从哪里学来的、和谁的贡献有关。

比如你问模型：“怎么判断一个钱包是Bot？”
一般的模型会告诉你：“这种地址通常在极短时间内高频交易多个DEX合约。”

它背后的技术其实挺硬核的，用的是基于 suffix-array 的 ∞-gram 框架 —— 本质上，它把训练集里所有片段都提前建好索引，输出的时候直接比对，不需要重新跑模型，也不靠梯度计算。这意味着快、稳、可复现。

对用户来说，你可以知道模型回答是不是“原创”还是“搬运”
对数据贡献者来说，你可以获得应有的“署名权”甚至“经济激励”
对监管机构来说，这提供了一个“可解释”的接口

OpenLedger 正在做的，不是让模型更“聪明”，而是更“负责任” —— 回答每句话时都能说清楚：“我为啥这么说，我是从哪学来的”。

在我看来，OpenLedger 提出的 Proof of Attribution 系统是“可信 AI”迈出的关键一步，也可能是构建数据所有权和贡献溯源的核心基建。

UNI2.6%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
分享

0/400

暂无评论