在使用AI的过程中,我们去问它一个问题,它回答得头头是道,可我们没法知道这句话到底是怎么来的,是“猜”出来的,还是真的在哪段训练数据里看过。这就好像你问一个人问题,他告诉你了答案,每句话都说“我觉得是对的”,但从来不给出处。



简单理解,传统语言模型用的是 n-gram 技术
1️⃣uni-gram 是看单个词
2️⃣bi-gram 是两个词连在一起
3️⃣tri-gram 是三个词组合

以上的语言逻辑会提供一部分上下文,但内容十分局限,只看现有的问题,根据小语句关联来回答,但忽视当前问题在整个对话的逻辑。

而 Infini-gram 是另一个思路。它不仅看现有问题,而是用一种类似“符号匹配”的方式,把模型输出的每个片段都拿去对照训练集里所有可能出现的“语句”,看它到底是从哪里学来的、和谁的贡献有关。

比如你问模型:“怎么判断一个钱包是Bot?”
一般的模型会告诉你:“这种地址通常在极短时间内高频交易多个DEX合约。”

它背后的技术其实挺硬核的,用的是基于 suffix-array 的 ∞-gram 框架 —— 本质上,它把训练集里所有片段都提前建好索引,输出的时候直接比对,不需要重新跑模型,也不靠梯度计算。这意味着快、稳、可复现。

对用户来说,你可以知道模型回答是不是“原创”还是“搬运”
对数据贡献者来说,你可以获得应有的“署名权”甚至“经济激励”
对监管机构来说,这提供了一个“可解释”的接口

OpenLedger 正在做的,不是让模型更“聪明”,而是更“负责任” —— 回答每句话时都能说清楚:“我为啥这么说,我是从哪学来的”。

在我看来,OpenLedger 提出的 Proof of Attribution 系统是“可信 AI”迈出的关键一步,也可能是构建数据所有权和贡献溯源的核心基建。
UNI2.6%
post-image
post-image
post-image
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)