2025-07-12 04:55:52

在使用AI的過程中，我們去問它一個問題，它回答得頭頭是道，可我們沒法知道這句話到底是怎麼來的，是“猜”出來的，還是真的在哪段訓練數據裏看過。這就好像你問一個人問題，他告訴你了答案，每句話都說“我覺得是對的”，但從來不給出處。

簡單理解，傳統語言模型用的是 n-gram 技術
1️⃣uni-gram 是看單個詞
2️⃣bi-gram 是兩個詞連在一起
3️⃣tri-gram 是三個詞組合

以上的語言邏輯會提供一部分上下文，但內容十分局限，只看現有的問題，根據小語句關聯來回答，但忽視當前問題在整個對話的邏輯。

而 Infini-gram 是另一個思路。它不僅看現有問題，而是用一種類似“符號匹配”的方式，把模型輸出的每個片段都拿去對照訓練集裏所有可能出現的“語句”，看它到底是從哪裏學來的、和誰的貢獻有關。

比如你問模型：“怎麼判斷一個錢包是Bot？”
一般的模型會告訴你：“這種地址通常在極短時間內高頻交易多個DEX合約。”

它背後的技術其實挺硬核的，用的是基於 suffix-array 的 ∞-gram 框架 —— 本質上，它把訓練集裏所有片段都提前建好索引，輸出的時候直接比對，不需要重新跑模型，也不靠梯度計算。這意味着快、穩、可復現。

對用戶來說，你可以知道模型回答是不是“原創”還是“搬運”
對數據貢獻者來說，你可以獲得應有的“署名權”甚至“經濟激勵”
對監管機構來說，這提供了一個“可解釋”的接口

OpenLedger 正在做的，不是讓模型更“聰明”，而是更“負責任” —— 回答每句話時都能說清楚：“我爲啥這麼說，我是從哪學來的”。

在我看來，OpenLedger 提出的 Proof of Attribution 系統是“可信 AI”邁出的關鍵一步，也可能是構建數據所有權和貢獻溯源的核心基建。

UNI3.72%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
分享

留言

0/400

暫無留言