Durante o uso da IA, fazemos uma pergunta e ela responde de forma convincente, mas não temos como saber de onde veio essa resposta, se foi "adivinhada" ou se realmente foi vista em algum dado de treinamento. É como perguntar a uma pessoa, que te diz a resposta e cada frase começa com "acho que está certo", mas nunca fornece a fonte.
Entender de forma simples, os modelos de linguagem tradicionais utilizam a técnica n-gram. 1️⃣uni-gram é ver uma única palavra 2️⃣bi-gram é a junção de duas palavras 3️⃣tri-gram é a combinação de três palavras
A lógica linguística acima fornecerá uma parte do contexto, mas o conteúdo é bastante limitado, respondendo apenas às questões existentes, com base na associação de pequenas frases, mas ignorando a lógica da questão atual dentro de todo o diálogo.
E o Infini-gram é outra abordagem. Ele não apenas observa os problemas existentes, mas usa uma forma semelhante ao "matching de símbolos" para comparar cada fragmento gerado pelo modelo com todas as "frases" que podem aparecer no conjunto de treinamento, para ver de onde ele realmente aprendeu e a que contribuições está relacionado.
Por exemplo, você pergunta ao modelo: "Como determinar se uma carteira é um Bot?" Um modelo típico diria: “Este tipo de endereço geralmente realiza transações de alta frequência em vários contratos DEX em um curto período de tempo.”
A tecnologia por trás disso é bastante hardcore, utilizando uma estrutura ∞-gram baseada em suffix-array - essencialmente, ela pré-cria índices para todos os segmentos no conjunto de treinamento, permitindo que a comparação seja feita diretamente na hora da saída, sem a necessidade de reexecutar o modelo ou depender do cálculo de gradientes. Isso significa rapidez, estabilidade e reprodutibilidade.
Para os utilizadores, você pode saber se a resposta do modelo é "original" ou "copiada". Para os contribuintes de dados, você pode obter o devido "direito de autoria" e até mesmo "incentivos econômicos". Para os reguladores, isso oferece uma interface "explicável".
O que a OpenLedger está a fazer não é tornar o modelo mais "inteligente", mas sim mais "responsável" - ao responder a cada frase, deve ser claro: "Por que digo isso, de onde aprendi?"
Na minha opinião, o sistema Proof of Attribution proposto pela OpenLedger é um passo crucial para a "IA confiável" e pode ser a infraestrutura central para construir a propriedade de dados e a rastreabilidade de contribuições.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Durante o uso da IA, fazemos uma pergunta e ela responde de forma convincente, mas não temos como saber de onde veio essa resposta, se foi "adivinhada" ou se realmente foi vista em algum dado de treinamento. É como perguntar a uma pessoa, que te diz a resposta e cada frase começa com "acho que está certo", mas nunca fornece a fonte.
Entender de forma simples, os modelos de linguagem tradicionais utilizam a técnica n-gram.
1️⃣uni-gram é ver uma única palavra
2️⃣bi-gram é a junção de duas palavras
3️⃣tri-gram é a combinação de três palavras
A lógica linguística acima fornecerá uma parte do contexto, mas o conteúdo é bastante limitado, respondendo apenas às questões existentes, com base na associação de pequenas frases, mas ignorando a lógica da questão atual dentro de todo o diálogo.
E o Infini-gram é outra abordagem. Ele não apenas observa os problemas existentes, mas usa uma forma semelhante ao "matching de símbolos" para comparar cada fragmento gerado pelo modelo com todas as "frases" que podem aparecer no conjunto de treinamento, para ver de onde ele realmente aprendeu e a que contribuições está relacionado.
Por exemplo, você pergunta ao modelo: "Como determinar se uma carteira é um Bot?"
Um modelo típico diria: “Este tipo de endereço geralmente realiza transações de alta frequência em vários contratos DEX em um curto período de tempo.”
A tecnologia por trás disso é bastante hardcore, utilizando uma estrutura ∞-gram baseada em suffix-array - essencialmente, ela pré-cria índices para todos os segmentos no conjunto de treinamento, permitindo que a comparação seja feita diretamente na hora da saída, sem a necessidade de reexecutar o modelo ou depender do cálculo de gradientes. Isso significa rapidez, estabilidade e reprodutibilidade.
Para os utilizadores, você pode saber se a resposta do modelo é "original" ou "copiada".
Para os contribuintes de dados, você pode obter o devido "direito de autoria" e até mesmo "incentivos econômicos".
Para os reguladores, isso oferece uma interface "explicável".
O que a OpenLedger está a fazer não é tornar o modelo mais "inteligente", mas sim mais "responsável" - ao responder a cada frase, deve ser claro: "Por que digo isso, de onde aprendi?"
Na minha opinião, o sistema Proof of Attribution proposto pela OpenLedger é um passo crucial para a "IA confiável" e pode ser a infraestrutura central para construir a propriedade de dados e a rastreabilidade de contribuições.