大模型長文本處理成新標配 挑戰與機遇並存

robot
摘要生成中

長文本能力成爲大模型廠商新"標配"

大模型正以驚人的速度提升其文本處理能力,從最初的4000 token擴展到目前的40萬token。長文本處理能力似乎已成爲衡量大模型廠商實力的新標準。

目前,國內外頂級大模型公司和研究機構都將擴展上下文長度作爲重點升級方向。OpenAI的GPT系列模型經過多次升級,上下文長度從4千增至3.2萬token。Anthropic更是一舉將上下文長度提升至10萬token。國內的月之暗面推出的Kimi Chat支持輸入20萬漢字,約合40萬token。

長文本能力的提升意味着模型可以處理更長的輸入文本,增強了閱讀理解能力。從最初只能讀完一篇短文,到現在可以處理一本長篇小說。這不僅擴展了模型的應用場景,也爲金融、法律、科研等專業領域的智能化升級提供了可能。

然而,文本長度並非越長越好。研究表明,模型支持更長上下文輸入與效果提升並不能直接畫等號。更重要的是模型對上下文內容的有效利用。

月之暗面創始人楊植麟認爲,大模型的上限由單步能力和執行步驟數共同決定,其中單步能力與參數量相關,而執行步驟數即上下文長度。長文本技術既可以解決大模型早期的一些問題,也是推進產業落地的關鍵技術之一。

目前,長文本技術在信息提取、代碼生成、角色扮演等方面展現出強大潛力。但在實際應用中仍存在一些問題,如無法聯網獲取最新信息、生成過程無法暫停修改等。

長文本技術面臨"不可能三角"困境:文本長短、注意力和算力三者難以兼顧。這主要源於Transformer結構中自注意力機制的計算量隨上下文長度呈平方級增長。

爲解決這一困境,目前主要有三種方案:

  1. 借助外部工具輔助處理長文本
  2. 優化自注意力機制計算
  3. 利用模型優化的一般方法

雖然長文本的"不可能三角"困境暫時無解,但這也爲大模型廠商指明了探索方向:在文本長短、注意力和算力三者之間尋找最佳平衡點,以處理足夠信息的同時兼顧注意力計算與算力成本限制。

TOKEN-3.67%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 6
  • 分享
留言
0/400
链上老中医vip
· 07-24 11:17
说白了还是分段的学问嗞
回復0
GigaBrainAnonvip
· 07-24 06:55
啊 又在卷长度啊
回復0
quiet_lurkervip
· 07-24 06:52
谁顶得住GPU烧钱啊
回復0
Blockwatcher9000vip
· 07-24 06:51
长文本有啥用 十个字说不明白?
回復0
分叉自由主义者vip
· 07-24 06:51
现在才知道越长不一定越好啊
回復0
永远在逃顶vip
· 07-24 06:46
长短才是真难题哈
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)