Xử lý văn bản dài của mô hình lớn trở thành tiêu chuẩn mới, thách thức và cơ hội cùng tồn tại.

robot
Đang tạo bản tóm tắt

Khả năng văn bản dài trở thành "tiêu chuẩn" mới của các nhà cung cấp mô hình lớn

Mô hình lớn đang nâng cao khả năng xử lý văn bản với tốc độ đáng kinh ngạc, từ 4000 token ban đầu mở rộng lên tới 400000 token hiện nay. Khả năng xử lý văn bản dài dường như đã trở thành tiêu chuẩn mới để đánh giá sức mạnh của các nhà cung cấp mô hình lớn.

Hiện tại, các công ty và tổ chức nghiên cứu mô hình lớn hàng đầu trong và ngoài nước đều coi việc mở rộng độ dài ngữ cảnh là hướng nâng cấp trọng điểm. Dòng mô hình GPT của OpenAI đã trải qua nhiều lần nâng cấp, độ dài ngữ cảnh đã tăng từ 4 nghìn lên 32 nghìn token. Anthropic đã nâng độ dài ngữ cảnh lên tới 100 nghìn token. Sản phẩm Kimi Chat của Moon's Dark Side trong nước hỗ trợ nhập 200 nghìn ký tự Hán, tương đương khoảng 400 nghìn token.

Việc nâng cao khả năng xử lý văn bản dài có nghĩa là mô hình có thể xử lý các văn bản đầu vào dài hơn, từ đó tăng cường khả năng hiểu biết đọc. Từ việc chỉ có thể đọc xong một bài viết ngắn ban đầu, đến nay có thể xử lý một cuốn tiểu thuyết dài. Điều này không chỉ mở rộng các lĩnh vực ứng dụng của mô hình mà còn cung cấp khả năng nâng cấp thông minh cho các lĩnh vực chuyên môn như tài chính, pháp lý, nghiên cứu khoa học.

Tuy nhiên, độ dài văn bản không phải lúc nào cũng tốt hơn. Nghiên cứu cho thấy việc mô hình hỗ trợ đầu vào ngữ cảnh dài hơn không trực tiếp dẫn đến việc cải thiện hiệu quả. Quan trọng hơn là khả năng sử dụng hiệu quả nội dung ngữ cảnh của mô hình.

Người sáng lập Mặt tối của mặt trăng, Yang Zhilin, cho rằng giới hạn của mô hình lớn được xác định bởi khả năng từng bước và số bước thực hiện, trong đó khả năng từng bước liên quan đến số lượng tham số, còn số bước thực hiện tức là độ dài ngữ cảnh. Công nghệ văn bản dài không chỉ có thể giải quyết một số vấn đề ban đầu của mô hình lớn mà còn là một trong những công nghệ then chốt thúc đẩy việc áp dụng trong ngành.

Hiện tại, công nghệ văn bản dài cho thấy tiềm năng mạnh mẽ trong việc trích xuất thông tin, tạo mã, đóng vai trò. Tuy nhiên, trong thực tế vẫn còn một số vấn đề như không thể kết nối mạng để lấy thông tin mới nhất, không thể tạm dừng và sửa đổi quá trình tạo ra.

Công nghệ văn bản dài gặp phải tình huống "tam giác không thể": khó có thể cân bằng giữa độ dài văn bản, sự chú ý và sức mạnh tính toán. Điều này chủ yếu xuất phát từ việc khối lượng tính toán của cơ chế tự chú ý trong cấu trúc Transformer tăng theo bậc bình phương với độ dài ngữ cảnh.

Để giải quyết tình huống này, hiện tại có ba phương án chính:

  1. Sử dụng công cụ bên ngoài để hỗ trợ xử lý văn bản dài
  2. Tối ưu hóa tính toán cơ chế tự chú ý
  3. Phương pháp chung để tối ưu hóa mô hình

Mặc dù "tam giác không thể" của văn bản dài tạm thời không có giải pháp, nhưng điều này cũng chỉ ra hướng khám phá cho các nhà sản xuất mô hình lớn: tìm kiếm điểm cân bằng tối ưu giữa độ dài văn bản, sự chú ý và sức mạnh tính toán, nhằm xử lý đủ thông tin trong khi vẫn chú ý đến chi phí tính toán và sức mạnh tính toán.

TOKEN-3.67%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 6
  • Chia sẻ
Bình luận
0/400
ChainDoctorvip
· 07-24 11:17
Nói thẳng ra vẫn là một vấn đề phân đoạn.
Xem bản gốcTrả lời0
GigaBrainAnonvip
· 07-24 06:55
Á lại đang cuốn chiều dài à
Xem bản gốcTrả lời0
quiet_lurkervip
· 07-24 06:52
Ai có thể chịu nổi việc GPU tiêu tốn tiền chứ?
Xem bản gốcTrả lời0
Blockwatcher9000vip
· 07-24 06:51
Văn bản dài có ích gì, mười chữ không nói rõ được?
Xem bản gốcTrả lời0
ForkLibertarianvip
· 07-24 06:51
Bây giờ mới biết rằng càng dài không nhất định là tốt hơn.
Xem bản gốcTrả lời0
AlwaysMissingTopsvip
· 07-24 06:46
Độ dài và độ ngắn mới là vấn đề khó khăn ha
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)