Cách mạng dữ liệu AI: Từ cuộc đua khả năng tính toán đến hệ sinh thái dữ liệu on-chain mới

robot
Đang tạo bản tóm tắt

Cuộc cách mạng dữ liệu của trí tuệ nhân tạo: Từ cuộc đua khả năng tính toán đến nạn đói dữ liệu

Trong bối cảnh quy mô và khả năng tính toán của các mô hình trí tuệ nhân tạo đang liên tục vượt bậc, một nút thắt quan trọng lâu nay bị bỏ qua đang dần lộ diện - dữ liệu. Mâu thuẫn cấu trúc mà ngành công nghiệp AI hiện nay đang phải đối mặt không còn là kiến trúc mô hình hay khả năng tính toán của chip, mà là làm thế nào để chuyển đổi dữ liệu hành vi của con người bị phân mảnh thành vốn có thể xác minh, có cấu trúc, phù hợp với việc sử dụng AI. Nhận thức này không chỉ vạch trần tình thế hiện tại của sự phát triển AI, mà còn phác thảo một bức tranh hoàn toàn mới của "thời đại DataFi" - trong thời đại này, dữ liệu sẽ trở thành yếu tố sản xuất cốt lõi có thể đo lường, có thể giao dịch và có thể gia tăng giá trị như điện, khả năng tính toán.

Mâu thuẫn cấu trúc trong ngành AI

Sự phát triển của AI từ lâu đã được thúc đẩy bởi "mô hình - khả năng tính toán". Kể từ cuộc cách mạng học sâu, các tham số mô hình đã tăng từ hàng triệu lên hàng nghìn tỷ, nhu cầu về khả năng tính toán tăng trưởng theo cấp số nhân. Chi phí để đào tạo một mô hình ngôn ngữ lớn tiên tiến đã vượt quá 100 triệu USD, trong đó 90% dùng cho việc thuê cụm GPU. Tuy nhiên, khi ngành công nghiệp tập trung vào "mô hình lớn hơn" và "chip nhanh hơn", khủng hoảng ở phía cung dữ liệu đang âm thầm đến.

"Dữ liệu hữu cơ" do con người tạo ra đã chạm đến giới hạn tăng trưởng. Lấy dữ liệu văn bản làm ví dụ, tổng lượng văn bản chất lượng cao có thể thu thập công khai trên internet khoảng 10^12 từ, trong khi một mô hình với hàng trăm tỷ tham số cần tiêu tốn khoảng 10^13 từ dữ liệu. Điều này có nghĩa là nguồn dữ liệu hiện có chỉ có thể hỗ trợ việc huấn luyện 10 mô hình có quy mô tương đương. Thế nhưng, dữ liệu lặp lại và nội dung chất lượng thấp chiếm hơn 60%, càng làm thu hẹp nguồn cung dữ liệu hiệu quả. Khi các mô hình bắt đầu "nuốt" dữ liệu do chính chúng tạo ra, việc suy giảm hiệu suất của mô hình do "ô nhiễm dữ liệu" đã trở thành mối lo ngại trong ngành.

Nguồn gốc của sự mâu thuẫn này là: Ngành công nghiệp AI lâu nay xem dữ liệu như là "tài nguyên miễn phí", chứ không phải là "tài sản chiến lược" cần được chăm sóc cẩn thận. Mô hình và khả năng tính toán đã hình thành một hệ thống thị trường trưởng thành, nhưng việc sản xuất, làm sạch, xác minh, và giao dịch dữ liệu vẫn đang ở thời kỳ "hoang dã". Mười năm tới của AI sẽ là mười năm của "cơ sở hạ tầng dữ liệu", và dữ liệu trên chuỗi của mạng lưới mã hóa chính là chìa khóa để giải quyết tình huống này.

Dữ liệu trên chuỗi: "Cơ sở dữ liệu hành vi con người" lý tưởng của AI

Trong bối cảnh khủng hoảng dữ liệu, dữ liệu trên chuỗi của mạng lưới tiền điện tử thể hiện giá trị không thể thay thế. So với dữ liệu của Internet truyền thống, dữ liệu trên chuỗi tự nhiên có tính xác thực của "sự căn chỉnh động lực" - mỗi giao dịch, mỗi tương tác hợp đồng, mỗi hành động của địa chỉ ví đều gắn liền trực tiếp với vốn thực và không thể bị sửa đổi. Sự "dữ liệu hành vi căn chỉnh động lực của con người tập trung nhất trên Internet" này cụ thể được thể hiện qua ba chiều:

  1. "Tín hiệu ý định" từ thế giới thực: Dữ liệu trên chuỗi ghi lại hành vi quyết định được bỏ phiếu bằng tiền thật, phản ánh trực tiếp đánh giá của người dùng về giá trị của dự án, sở thích rủi ro và chiến lược phân bổ tài chính. Dữ liệu "được bảo chứng bằng vốn" này có giá trị rất cao trong việc đào tạo khả năng ra quyết định của AI.

  2. "Chuỗi hành vi" có thể truy nguyên: Tính minh bạch của blockchain cho phép hành vi của người dùng được truy nguyên hoàn toàn. Lịch sử giao dịch, giao thức tương tác và biến động tài sản của một địa chỉ ví tạo thành một "chuỗi hành vi" liên kết. Dữ liệu hành vi được cấu trúc này chính là "mẫu suy luận con người" hiếm hoi nhất hiện nay cho các mô hình AI.

  3. Hệ sinh thái mở với "truy cập không cần giấy phép": Dữ liệu trên chuỗi là công khai và không cần giấy phép. Bất kỳ nhà phát triển nào cũng có thể lấy dữ liệu gốc thông qua trình duyệt blockchain hoặc API dữ liệu, điều này cung cấp nguồn dữ liệu "không rào cản" cho việc đào tạo mô hình AI. Tuy nhiên, dữ liệu trên chuỗi tồn tại dưới dạng "nhật ký sự kiện", là "tín hiệu gốc" không có cấu trúc, cần phải được làm sạch, chuẩn hóa và liên kết để có thể được sử dụng bởi mô hình AI. Hiện tại, tỷ lệ "chuyển đổi có cấu trúc" của dữ liệu trên chuỗi chưa đến 5%, một lượng lớn tín hiệu có giá trị cao bị chôn vùi trong hàng tỷ sự kiện phân mảnh.

"Hệ điều hành thông minh" cho dữ liệu trên chuỗi

Để giải quyết vấn đề phân mảnh dữ liệu trên chuỗi, ngành công nghiệp đã đề xuất khái niệm "hệ điều hành thông minh trên chuỗi" được thiết kế đặc biệt cho AI. Mục tiêu cốt lõi của nó là biến các tín hiệu trên chuỗi phân tán thành dữ liệu AI-ready có cấu trúc, có thể xác minh và có thể kết hợp theo thời gian thực. Hệ thống này bao gồm các thành phần chính sau:

  1. Tiêu chuẩn dữ liệu mở: Đồng nhất định nghĩa và cách mô tả dữ liệu trên chuỗi, đảm bảo rằng mô hình AI không cần phải điều chỉnh theo định dạng dữ liệu của các chuỗi hoặc giao thức khác, mà có thể "hiểu" trực tiếp logic kinh doanh phía sau dữ liệu.

  2. Cơ chế xác minh dữ liệu: Đảm bảo tính xác thực của dữ liệu thông qua cơ chế đồng thuận blockchain. Các nút xác minh chịu trách nhiệm xác minh tính toàn vẹn và độ chính xác của dữ liệu trên chuỗi, đảm bảo rằng dữ liệu có cấu trúc đầu ra hoàn toàn nhất quán với dữ liệu gốc trên chuỗi.

  3. Lớp khả năng sử dụng dữ liệu với thông lượng cao: Thông qua việc tối ưu hóa thuật toán nén dữ liệu và giao thức truyền tải, đạt được việc xử lý sự kiện trên chuỗi hàng trăm nghìn sự kiện mỗi giây. Kiến trúc mô-đun tách biệt lưu trữ dữ liệu và tính toán, hỗ trợ nhu cầu dữ liệu thời gian thực cho các ứng dụng AI quy mô lớn.

Thời đại DataFi: Dữ liệu là vốn

Mục tiêu cuối cùng của cơ sở hạ tầng dữ liệu trên chuỗi này là thúc đẩy ngành AI bước vào thời đại DataFi - dữ liệu không còn là "nguyên liệu huấn luyện" thụ động, mà là "vốn" chủ động, có thể được định giá, giao dịch và gia tăng giá trị. Việc hiện thực hóa tầm nhìn này phụ thuộc vào việc chuyển đổi dữ liệu thành bốn thuộc tính cốt lõi:

  1. Cấu trúc: Từ "tín hiệu gốc" đến "tài sản có thể sử dụng", cho phép dữ liệu được AI mô hình gọi trực tiếp.

  2. Có thể kết hợp: Dữ liệu có cấu trúc có thể được kết hợp tự do như các viên gạch Lego, mở rộng ranh giới ứng dụng của dữ liệu.

  3. Có thể xác minh: Đảm bảo tính xác thực của dữ liệu thông qua công nghệ blockchain, xây dựng "sự đảm bảo tín dụng" cho dữ liệu.

  4. Có thể chuyển đổi: Nhà cung cấp dữ liệu có thể chuyển đổi dữ liệu có cấu trúc thành giá trị, tạo ra hệ sinh thái giá trị của dữ liệu.

Trong kỷ nguyên DataFi này, dữ liệu sẽ trở thành cầu nối giữa AI và thế giới thực. Các đại lý giao dịch cảm nhận tâm lý thị trường thông qua dữ liệu trên chuỗi, các ứng dụng tự chủ tối ưu hóa dịch vụ thông qua dữ liệu hành vi người dùng, trong khi người dùng thông thường nhận được lợi nhuận liên tục thông qua việc chia sẻ dữ liệu. Giống như mạng lưới điện đã kích thích cách mạng công nghiệp, khả năng tính toán mạng lưới đã kích thích cách mạng internet, mạng lưới dữ liệu này đang kích thích "cách mạng dữ liệu" của AI.

Khi dữ liệu cuối cùng được trao giá trị xứng đáng, AI mới có thể thực sự giải phóng sức mạnh thay đổi thế giới. Các ứng dụng gốc AI thế hệ tiếp theo không chỉ cần những mô hình mạnh mẽ, mà còn cần một cơ sở hạ tầng dữ liệu có thể lập trình, không cần tin tưởng và tín hiệu cao. Điều này không chỉ là tầm nhìn công nghệ, mà còn là con đường tất yếu để ngành công nghiệp AI trở nên trưởng thành.

READY0.66%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
LiquidityHuntervip
· 08-06 08:18
Dữ liệu Kinh doanh chênh lệch giá就在眼前...điên cuồng làm mới bảng điều khiển Thanh khoản on-chaining
Xem bản gốcTrả lời0
GasGasGasBrovip
· 08-03 09:24
Đợt này thật tuyệt, AI ăn dữ liệu còn khốc liệt hơn cả ăn điện.
Xem bản gốcTrả lời0
PebbleHandervip
· 08-03 09:23
Cái lớn sắp đến, dữ liệu cũng đã cuộn lại.
Xem bản gốcTrả lời0
SelfMadeRuggeevip
· 08-03 09:20
Dữ liệu mới là bánh bao thơm, Khả năng tính toán không đáng giá.
Xem bản gốcTrả lời0
Hash_Banditvip
· 08-03 09:08
giống như độ khó khai thác... dữ liệu là nút thắt mới thật sự
Xem bản gốcTrả lời0
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)