Từ Văn Bản đến Dữ Liệu Bảng: Tại Sao Dữ Liệu Có Cấu Trúc Là Chân Trời 600 Tỷ Đô La Tiếp Theo Của AI

**Từ Văn Bản đến Dữ Liệu Bảng: Tại Sao Dữ Liệu Có Cấu Trúc Là Chân Trời 600 Tỷ Đô La Tiếp Theo Của AI**

Image 10: Learning spreadsheets and studying for data processing tiny person concept

Trong làn sóng AI tạo sinh hiện nay, các ngành công nghiệp xoay quanh tài liệu và văn bản — như pháp lý, chăm sóc sức khỏe, hỗ trợ khách hàng, bán hàng, tiếp thị — đang dẫn đầu xu hướng. Công nghệ này đã thay đổi quy trình làm việc pháp lý chỉ sau một đêm, với các công ty như Harvey và OpenEvidence đạt doanh thu hàng năm (ARR) khoảng 100 triệu đô la chỉ trong ba năm. Lĩnh vực hỗ trợ khách hàng theo sát ngay sau, với các công ty AI-native tự động hóa việc giải quyết yêu cầu, tóm tắt và tối ưu quy trình làm việc với tốc độ chưa từng có.

Tuy nhiên, các ngành công nghiệp xây dựng trên dữ liệu có cấu trúc lại không nhanh chóng áp dụng AI tạo sinh như vậy. Trong dịch vụ tài chính, bảo hiểm và sản xuất, các đội AI vẫn phải xây dựng và quản lý hàng nghìn mô hình học máy riêng lẻ cho từng tác vụ — mỗi mô hình đều có đường dẫn dữ liệu, kỹ thuật đặc trưng, hệ thống giám sát, lịch đào tạo lại và cách xử lý lỗi riêng biệt. Những ngành này cần một nền tảng chung cho dữ liệu có cấu trúc, một thứ tương đương với LLM nhưng dành cho hàng và cột thay vì câu và đoạn văn.

Chúng tôi tin rằng nền tảng đó giờ đây đang xuất hiện: các mô hình nền tảng cho dữ liệu dạng bảng (Tabular Foundation Models – TFM). Đây chính là cơ hội lớn cho các ngành công nghiệp đang sở hữu những kho dữ liệu có cấu trúc khổng lồ, bị cô lập và cần bảo mật cao.

Cách LLM “Xử Lý” Dữ Liệu Phi Cấu Trúc (Và Lý Do Chúng Hiệu Quả)

LLM sử dụng cơ chế chú ý để hiểu mối quan hệ giữa các từ, nắm bắt ngữ cảnh, sắc thái và ý nghĩa xuyên suốt câu văn và tài liệu. Khi mở rộng quy mô, chúng được hưởng lợi từ nguồn văn bản khổng lồ trên internet, cung cấp hàng nghìn tỷ token để học cách ngôn ngữ hoạt động đa dạng trên nhiều lĩnh vực. Nhờ vậy, các mô hình có thể đọc, viết, tóm tắt và lập luận trên văn bản, trở thành công cụ kinh doanh thiết yếu — soạn email, trả lời phiếu hỗ trợ và rà soát hợp đồng chỉ trong vài giây.

Các doanh nhân nhanh chóng nhận ra công thức: kết nối API của một mô hình nền tảng, tích hợp nó vào giao diện chuyên ngành, giải quyết một quy trình làm việc phức tạp, và bán giấy phép sử dụng cho lực lượng lao động tri thức giá trị cao. Hàng nghìn công ty AI-native đã ra đời, tạo thành vòng tuần hoàn tích cực: ứng dụng thúc đẩy nhu cầu, nhà cung cấp mô hình tái đầu tư nâng cấp, và mô hình mạnh hơn lại cho phép ứng dụng mạnh hơn. Từng lĩnh vực một, LLM đã “xử lý” triệt để dữ liệu phi cấu trúc ở bất cứ đâu.

Bí mật:  10 Gợi Ý Chỉnh Sửa Ảnh AI Bằng ChatGPT Giúp Tạo Chân Dung Nữ Siêu Thực, Tự Nhiên

Điểm Dừng Của LLM Hiện Tại: Hiểu Dữ Liệu Có Cấu Trúc

Nhưng LLM được đào tạo trên văn bản, không phải trên bảng biểu. Khi làm việc với dữ liệu có cấu trúc, chúng buộc phải “làm phẳng” các bảng tính thành chuỗi token, làm mất đi ý nghĩa vốn có trong cấu trúc lược đồ, mối quan hệ giữa các cột, kiểu dữ liệu và ngữ nghĩa số học.

Giải pháp tạm thời phổ biến là gián tiếp: mô hình tạo ra mã SQL hoặc Python, chuyển cho hệ thống bên ngoài thực thi và hy vọng kết quả chính xác. Cách này chỉ hiệu quả với truy vấn đơn giản và nhanh chóng gặp sự cố. Chỉ một tên cột mơ hồ — chẳng hạn “revenue” so với “revenue_id” — cũng có thể làm hỏng toàn bộ phân tích hoặc dự báo.

Vấn đề này trầm trọng hơn trong các doanh nghiệp lớn. Nhiều năm tích tụ nợ kỹ thuật, cùng với các vụ mua bán và sáp nhập, để lại hàng chục hệ thống biệt lập và dễ vỡ. LLM và các tác nhân AI hiện nay dù đã cải thiện nhiều vẫn không thể tự tin hiểu và thao tác dữ liệu của một tổ chức vốn bị phân mảnh trên các hệ thống ERP, CRM, kho dữ liệu và bảng tính khác nhau. Một truy vấn đơn lẻ có thể buộc tác nhân AI phải kết hợp các bảng vốn không được thiết kế để tương thích, do những đội ngũ nay đã không còn xây dựng.

Kết quả là, các lĩnh vực rủi ro cao như dịch vụ tài chính và chăm sóc sức khỏe vẫn phụ thuộc vào hàng loạt mô hình học máy truyền thống đáng tin cậy (và đồ sộ) của họ. Một số công ty khởi nghiệp đã xây dựng tác nhân viết công thức Excel hoặc chạy sổ ghi chép Python thông qua ngôn ngữ tự nhiên. Nhưng khi cần độ chính xác tuyệt đối cho các tính toán bảo hiểm, dự báo quy mô lớn, hay lập luận đa bảng làm cơ sở cho quyết định triệu đô, phần xử lý chính vẫn thuộc về các thư viện như XGBoost và LightGBM.

LLM có thể tương tác với dữ liệu có cấu trúc, nhưng chúng không phải là công cụ phù hợp để mô hình hóa nó.

Mở Khóa Cơ Hội 600 Tỷ Đô La Với Mô Hình Nền Tảng Dạng Bảng (TFM)

Dữ liệu có cấu trúc đòi hỏi một mô hình nền tảng được xây dựng nguyên bản cho chính nó. Mô hình này phải hiểu từ gốc rễ về lược đồ, mối quan hệ giữa các cột và ngữ nghĩa số học, thay vì coi bảng biểu như văn bản đã được làm phẳng.

Bí mật:  Trợ lý AI mới của Proton đặt quyền riêng tư lên hàng đầu: Mã hóa toàn bộ hội thoại, không lưu lịch sử trò chuyện

Cơ hội thị trường ở đây thật đáng kinh ngạc. Thị trường phân tích dữ liệu toàn cầu dự kiến vượt 600 tỷ đô la vào năm 2030. Tuy nhiên, các ngành phụ thuộc nhiều nhất vào dữ liệu có cấu trúc — dịch vụ tài chính, bảo hiểm và chăm sóc sức khỏe — với tổng vốn hóa thị trường hàng nghìn tỷ đô la, vẫn chưa khai thác hết tiềm năng của AI tạo sinh.

TFM có thể là chìa khóa để các công ty khởi nghiệp mở khóa thị trường tiềm năng (TAM) khổng lồ này. TFM được đào tạo để đưa ra lập luận dựa trên hàng và cột, tương tự như cách LLM xử lý câu và trang văn bản. Chúng cung cấp dự đoán đẳng cấp hàng đầu cho các tác vụ phân loại, hồi quy và chuỗi thời gian chỉ trong vài giây thay vì hàng giờ.

Không giống học máy truyền thống, TFM có thể làm việc ngay lập tức với dữ liệu hỗn tạp và không đồng nhất. Chúng xử lý được giá trị thiếu, định dạng không nhất quán và tên cột mơ hồ mà không cần kỹ thuật đặc trưng thủ công, không cần lựa chọn mô hình hay điều chỉnh siêu tham số.

Một thế hệ công ty mới đang hình thành trong lĩnh vực này, bao gồm Rowspace, Prior Labs, Fundamental, Intelligible AI, Kumo AI, Neuralk AI, Avra AI, Wood Wide AI. Mỗi công ty đang khám phá các cách tiếp cận kiến trúc khác nhau để biểu diễn dữ liệu dạng bảng và quan hệ, học các phụ thuộc chéo cột và tổng quát hóa trên nhiều tác vụ.

Ý nghĩa vận hành của TFM rất sâu sắc. Thay vì duy trì một danh mục phân mảnh gồm các mô hình dễ vỡ và chuyên biệt, doanh nghiệp có thể hợp nhất xung quanh một nền tảng duy nhất có khả năng tổng quát hóa cho nhiều trường hợp sử dụng. Điều này sẽ giảm đáng kể chi phí và độ phức tạp trong việc xây dựng, giám sát và đào tạo lại mô hình.

Tuy nhiên, cũng có rủi ro thực sự cho các công ty khởi nghiệp trong không gian này. Khi LLM ngày càng giỏi viết mã, một số ý kiến cho rằng việc tạo tập lệnh phân tích tức thời có thể loại bỏ nhu cầu về mô hình dạng bảng chuyên biệt. Áp lực mã nguồn mở cũng có thể làm mờ đi lợi thế kỹ thuật, như đã từng xảy ra với các mô hình xử lý hình ảnh.

Điều này khiến chiến lược phân phối và mô hình kinh doanh trở nên cực kỳ quan trọng. Chỉ lợi thế kỹ thuật sẽ không bền vững. TFM phải được tích hợp sâu vào quy trình làm việc của doanh nghiệp, được chứng minh ROI rõ ràng và được định giá phản ánh giá trị của độ tin cậy cùng việc giảm chi phí vận hành — tất cả trước khi vòng đời lợi thế công nghệ kết thúc.

Bí mật:  Khám phá “App Store” mới của ChatGPT

Thúc Đẩy Một Làn Sóng Khởi Nghiệp Mới

Đối với các ngành công nghiệp nơi việc áp dụng AI còn chậm chạp, TFM mang đến một khởi đầu mới. Những tác vụ từng đòi hỏi hàng tháng làm việc của các nhà khoa học dữ liệu — như xây dựng đường dẫn dữ liệu tùy chỉnh, thiết kế đặc trưng riêng, đào tạo lại liên tục — giờ có thể được giải quyết bằng một mô hình đa năng duy nhất, cho kết quả đáng tin cậy ngay lập tức.

  • Trong chăm sóc sức khỏe: Phân tầng rủi ro bệnh nhân và dự đoán chẩn đoán.
  • Trong dịch vụ tài chính: Quyết định tín dụng và phát hiện gian lận.
  • Trong bảo hiểm: Phân loại yêu cầu bồi thường và tối ưu hóa định giá.
  • Trong sản xuất: Bảo trì dự đoán và dự báo nhu cầu.

Những vấn đề này đã được giải quyết bằng học máy truyền thống trong nhiều năm — nhưng chưa bao giờ với tốc độ, tính linh hoạt và khả năng mở rộng mà một mô hình nền tảng như TFM có thể mang lại.

Đối với các nhà sáng lập, đây là một cơ hội trên thị trường còn trống. Giống như LLM mở khóa làn sóng công ty AI-native xây dựng trên văn bản, TFM mở ra cánh cửa cho các startup giải quyết các vấn đề dữ liệu có cấu trúc vốn trước đây quá chậm, quá đắt hoặc quá phức tạp để triển khai ở quy mô lớn.

Tags: AI dữ liệu có cấu trúc, Mô hình nền tảng dạng bảng, Tương lai phân tích dữ liệuAI dữ liệu có cấu trúc, Mô hình nền tảng dạng bảng, Tương lai phân tích dữ liệu

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top