Kỹ thuật xây dựng prompt cho phân tích chuỗi thời gian

Giới thiệu

Các mô hình ngôn ngữ lớn (LLM) ngày nay không chỉ mạnh về xử lý ngôn ngữ mà còn có thể hỗ trợ hiệu quả cho các tác vụ phân tích dữ liệu, trong đó có phân tích chuỗi thời gian – một lĩnh vực thường được coi là chuyên biệt. Điều quan trọng ở đây là bạn phải biết cách xây dựng prompt (lệnh yêu cầu) sao cho phù hợp, định hướng rõ ràng cho mô hình.
Bài viết này giới thiệu 7 chiến lược xây dựng prompt hiệu quả, giúp bạn tận dụng sức mạnh của LLM trong phân tích chuỗi thời gian.
Các ví dụ minh họa đều dùng dữ liệu bán lẻ, cụ thể là chuỗi số liệu doanh số bán hàng theo ngày trong một năm.

1. Đặt bài toán theo đặc tính thời gian

Để mô hình hiểu đúng bản chất của chuỗi dữ liệu, bạn nên mô tả rõ các yếu tố như xu hướng (tăng/giảm), tính mùa vụ, các chu kỳ đặc biệt (ví dụ: chương trình khuyến mãi hoặc ngày lễ). Việc xác định bối cảnh này sẽ giúp LLM phân biệt đâu là biến động thực sự, đâu chỉ là nhiễu ngẫu nhiên. Thông thường, mô tả cụ thể về đặc điểm dữ liệu trong phần yêu cầu (prompt) sẽ hiệu quả hơn là chỉ đưa ra chỉ dẫn lý luận chung chung.
Ví dụ prompt:
“Dưới đây là doanh số bán hàng hàng ngày (tính theo đơn vị) trong 365 ngày gần nhất. Dữ liệu có tính mùa vụ theo tuần (doanh số cao vào cuối tuần), xu hướng tăng nhẹ về dài hạn, và thường có các đợt tăng mạnh vào cuối tháng do chương trình khuyến mãi ngày nhận lương. Hãy sử dụng các đặc điểm này khi dự báo cho 30 ngày tới.”

2. Hướng dẫn trích xuất đặc trưng và tín hiệu từ dữ liệu

Thay vì yêu cầu mô hình dự báo trực tiếp trên số liệu thô, bạn có thể hướng dẫn nó phát hiện các đặc trưng quan trọng trước, như các mô hình lặp lại, điểm bất thường hay mối tương quan. Sau đó, có thể yêu cầu mô hình giải thích nguyên nhân hoặc đánh giá ảnh hưởng của các đặc trưng này lên kết quả dự báo.
Ví dụ prompt:
“Từ dữ liệu doanh số 365 ngày qua, hãy tính trung bình doanh số/ngày, độ lệch chuẩn, xác định các ngày có doanh số vượt quá trung bình cộng hai lần độ lệch chuẩn (có thể là ngoại lệ), và chỉ ra các mô hình lặp lại theo tuần hoặc tháng. Sau đó, giải thích nguyên nhân có thể dẫn đến những ngày doanh số tăng hoặc giảm đột biến, đồng thời đánh dấu những điểm bất thường cần chú ý.”

3. Kết hợp LLM với mô hình thống kê truyền thống

Các tác vụ yêu cầu tính toán chính xác hoặc phụ thuộc chặt vào yếu tố thời gian thường là điểm yếu của LLM. Vì vậy, nên kết hợp LLM với các mô hình thống kê như ARIMA, ETS… Một cách làm hiệu quả là để LLM đảm nhận phần phân tích tổng quan, xây dựng giả thuyết hoặc giải thích kết quả, còn phần dự báo số liệu được đảm nhiệm bởi các mô hình định lượng.
Ví dụ, phương pháp LeMoLE (LLM-Enhanced Mixture of Linear Experts) kết hợp khả năng trích xuất đặc trưng của LLM với mô hình tuyến tính, giúp tăng tính chính xác và tốc độ dự báo.
Kết quả là bạn nhận được cả tính chặt chẽ của thống kê lẫn khả năng diễn giải, giải thích của LLM.

4. Đưa dữ liệu vào prompt dưới dạng có cấu trúc

Nếu nhập dữ liệu thô, mô hình sẽ khó hiểu hoặc xử lý thiếu chính xác. Hãy trình bày dữ liệu dưới dạng có cấu trúc (ví dụ: JSON hoặc bảng tóm tắt), kèm thêm thông tin mô tả (metadata) để mô hình dễ nhận diện quy luật.
Ví dụ dữ liệu JSON và prompt đi kèm:


{
  "sales": [
    {"date": "2024-12-01", "units": 120},
    {"date": "2024-12-02", "units": 135},
    ...,
    {"date": "2025-11-30", "units": 210}
  ],
  "metadata": {
    "frequency": "daily",
    "seasonality": ["weekly", "monthly_end"],
    "domain": "retail_sales"
  }
}

Prompt:
“Dựa vào dữ liệu JSON và thông tin metadata trên, hãy phân tích chuỗi thời gian và dự báo doanh số trong 30 ngày tiếp theo.”

5. Thiết kế mẫu prompt dự báo rõ ràng

Hãy chia nhỏ yêu cầu rõ ràng cho từng mục đích, ví dụ dự báo ngắn hạn, dài hạn hoặc mô phỏng các tình huống giả định. Việc phân biệt từng nhiệm vụ giúp mô hình trả lời sát nhu cầu ứng dụng thực tế.
Ví dụ:

  • Nhiệm vụ A — Dự báo doanh số cho 7 ngày tới.
  • Nhiệm vụ B — Dự báo doanh số cơ bản cho 30 ngày tới với hai kịch bản:
  • Kịch bản 1: Điều kiện bình thường.
  • Kịch bản 2: Có chương trình khuyến mãi từ ngày 10–15.
  • Với mỗi kịch bản, hãy đưa ra khoảng tin cậy 95%.

6. Phát hiện bất thường bằng prompt

Có thể xây dựng prompt để LLM không chỉ dự báo mà còn phát hiện điểm bất thường, giải thích nguyên nhân và đề xuất hướng kiểm tra thêm. Tuy nhiên, bạn nên sử dụng các công cụ phân tích truyền thống để xử lý/dò tìm trước, sau đó gửi kết quả cho LLM để diễn giải.
Ví dụ prompt:
“Sử dụng dữ liệu doanh số (ở dạng JSON), hãy xác định các ngày mà doanh số lệch quá 2 lần độ lệch chuẩn so với trung bình tuần. Với mỗi ngày bị đánh dấu, hãy giải thích nguyên nhân tiềm năng (ví dụ: hết hàng, khuyến mãi, sự kiện đặc biệt) và đề xuất có nên kiểm tra thêm các yếu tố liên quan (như nhật ký kho, chương trình marketing, lượng khách vào cửa hàng).”

7. Kết hợp kiến thức chuyên ngành vào prompt

Các yếu tố đặc thù của ngành (ví dụ: mùa vụ bán lẻ, ảnh hưởng của ngày lễ, hành vi khách hàng…) nếu được đưa vào prompt sẽ giúp LLM dự báo sát thực tế hơn, đồng thời dễ giải thích kết quả.
Ví dụ prompt:
“Đây là dữ liệu doanh số hàng ngày của một chuỗi bán lẻ. Doanh số thường tăng vào cuối tháng (khách nhận lương), giảm vào ngày lễ, và tăng mạnh trong các dịp khuyến mãi. Đôi khi có tình trạng hết hàng, dẫn đến doanh số một số mặt hàng giảm. Hãy cân nhắc các yếu tố này khi phân tích chuỗi thời gian và dự báo.”

Tổng kết

Bài viết đã giới thiệu 7 chiến lược giúp xây dựng prompt hiệu quả khi sử dụng LLM cho bài toán phân tích và dự báo chuỗi thời gian.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top