Chi phí token tăng gấp 1000 lần sau khi áp dụng AI Agent, 'Token Maxing' trở thành nỗi lo của doanh nghiệp

Hình ảnh được tạo ra bằng AI [Ảnh=MS Copilot]

Sự lan rộng của AI Agent trong các doanh nghiệp đang gây ra những hậu quả không lường trước. Cấu trúc tiêu thụ token quá mức của các agent đã làm tăng chi phí áp dụng AI một cách đột ngột, trong khi nhân viên thực hiện những công việc không có ý nghĩa để làm tăng chỉ số sử dụng AI trong công ty, hiện tượng được gọi là 'token maxing', càng làm sâu sắc thêm nỗi lo của các doanh nghiệp.

Theo một nghiên cứu được công bố vào ngày 29 tháng 5 bởi Microsoft Research và Đại học Stanford, các tác vụ lập trình bằng AI tiêu tốn token gấp 1000 lần so với chatbot thông thường.

Các agent thao tác hệ thống bên ngoài cũng tiêu tốn từ 5 đến 30 lần token so với các cuộc trò chuyện thông thường. Khi thực hiện cùng một tác vụ nhiều lần, sự biến động trong lượng token tiêu thụ có thể lên tới 30 lần, khiến việc dự đoán chi phí trở nên gần như không thể.

Nghiên cứu cũng chỉ ra rằng "tiêu thụ nhiều token hơn không đồng nghĩa với việc độ chính xác cao hơn". Mô hình cho thấy độ chính xác đạt đỉnh ở mức chi phí trung bình trước khi bước vào trạng thái bão hòa.

Tác động về chi phí đang trở thành hiện thực. Theo một trường hợp của công ty tư vấn chi phí AI LinOps, một startup SaaS với 35 kỹ sư đã chứng kiến chi phí AI hàng tháng tăng lên tới 87.000 USD chỉ sau 4 tháng áp dụng các agent lập trình như Claude Code và Cursor cùng với agent xử lý lỗi nội bộ. Chỉ sau khi áp dụng các biện pháp tối ưu hóa như cắt ngữ cảnh, tách mô hình nhẹ và thiết lập giới hạn sử dụng hàng ngày, chi phí mới giảm xuống còn khoảng 24.000 USD mỗi tháng.

Ngoài vấn đề chi phí token, những tác động tiêu cực đến văn hóa tổ chức cũng đang nổi lên. Amazon đã yêu cầu hơn 80% lập trình viên sử dụng AI hàng tuần và vận hành bảng xếp hạng tiêu thụ token nội bộ, dẫn đến hiện tượng token maxing khi nhân viên thực hiện những công việc không cần thiết để tăng điểm số.

Để đối phó, Amazon đã hạn chế khả năng nhìn thấy bảng xếp hạng. Tình trạng tương tự cũng xảy ra tại Meta, nơi bảng xếp hạng nội bộ cho khoảng 85.000 nhân viên cho thấy tổng lượng token tiêu thụ trong 30 ngày đã vượt qua 60 triệu tỷ.

Sự bùng nổ chi phí token có thể mang lại lợi ích cho ngành AI tại Trung Quốc. Giá API của DeepSeek V3.2 là 0,14 USD cho 1 triệu token đầu vào, rẻ hơn khoảng 94% so với 2,50 USD của GPT-5. Đối với token đầu ra, giá của DeepSeek là 0,28 USD so với 15 USD của GPT-5, cho thấy sự chênh lệch ngày càng lớn. Khi khối lượng tiêu thụ token tăng lên, sự khác biệt về giá sẽ ảnh hưởng nhiều hơn đến chi phí thực tế, dẫn đến khả năng các doanh nghiệp cần tiết kiệm chi phí sẽ xem xét áp dụng các mô hình sản xuất tại Trung Quốc.

Lượng tiêu thụ token cũng đang tăng vọt. Công ty đầu tư Alja đã phân tích dữ liệu từ nền tảng OpenRouter, cho thấy lượng token tiêu thụ hàng tuần tính đến tháng 12 năm ngoái đã tăng hơn 3800% trong 12 tháng qua, với đà tăng nhanh chóng kể từ tháng 1 năm 2025. Độ dài trung bình của prompt đã tăng từ khoảng 1500 token vào đầu năm 2024 lên khoảng 6000 token, gấp 4 lần.

* Bài viết này được dịch tự động bằng AI.

Kim Seong Hyeon minus1@ajunews.com