Naver phát triển AI tìm kiếm theo phong cách riêng

Công bố mô hình AI tìm kiếm thế hệ mới chuyên dụng… Tăng cường liên kết với blog, mua sắm và địa điểm Phát triển 'Product Native LLM' sử dụng dịch vụ Naver thay vì AI đa năng Tiến hóa thành AI đa phương thức hiểu hình ảnh bên cạnh văn bản

Ông Lee Gi-chang, Giám đốc Naver Cloud phát biểu tại sự kiện AI Search Tech Deep Talk diễn ra vào ngày 2 tháng 7 [Ảnh= Naver]

Naver đang khẳng định phong cách riêng trong cuộc cạnh tranh về trí tuệ nhân tạo (AI) sinh tạo. Công ty này đặt mục tiêu xây dựng một dịch vụ tìm kiếm kết hợp dữ liệu tìm kiếm với AI, nhằm hiểu rõ hơn các câu hỏi và dẫn dắt người dùng đến việc sử dụng dịch vụ thực tế như mua sắm và đặt chỗ, trong một hệ sinh thái cổng thông tin liên kết chặt chẽ với nhau từ tìm kiếm, blog, cafe đến các dịch vụ địa phương.
Vào ngày 2 tháng 7, Naver đã tổ chức một buổi thảo luận công nghệ AI Search tại D2SF, Gangnam, Seoul, nơi công bố mô hình ngôn ngữ thế hệ mới và các công nghệ cốt lõi áp dụng cho dịch vụ tìm kiếm AI 'AI Tab'.
Mô hình được giới thiệu lần này là 'Product Native LLM', một mô hình nhẹ được phát triển chuyên biệt cho tìm kiếm AI dựa trên HyperCLOVA X (HCX) hiện có. Trong khi các mô hình AI đa năng tập trung vào kiến thức và khả năng suy luận trong nhiều lĩnh vực, Product Native LLM tập trung vào việc hiểu câu hỏi của người dùng và sử dụng hợp lý các dịch vụ của Naver như tìm kiếm, blog, địa điểm và mua sắm.
Ông Lee Gi-chang, Giám đốc Naver Cloud cho biết: "Nếu HyperCLOVA X trước đây là AI đa năng, thì mô hình thế hệ mới kết hợp khả năng suy luận đa năng với khả năng thực hiện dịch vụ", đồng thời nhấn mạnh rằng "thời gian phản hồi không tăng đáng kể ngay cả trong các cuộc hội thoại dài, cho phép thực hiện chức năng của một AI agent một cách ổn định".
Mô hình mới cũng cải thiện tốc độ phản hồi và khả năng xử lý. Khác với mô hình trước đó, khi câu hỏi dài hơn thì thời gian phản hồi tăng lên đáng kể, mô hình mới được thiết kế để duy trì hiệu suất ổn định ngay cả trong các cuộc hội thoại dài. Dữ liệu học cũng được mở rộng từ các dữ liệu tập trung vào giáo dục sang các kiến thức chuyên môn như án lệ và luận văn.

Từ AI ghi nhớ câu trả lời đến AI biết suy nghĩ

Cách học cũng đã thay đổi. Trong khi trước đây, phương pháp học là lặp lại câu trả lời đúng, mô hình thế hệ mới áp dụng học tăng cường để tìm ra cách trả lời tốt hơn thông qua thử nghiệm và sai sót.
Một ví dụ điển hình là 'học tăng cường độ rõ ràng'. Thay vì tạo ra một câu trả lời có vẻ hợp lý khi không biết câu trả lời, mô hình này đã học cách đặt câu hỏi bổ sung cho người dùng.
Chẳng hạn, khi được hỏi "Ai là diễn viên chính trong bộ phim giáo dục?", mô hình có thể trả lời, nhưng với câu hỏi không rõ ràng như "Ai là diễn viên chính trong bộ phim đó?", nó sẽ hỏi lại: "Bạn đang nói về tác phẩm nào?". Hành động đặt câu hỏi bổ sung khi thiếu thông tin cần thiết cho câu trả lời được thưởng để cải thiện mô hình.
Naver cũng đã tăng cường liên kết với các dịch vụ của mình. Khi người dùng yêu cầu "Gợi ý một nhà hàng có không khí tốt ở Gangnam", mô hình sẽ sử dụng kết quả tìm kiếm địa điểm, và nếu có thêm điều kiện như "Đặt chỗ cho 2 người vào lúc 7 giờ tối ở Sinsa-dong", nó sẽ kiểm tra khả năng đặt chỗ và tạo ra câu trả lời. Điều này cho thấy mô hình không chỉ đơn thuần tạo ra câu trả lời mà còn chọn công cụ cần thiết để tổng hợp kết quả.
Naver đã giới thiệu công nghệ cốt lõi của AI Tab là 'Harness Engineering'. Thay vì một mô hình ngôn ngữ khổng lồ thực hiện tất cả các tác vụ, phương pháp này kết hợp các mô hình nhỏ được tối ưu hóa cho từng tác vụ với các công cụ khác nhau như tìm kiếm và đặt chỗ để vận hành dịch vụ AI.
Ông Han Seung-kyun, lãnh đạo tìm kiếm AI của Naver cho biết: "Chỉ với một LLM không thể cung cấp dịch vụ ổn định", và nhấn mạnh rằng "Việc thiết kế mô hình nào và sử dụng công cụ nào là yếu tố cạnh tranh của dịch vụ AI".
Naver cho biết phương pháp này đã giúp giảm chi phí thiết bị khoảng 3 lần so với trước đây và cải thiện tốc độ phản hồi hơn 2 lần. Họ cũng cho biết hiệu suất đánh giá khả năng thực hiện dịch vụ đã vượt qua mức trung bình của các mô hình cạnh tranh.

Từ văn bản đến hình ảnh

Naver có kế hoạch phát triển AI Tab thành một AI agent đa phương thức dựa trên kính thông minh trong tương lai. Khi người dùng hiển thị hình ảnh hoặc video, AI sẽ hiểu bối cảnh và cảnh vật, không chỉ thực hiện tìm kiếm mà còn thực hiện các hành động thực tế như mua sắm và đặt chỗ.
Ví dụ, khi nhìn thấy một quán cà phê trong video và yêu cầu "Đặt chỗ cho 4 người vào lúc 7 giờ tối ở một quán cà phê có không khí tương tự trong khu phố của tôi", AI sẽ hiểu cả hình ảnh và văn bản để thực hiện việc đặt chỗ.
Ông Yoon Sang-du, lãnh đạo Naver cho biết: "Mục tiêu là tạo ra một AI không chỉ dừng lại ở việc hiểu hình ảnh mà còn cho phép người dùng nhìn, hiểu và thực hiện hành động", đồng thời khẳng định sẽ hiện thực hóa một AI đa phương thức kết nối tốt nhất với các dịch vụ của Naver.
Trong khi đó, Naver cho biết hiện chưa có kế hoạch đưa quảng cáo vào AI Tab. Họ giải thích rằng hiện tại, việc xây dựng lòng tin của người dùng quan trọng hơn việc kiếm lợi nhuận. Tuy nhiên, họ để ngỏ khả năng xem xét việc đưa quảng cáo vào trong tương lai tùy thuộc vào độ trưởng thành của dịch vụ và quyết định kinh doanh.

* Bài viết này được dịch tự động bằng AI.

BAEK SEO HYUN qortjgus0602@ajunews.com