Hancom dẫn đầu xu hướng GitHub với công nghệ PDF AI

Giải quyết tắc nghẽn dữ liệu PDF với động cơ lai và xử lý cục bộ Cấu trúc hóa OCR, bảng biểu, công thức và xây dựng nền tảng liên kết RAG, AI

OpenDataLoader PDF của Hancom dẫn đầu xu hướng GitHub. [Ảnh=Hancom]

[Kinh tế Nhật báo] Hancom đang khẳng định vị thế trong lĩnh vực xử lý dữ liệu, một điểm nghẽn chính trong phát triển trí tuệ nhân tạo (AI). Dự án mã nguồn mở OpenDataLoader PDF của Hancom đã nhanh chóng lan rộng trong cộng đồng phát triển toàn cầu, chứng minh sức mạnh công nghệ của công ty.

Ngày 23 tháng 3, Hancom thông báo rằng dự án OpenDataLoader PDF v2.0 của họ đã đạt vị trí số 1 trong xu hướng GitHub cho tất cả các ngôn ngữ lập trình. Chỉ sau một ngày công bố, dự án đã nhận được hơn 1.800 sao và đến 14 giờ cùng ngày, tổng số sao đã vượt 8.400, với hơn 500 lần fork.

Thành công này không chỉ là chỉ số phổ biến mà còn nhắm vào vấn đề chưa được giải quyết trong hệ sinh thái phát triển AI. PDF là một trong những định dạng tài liệu phổ biến nhất trên thế giới, chứa nhiều dữ liệu quan trọng như tài liệu doanh nghiệp, báo cáo và nghiên cứu. Tuy nhiên, do cấu trúc phức tạp kết hợp văn bản, bảng biểu và hình ảnh, việc chuyển đổi PDF thành dạng có thể sử dụng ngay cho AI là một thách thức lớn.

Để giải quyết vấn đề này, Hancom đã áp dụng động cơ lai kết hợp phân tích AI và trích xuất trực tiếp dựa trên quy tắc vào OpenDataLoader PDF v2.0. Đặc biệt, dữ liệu được xử lý trong môi trường cục bộ mà không cần gửi lên máy chủ bên ngoài, tăng cường bảo mật và duy trì tốc độ xử lý. Công cụ cũng cung cấp các chức năng AI như nhận dạng ký tự quang học (OCR), trích xuất bảng biểu và công thức, mở rộng khả năng xử lý tài liệu phức tạp.

Về mặt hiệu suất, Hancom nhấn mạnh tính cạnh tranh của sản phẩm. Trong các bài kiểm tra nội bộ, công cụ đạt độ chính xác cao hơn so với các mã nguồn mở khác trong các mục tiêu như thứ tự đọc, nhận dạng cấu trúc bảng và trích xuất tiêu đề. Kết quả và mã tái hiện được công bố công khai để tăng độ tin cậy.

Hancom cho biết trong thử nghiệm với 200 tệp PDF thực tế, công cụ đạt độ chính xác tổng thể 0,90 và độ chính xác trích xuất bảng 0,93, cho thấy khả năng nhận diện cao trong cấu trúc tài liệu phức tạp. Việc áp dụng đồng thời chế độ cục bộ dựa trên quy tắc và chế độ lai AI là yếu tố chính cải thiện hiệu suất.

Chức năng xử lý tài liệu quét cũng được cải thiện. OCR tích hợp hỗ trợ hơn 80 ngôn ngữ hoạt động trong chế độ lai, cho phép trích xuất văn bản ổn định từ các tệp quét độ phân giải thấp trên 300DPI. Công cụ cũng có thể nhận diện và cấu trúc hóa bảng biểu không có đường viền, bố cục phức tạp, công thức LaTeX, hình ảnh và biểu đồ, mở rộng phạm vi xử lý dữ liệu phi cấu trúc.

Chính sách mã nguồn mở cũng được thiết kế để mở rộng. Dự án áp dụng giấy phép Apache 2.0, cho phép doanh nghiệp và nhà phát triển sử dụng thương mại mà không có hạn chế, nhằm nhanh chóng mở rộng cơ sở người dùng và hệ sinh thái.

Hancom cũng tăng cường liên kết với hệ sinh thái phát triển AI. Trước đó, OpenDataLoader PDF đã được đăng ký là thành phần chính thức của khung phát triển AI toàn cầu LangChain và dự kiến mở rộng tích hợp với các khung AI chính như 'LlamaIndex' và 'Gemini CLI' trong năm nay. Bằng cách đảm bảo khả năng tương thích với các công cụ phát triển AI đa dạng, Hancom có chiến lược tích hợp tự nhiên từ xử lý dữ liệu đến sử dụng mô hình.

Hancom cũng đang mở rộng chức năng nhắm vào môi trường AI agent. Công ty dự định giới thiệu chức năng 'MCP' để kết nối ngữ cảnh giữa các mô hình, hỗ trợ AI hiểu và sử dụng dữ liệu tài liệu hiệu quả hơn. Đây là nỗ lực mở rộng vai trò từ công cụ trích xuất dữ liệu đơn thuần thành hạ tầng cơ sở cho ứng dụng AI.

Trang GitHub của OpenDataLoader PDF v2.0 của Hancom. [Ảnh=Hancom GitHub]

Với sự phổ biến của các mô hình hiệu suất cao gần đây, chất lượng dữ liệu và hiệu quả xử lý đang trở thành yếu tố cạnh tranh chính trong giai đoạn triển khai dịch vụ thực tế. Hancom dự kiến mở rộng từ công ty phần mềm văn phòng truyền thống sang công ty hạ tầng dữ liệu AI thông qua sự lan rộng của OpenDataLoader PDF v2.0.

Ông Kim Yeon-su, CEO của Hancom, cho biết: "Thành công này là kết quả của việc công nghệ trích xuất dữ liệu tài liệu của Hancom được cộng đồng phát triển toàn cầu kiểm chứng trực tiếp, đồng thời xác nhận khả năng mở rộng hệ sinh thái công nghệ thông qua nhiều ứng dụng khác nhau. Chúng tôi sẽ phát triển nền tảng dữ liệu PDF mở cho phép các doanh nghiệp và nhà phát triển trên toàn thế giới sử dụng và mở rộng tự do thông qua việc chuyển đổi sang giấy phép Apache 2.0."

* Bài viết này được dịch tự động bằng AI.

Ryu Cheongbit cbryu@kyungjeilbo.com