Vậy là cuối cùng ngày chúng ta chờ đợi cũng đã đến! Đúng 0h ngày 18/07/2025 theo giờ Việt Nam, OpenAI đã chính thức “trình làng” một trong những sản phẩm đột phá nhất của mình: ChatGPT Agent. Trong buổi livestream được dẫn dắt bởi CEO Sam Altman và các chuyên gia chủ chốt của dự án, thế giới đã được chứng kiến một bước nhảy vọt thực sự – từ một AI chỉ biết trò chuyện, giờ đây chúng ta có một AI có thể hành động!

📑Mục lục

I. TỪ Ý TƯỞNG ĐẾN HIỆN THỰC: SỰ TIẾN HÓA HỢP NHẤT CỦA OPERATOR VÀ DEEP RESEARCH
- 1. Hai mảnh ghép bổ sung hoàn hảo
II. “HỘP ĐỒ NGHỀ” CỦA CHATGPT AGENT: NÓ HOẠT ĐỘNG NHƯ THẾ NÀO?
- 1. Các công cụ chính
- 2. Trí tuệ đằng sau sự lựa chọn: Học tăng cường (Reinforcement Learning)
III. SỨC MẠNH ĐƯỢC KIỂM CHỨNG: KẾT QUẢ VƯỢT TRỘI TRÊN CÁC BENCHMARK
- 1. Bảng so sánh hiệu suất trên các benchmark trí tuệ
- 2. Các benchmark về tác vụ thực tế
IV. TRẢI NGHIỆM NGƯỜI DÙNG: SỰ HỢP TÁC VÀ QUYỀN KIỂM SOÁT
V. MẶT TRÁI CỦA SỨC MẠNH: RỦI RO VÀ CÁC BIỆN PHÁP AN TOÀN
VI. CỘNG ĐỒNG MẠNG NÓI GÌ VỀ CHATGPT AGENT?
VII. THÔNG TIN PHÁT HÀNH VÀ GIÁ CẢ
VIII. KẾT LUẬN: MỘT KỶ NGUYÊN MỚI CỦA AI ĐÃ BẮT ĐẦU

Đây không còn là những câu lệnh và câu trả lời đơn thuần. ChatGPT Agent được trao cho một “máy tính ảo” riêng, cho phép nó chủ động thực hiện các tác vụ phức tạp từ đầu đến cuối: duyệt web, phân tích dữ liệu, chạy mã lệnh, tạo slide thuyết trình, bảng tính và hơn thế nữa. Như Sam Altman đã nói, đây là khoảnh khắc “feel the AGI on” (cảm nhận được AGI – Trí tuệ Nhân tạo Tổng quát) của chính anh ấy. Trong bài viết này, Toàn sẽ cùng các bạn phân tích sâu về những gì đã được công bố, từ tính năng, hiệu suất cho đến những rủi ro đi kèm và phản ứng của cộng đồng.

I. TỪ Ý TƯỞNG ĐẾN HIỆN THỰC: SỰ TIẾN HÓA HỢP NHẤT CỦA OPERATOR VÀ DEEP RESEARCH

Để hiểu rõ về ChatGPT Agent, chúng ta cần nhìn lại hai sản phẩm tiền nhiệm được ra mắt vào đầu năm 2025: Operator và Deep Research. Sam Altman và đội ngũ của mình chia sẻ rằng, việc hợp nhất hai công nghệ này là một bước đi tất yếu khi họ nhận ra người dùng thực sự muốn một AI toàn năng hơn.

1. Hai mảnh ghép bổ sung hoàn hảo

Trước đây, Operator và Deep Research hoạt động khá tách biệt và có những điểm mạnh, điểm yếu riêng:

Operator (chỉ có trên phiên bản Pro): Giỏi trong việc tương tác trực tiếp với giao diện người dùng (GUI – Graphical User Interface) của website. Nó có thể nhấp chuột, cuộn trang, điền biểu mẫu, đăng nhập – về cơ bản là “vận hành” một trình duyệt như con người. Tuy nhiên, nó lại gặp khó khăn trong việc đọc và tổng hợp những bài viết dài hoặc phân tích sâu.
Deep Research: Trái ngược với Operator, Deep Research lại là một “chuyên gia” trong việc “tiêu hóa” và tổng hợp lượng lớn thông tin từ văn bản. Nó có thể đọc hàng loạt tài liệu và đưa ra báo cáo chi tiết, nhưng lại “bó tay” khi cần tương tác với các yếu tố trực quan trên web hay truy cập vào các trang yêu cầu đăng nhập.

OpenAI nhận thấy rằng hai khả năng này bổ sung cho nhau một cách hoàn hảo. Nhiều tác vụ người dùng cố gắng thực hiện với Operator (như “lên kế hoạch cho chuyến đi và đặt vé”) thực chất lại phù hợp hơn với Deep Research ở giai đoạn đầu và ngược lại. Việc hợp nhất chúng vào ChatGPT Agent đã tạo ra một hệ thống đồng nhất, linh hoạt và mạnh mẽ hơn rất nhiều.

[nguyenthieutoan.com] Sơ đồ hợp nhất Operator và Deep Research thành ChatGPT Agent

II. “HỘP ĐỒ NGHỀ” CỦA CHATGPT AGENT: NÓ HOẠT ĐỘNG NHƯ THẾ NÀO?

Điểm cốt lõi làm nên sức mạnh của ChatGPT Agent là khả năng truy cập và sử dụng một bộ công cụ đa dạng bên trong “máy tính ảo” của nó. Đây không còn là việc chỉ dựa vào kiến thức được huấn luyện sẵn, mà là khả năng chủ động tìm kiếm và hành động trong thời gian thực.

1. Các công cụ chính

Trong buổi giới thiệu, đội ngũ OpenAI đã trình bày chi tiết về các công cụ mà Agent có thể sử dụng:

Trình duyệt Trực quan (Visual Browser): Kế thừa từ Operator, cho phép Agent “nhìn” và tương tác với website như một người dùng thực thụ – nhấp chuột, điền form, kéo thả.
Trình duyệt Văn bản (Text-based Browser): Kế thừa từ Deep Research, giúp Agent đọc và phân tích nội dung văn bản trên web một cách cực kỳ nhanh chóng và hiệu quả.
Terminal: Một công cụ cực kỳ mạnh mẽ cho phép Agent chạy các đoạn mã lệnh, xử lý file (như tạo và phân tích bảng tính, slide), và thực hiện các tác vụ phức tạp hơn.
Truy cập API: Agent có thể gọi đến các API (Giao diện Lập trình Ứng dụng) công khai và cả các API riêng tư thông qua tính năng Connectors. Điều này cho phép nó kết nối với dữ liệu cá nhân của bạn (nếu được cho phép) từ Google Drive, Google Calendar, GitHub… để thực hiện các tác vụ cá nhân hóa.
Tạo ảnh (Image Generation): Tích hợp DALL-E để tạo ra các hình ảnh minh họa cho slide hoặc các tài liệu khác.

2. Trí tuệ đằng sau sự lựa chọn: Học tăng cường (Reinforcement Learning)

Làm thế nào Agent biết khi nào nên dùng công cụ nào? Câu trả lời nằm ở Học tăng cường (Reinforcement Learning). OpenAI đã huấn luyện mô hình trên những tác vụ cực khó, đòi hỏi phải sử dụng kết hợp nhiều công cụ. Bằng cách “thưởng” cho những lần giải quyết vấn đề chính xác và hiệu quả, mô hình dần học được cách lựa chọn công cụ một cách thông minh. Ban đầu, nó có thể thử mọi công cụ cho một vấn đề đơn giản, nhưng qua thời gian, nó sẽ trở nên “khôn ngoan” hơn, biết rằng để tìm nhà hàng thì nên bắt đầu với trình duyệt văn bản, sau đó chuyển sang trình duyệt trực quan để xem ảnh và đặt bàn.

III. SỨC MẠNH ĐƯỢC KIỂM CHỨNG: KẾT QUẢ VƯỢT TRỘI TRÊN CÁC BENCHMARK

1. Bảng so sánh hiệu suất trên các benchmark trí tuệ

OpenAI không chỉ nói suông. Họ đã đưa ra hàng loạt số liệu ấn tượng từ các bài kiểm tra (benchmark) để chứng minh năng lực của ChatGPT Agent. Là một chuyên gia về tối ưu, mình đặc biệt ấn tượng với cách họ đo lường và trình bày kết quả.

Benchmark	Mô tả	Kết quả của ChatGPT Agent	So sánh đáng chú ý
Humanity’s Last Exam	Đo lường khả năng giải quyết các câu hỏi đa lĩnh vực ở cấp độ chuyên gia.	41.6% (pass@1, nghĩa là mô hình đưa ra câu trả lời đúng ngay trong lần thử đầu tiên)	Hiệu suất gần gấp đôi so với phiên bản không được trang bị bộ công cụ (chỉ 23%).
FrontierMath	Đánh giá khả năng suy luận trên các bài toán chuyên sâu và phức tạp nhất hiện nay.	27.4%	Vượt trội một cách đáng kể so với các mô hình mạnh mẽ trước đó như o4-mini (19.3%) và o3 (10.3%).

2. Các benchmark về tác vụ thực tế

Điều làm Toàn hứng thú nhất là các bài kiểm tra mô phỏng công việc thực tế, nơi mà khả năng vận hành được thể hiện rõ nhất.

Internal Knowledge-Work Benchmark: Trên các tác vụ kinh tế có giá trị cao (như phân tích đối thủ, lập lịch khấu hao), kết quả của Agent được đánh giá là tương đương hoặc tốt hơn con người trong khoảng 50% các trường hợp.
SpreadsheetBench: Đo khả năng chỉnh sửa bảng tính. ChatGPT Agent đạt 35.3%, và khi được cấp quyền truy cập trực tiếp file .xlsx, con số này nhảy vọt lên 45.5%, so với 20% của Copilot trong Excel. Đây là một con số cực kỳ ấn tượng.
Investment Banking Benchmark: Trên các tác vụ mô hình tài chính của một nhà phân tích ngân hàng đầu tư, Agent cũng cho thấy sự vượt trội đáng kể so với Deep Research và o3.
BrowseComp & WebArena: Trên các benchmark đo khả năng duyệt web để tìm thông tin khó hoặc hoàn thành tác vụ, Agent đều thiết lập kỷ lục SOTA (State-of-the-Art – Hiện đại nhất) mới, cải thiện đáng kể so với các mô hình tiền nhiệm.

IV. TRẢI NGHIỆM NGƯỜI DÙNG: SỰ HỢP TÁC VÀ QUYỀN KIỂM SOÁT

Một điểm nhấn quan trọng trong buổi ra mắt là OpenAI không xây dựng một “hộp đen” tự động chạy mà không có sự kiểm soát. Ngược lại, họ thiết kế Agent để có tính tương tác và hợp tác rất cao.

Khả năng Can thiệp (Interruptibility): Bạn có thể tạm dừng Agent bất cứ lúc nào để làm rõ hướng dẫn, điều chỉnh mục tiêu, hoặc thậm chí thay đổi hoàn toàn tác vụ. Agent sẽ tiếp tục từ nơi nó dừng lại với thông tin mới mà không mất đi tiến trình cũ. Đây là một tính năng cực kỳ quan trọng để đảm bảo kết quả cuối cùng đúng với mong muốn.
Chủ động hỏi lại: Agent được huấn luyện để tự động hỏi lại người dùng khi cần thêm thông tin hoặc xác nhận một hành động quan trọng (ví dụ: trước khi gửi email hay thực hiện một giao dịch mua bán).
Chế độ “Take Over”: Bạn có toàn quyền “tiếp quản” trình duyệt của Agent bất cứ lúc nào. Ví dụ, khi cần nhập mật khẩu hoặc thông tin thẻ tín dụng, bạn có thể tự mình làm điều đó một cách an toàn.
Tường thuật trực tiếp: Màn hình của Agent sẽ hiển thị trực tiếp những gì nó đang làm, kèm theo dòng “suy nghĩ” (chain of thought) để bạn luôn biết nó đang xử lý đến đâu và tại sao nó lại thực hiện hành động đó.

[nguyenthieutoan.com] Giao diện người dùng của ChatGPT Agent hiển thị luồng suy nghĩ và hành động

V. MẶT TRÁI CỦA SỨC MẠNH: RỦI RO VÀ CÁC BIỆN PHÁP AN TOÀN

Là một chuyên gia, Toàn luôn nhìn nhận vấn đề từ hai phía. Một công nghệ càng mạnh mẽ, những rủi ro đi kèm càng lớn. OpenAI đã rất thẳng thắn về vấn đề này và dành một phần đáng kể của buổi ra mắt để nói về các biện pháp an toàn.

1. Tấn công Tiêm Prompt (Prompt Injection)

Đây là một trong những rủi ro lớn nhất. Kẻ xấu có thể chèn những chỉ dẫn độc hại (vào các phần tử ẩn hoặc metadata của website) để lừa Agent thực hiện những hành động ngoài ý muốn, ví dụ như tiết lộ thông tin cá nhân của bạn.

Biện pháp của OpenAI: Họ đã huấn luyện mô hình để nhận diện và chống lại các chỉ dẫn đáng ngờ, đồng thời sử dụng các lớp giám sát để phát hiện các cuộc tấn công trong thời gian thực. Việc yêu cầu xác nhận từ người dùng trước các hành động quan trọng cũng là một lớp bảo vệ hữu hiệu.

2. Lỗi của mô hình và bảo vệ dữ liệu

Agent có thể mắc lỗi. Để giảm thiểu tác động, OpenAI đã triển khai:

Xác nhận người dùng: Luôn hỏi trước khi thực hiện các hành động có hậu quả thực tế như mua hàng.
Giám sát chủ động (“Watch Mode”): Đối với các tác vụ nhạy cảm như gửi email, người dùng cần giám sát tích cực.
Từ chối rủi ro cao: Mô hình được huấn luyện để từ chối các yêu cầu rủi ro cao như chuyển khoản ngân hàng.
Quyền riêng tư: Người dùng có thể xóa toàn bộ dữ liệu duyệt web và đăng xuất khỏi các trang web chỉ bằng một cú nhấp chuột. Chế độ “takeover” để đăng nhập cũng đảm bảo OpenAI không thu thập mật khẩu của bạn.

3. Rủi ro sinh học và các biện pháp phòng vệ

Với khả năng nghiên cứu và hành động mạnh mẽ, OpenAI đã chủ động xếp ChatGPT Agent vào nhóm có “Năng lực Sinh học và Hóa học Cao” theo Khuôn khổ Sẵn sàng (Preparedness Framework) của họ. Điều này kích hoạt một loạt biện pháp bảo vệ toàn diện nhất từ trước đến nay, bao gồm mô hình hóa mối đe dọa, huấn luyện từ chối các yêu cầu có khả năng sử dụng cho mục đích kép, các bộ phân loại và giám sát luôn hoạt động. Họ cũng đang khởi động chương trình tiền thưởng săn lỗi (bug bounty) để cộng đồng có thể giúp tìm và khắc phục các rủi ro trong thực tế.

VI. CỘNG ĐỒNG MẠNG NÓI GÌ VỀ CHATGPT AGENT?

Ngay sau buổi livestream, cộng đồng công nghệ trên X và YouTube đã bùng nổ. Các phản ứng rất đa dạng, từ phấn khích tột độ đến những lo ngại có cơ sở.

Hào hứng và Kỳ vọng: Hầu hết các bình luận đều gọi đây là một cột mốc amazing, stunning, exciting milestone. Nhiều người coi đây là bình minh của kỷ nguyên AI Agent thực thụ, nơi AI không chỉ trò chuyện mà còn có thể làm việc trên máy tính của người dùng.
Tò mò và Thắc mắc: Câu hỏi phổ biến nhất là “Khi nào người dùng trả phí được sử dụng?” và các câu hỏi về các phiên bản tương lai, như GPT-5.
Góc nhìn kỹ thuật: Một số người dùng đã nhanh chóng thử nghiệm và đánh giá cao khả năng đa công cụ của Agent. Tuy nhiên, cũng có những lo ngại về tốc độ xử lý còn chậm và “nút thắt cổ chai” về phần cứng và tốc độ mạng.
Phản hồi trái chiều: Vẫn có những ý kiến cho rằng đây là “bước đi sai hướng”, khuyến khích sự lười biếng, hoặc chưa thực sự vượt trội so với các đối thủ như Claude hay Gemini.

[nguyenthieutoan.com] Phản ứng của cộng đồng về sự ra mắt của ChatGPT Agent

VII. THÔNG TIN PHÁT HÀNH VÀ GIÁ CẢ

Sam Altman đã công bố lộ trình phát hành khá rõ ràng trong buổi livestream:

Đối tượng và thời gian: Bắt đầu triển khai cho người dùng Pro, Plus, và Team. Người dùng Pro sẽ có quyền truy cập ngay trong ngày, trong khi người dùng Plus và Team sẽ nhận được trong vài ngày tới. Người dùng Enterprise và Education sẽ có quyền truy cập trong những tuần tiếp theo.
Giới hạn sử dụng: Người dùng Pro sẽ có 400 tin nhắn mỗi tháng, trong khi người dùng Plus và Team có 40 tin nhắn mỗi tháng. Có các tùy chọn linh hoạt dựa trên tín dụng để sử dụng thêm.
Chú ý: OpenAI vẫn đang làm việc để triển khai tính năng này cho Khu vực Kinh tế Châu Âu và Thụy Sĩ.

VIII. KẾT LUẬN: MỘT KỶ NGUYÊN MỚI CỦA AI ĐÃ BẮT ĐẦU

Với tư cách là một chuyên gia về tối ưu hóa, Toàn nhận định rằng ChatGPT Agent không chỉ là một bản cập nhật. Đây là sự thay đổi nền tảng trong cách chúng ta tương tác và sử dụng AI. Chúng ta đang chuyển từ kỷ nguyên của “AI biết nói” sang kỷ nguyên của “AI biết làm”. Khả năng tự động hóa các tác vụ phức tạp, lặp đi lặp lại không chỉ giúp tiết kiệm thời gian mà còn mở ra những tiềm năng sáng tạo và năng suất chưa từng có.

Tuy nhiên, như chính OpenAI đã cảnh báo, sức mạnh lớn đi kèm với trách nhiệm lớn. Cả người dùng và xã hội sẽ cần học cách sử dụng công nghệ mới này một cách an toàn và có trách nhiệm. Toàn khuyến khích các bạn hãy tự mình trải nghiệm, khám phá nhưng cũng luôn tỉnh táo trước những rủi ro tiềm ẩn. Đây là một hành trình thú vị và chúng ta mới chỉ ở những bước đầu tiên.

Xem thêm về các khái niệm cơ bản trong lĩnh vực tại: 50 khái niệm AI quan trọng giải thích dễ hiểu

Cảm ơn các bạn đã đọc bài viết. Hãy chia sẻ bài viết này nếu bạn thấy hữu ích và đừng quên đăng ký nhận bản tin từ nguyenthieutoan.com để không bỏ lỡ những phân tích chuyên sâu tiếp theo về AI và công nghệ nhé!

Tags:

AI AI Agent Automation Công nghệ Deep Research Nguyễn Thiệu Toàn nguyenthieutoan OpenAI Operator Tối ưu hóa trí tuệ nhân tạo

Nguyễn Thiệu Toàn

Tôi là người biến ý tưởng thành hệ thống AI và Tự động hóa thực tế. Tôi dùng Marketing để tìm hiểu những khó khăn bạn đang gặp, sau đó xây dựng các giải pháp tự động để giúp bạn thoát khỏi những công việc tẻ nhạt. Mục đích là để bạn có thể tập trung vào những việc lớn hơn, chứ không phải để thay thế vị trí của bạn.

Xem thêm về Nguyễn Thiệu Toàn

ChatGPT Agent của OpenAI ra mắt: Kỷ nguyên mới của AI Agent siêu thông minh!

📑Mục lục

I. TỪ Ý TƯỞNG ĐẾN HIỆN THỰC: SỰ TIẾN HÓA HỢP NHẤT CỦA OPERATOR VÀ DEEP RESEARCH

1. Hai mảnh ghép bổ sung hoàn hảo

II. “HỘP ĐỒ NGHỀ” CỦA CHATGPT AGENT: NÓ HOẠT ĐỘNG NHƯ THẾ NÀO?

1. Các công cụ chính

2. Trí tuệ đằng sau sự lựa chọn: Học tăng cường (Reinforcement Learning)

III. SỨC MẠNH ĐƯỢC KIỂM CHỨNG: KẾT QUẢ VƯỢT TRỘI TRÊN CÁC BENCHMARK

1. Bảng so sánh hiệu suất trên các benchmark trí tuệ

2. Các benchmark về tác vụ thực tế

IV. TRẢI NGHIỆM NGƯỜI DÙNG: SỰ HỢP TÁC VÀ QUYỀN KIỂM SOÁT

V. MẶT TRÁI CỦA SỨC MẠNH: RỦI RO VÀ CÁC BIỆN PHÁP AN TOÀN

1. Tấn công Tiêm Prompt (Prompt Injection)

2. Lỗi của mô hình và bảo vệ dữ liệu

3. Rủi ro sinh học và các biện pháp phòng vệ

VI. CỘNG ĐỒNG MẠNG NÓI GÌ VỀ CHATGPT AGENT?

VII. THÔNG TIN PHÁT HÀNH VÀ GIÁ CẢ

VIII. KẾT LUẬN: MỘT KỶ NGUYÊN MỚI CỦA AI ĐÃ BẮT ĐẦU

Nguyễn Thiệu Toàn

Trò chuyện với Jenix - trợ lý AI của tôi

ChatGPT Agent của OpenAI ra mắt: Kỷ nguyên mới của AI Agent siêu thông minh!

📑Mục lục

I. TỪ Ý TƯỞNG ĐẾN HIỆN THỰC: SỰ TIẾN HÓA HỢP NHẤT CỦA OPERATOR VÀ DEEP RESEARCH

1. Hai mảnh ghép bổ sung hoàn hảo

II. “HỘP ĐỒ NGHỀ” CỦA CHATGPT AGENT: NÓ HOẠT ĐỘNG NHƯ THẾ NÀO?

1. Các công cụ chính

2. Trí tuệ đằng sau sự lựa chọn: Học tăng cường (Reinforcement Learning)

III. SỨC MẠNH ĐƯỢC KIỂM CHỨNG: KẾT QUẢ VƯỢT TRỘI TRÊN CÁC BENCHMARK

1. Bảng so sánh hiệu suất trên các benchmark trí tuệ

2. Các benchmark về tác vụ thực tế

IV. TRẢI NGHIỆM NGƯỜI DÙNG: SỰ HỢP TÁC VÀ QUYỀN KIỂM SOÁT

V. MẶT TRÁI CỦA SỨC MẠNH: RỦI RO VÀ CÁC BIỆN PHÁP AN TOÀN

1. Tấn công Tiêm Prompt (Prompt Injection)

2. Lỗi của mô hình và bảo vệ dữ liệu

3. Rủi ro sinh học và các biện pháp phòng vệ

VI. CỘNG ĐỒNG MẠNG NÓI GÌ VỀ CHATGPT AGENT?

VII. THÔNG TIN PHÁT HÀNH VÀ GIÁ CẢ

VIII. KẾT LUẬN: MỘT KỶ NGUYÊN MỚI CỦA AI ĐÃ BẮT ĐẦU

Nguyễn Thiệu Toàn

Có thể bạn quan tâm

Nhận bài viết mới nhất qua email

Trò chuyện với Jenix - trợ lý AI của tôi