ChatGPT Images 2.0 ra mắt: Công cụ tạo ảnh biết suy nghĩ trước khi vẽ, làm được bản đồ lịch sử, manga hoàn chỉnh chỉ trong một câu lệnh

OpenAI vừa ra mắt ChatGPT Images 2.0, bản cập nhật lớn nhất từ trước đến nay cho công cụ tạo ảnh bằng trí tuệ nhân tạo. Điểm đột phá không nằm ở độ phân giải hay tốc độ, mà ở khả năng "suy nghĩ" trước khi vẽ.

Thay vì chỉ nhận lệnh và tạo ảnh ngay lập tức như các mô hình trước đây, Images 2.0 có thể nghiên cứu, lập kế hoạch và suy luận về cấu trúc của một bức ảnh trước khi pixel đầu tiên được tạo ra.

Tính năng nổi bật nhất là chế độ "Thinking" - tích hợp khả năng suy luận từ dòng mô hình O-series của OpenAI vào việc tạo ảnh. Khi người dùng chọn mô hình Thinking trong ChatGPT, hệ thống không chỉ đơn giản "vẽ" mà thực hiện nghiên cứu, lập kế hoạch và suy luận về cấu trúc hình ảnh.

Trong buổi họp báo trực tiếp, bà Adele Li, Trưởng nhóm sản phẩm ChatGPT Images, đã thử nghiệm bằng cách tải lên một tệp PowerPoint phức tạp về chiến lược sản phẩm nội bộ. Thay vì chỉ tạo một hình ảnh liên quan, mô hình đã tổng hợp dữ liệu cốt lõi của tài liệu, xác định logo chính xác và tạo ra một poster chuyên nghiệp giữ nguyên các yếu tố phong cách cụ thể từ tệp gốc.

Khả năng suy luận này cũng cho phép mô hình tìm kiếm web theo thời gian thực để đảm bảo độ chính xác hình ảnh cho các sự kiện hiện tại. Điều này được hỗ trợ bởi kiến thức cập nhật đến tháng 12 năm 2025, xa hơn nhiều với các phiên bản trước.

Trong thử nghiệm, ChatGPT Images 2.0 là mô hình đầu tiên từ OpenAI và một trong hai mô hình duy nhất (cùng với Nano Banana 2 của Google) có thể tái tạo chính xác bản đồ phạm vi của các đế chế Aztec, Maya và Inca ở đỉnh cao tương ứng cùng với chú giải hoàn toàn rõ ràng, hữu ích cho mục đích giáo dục về kiến thức lịch sử và địa lý.

Một trong những "dấu hiệu nhận biết" dai dẳng nhất của hình ảnh do trí tuệ nhân tạo tạo ra là khả năng hiển thị văn bản rõ ràng. OpenAI khẳng định Images 2.0 đánh dấu "bước thay đổi lớn" trong lĩnh vực này.

Mô hình hiện có khả năng tạo ra kiểu chữ có thể đọc được ngay cả trong các tác phẩm phức tạp như sơ đồ khoa học, thực đơn hoặc poster đồ họa thông tin. Mẫu bìa tạp chí được cung cấp minh họa độ chính xác này: mọi tiêu đề, số tập và thậm chí cả ngày "Hiển thị đến" trên mã vạch đều được hiển thị với căn chỉnh sắc nét, chuyên nghiệp phản ánh bố cục do con người thiết kế.

OpenAI cũng đã giải quyết thiên kiến phương Tây tồn tại lâu dài trong hình ảnh trí tuệ nhân tạo. Images 2.0 được mô tả là mô hình "đa ngôn ngữ" với những tiến bộ đáng kể trong việc hiển thị chữ viết không dùng chữ cái Latin.

Cụ thể, mô hình hiện hỗ trợ tạo văn bản độ trung thực cao bằng tiếng Nhật, Hàn, Trung, Hindi và Bengali. Trong sơ đồ giải thích về chu trình nước, mô hình đã hiển thị thành công các ký tự tiếng Hàn phức tạp trong bố cục giáo dục. Văn bản không chỉ được dịch mà còn được hiển thị chính xác với ngôn ngữ chảy mạch lạc, đảm bảo các nhãn và giải thích được tích hợp tự nhiên vào thiết kế.

Đối với những người sáng tạo làm việc trên kịch bản hình ảnh hoặc chiến dịch thương hiệu, tính năng mới có tác động lớn nhất là khả năng tạo tối đa tám hình ảnh riêng biệt từ một câu lệnh duy nhất. Quan trọng hơn, những hình ảnh này duy trì tính liên tục của nhân vật và đối tượng trong toàn bộ loạt ảnh.

Bà Li lưu ý rằng điều này giải quyết một quy trình làm việc rườm rà khi người dùng trước đây phải tạo từng hình ảnh một và ghép thủ công chúng lại với nhau. Tính năng này cho phép tạo toàn bộ chuỗi manga, sách thiếu nhi hoặc một bộ đồ họa truyền thông xã hội có cùng phong cách hình ảnh chỉ bằng một câu lệnh.

Kiến trúc cơ bản đã được thiết kế lại từ đầu, theo ông Boyuan Chen, Trưởng nhóm Nghiên cứu cho biết. Ông mô tả nó là "mô hình tổng quát" hoặc "GPT cho hình ảnh" có thể xử lý sự thay đổi phối cảnh kiểu 3D và suy luận không gian phức tạp thông qua các lệnh văn bản đơn giản.

Động thái này diễn ra khi không gian mô hình hình ảnh trí tuệ nhân tạo chứng kiến sự cạnh tranh gia tăng, đặc biệt với việc Google phát hành mô hình Nano Banana 2 vào tháng 2 năm 2026. Tuy nhiên, độ trung thực của Images 2.0 trong việc tái tạo giao diện người dùng, ảnh chụp màn hình và nhiều gói hình ảnh cùng lúc dường như vượt qua cả khả năng của mô hình mới nhất của Google.

Chiến lược triển khai phản ánh sự thúc đẩy rõ ràng hướng tới việc áp dụng chuyên nghiệp và doanh nghiệp. Trong khi mô hình cơ bản có sẵn cho tất cả người dùng, bao gồm cả gói miễn phí, các khả năng "Thinking" và "Pro" nâng cao được dành riêng cho các gói trả phí.

Người dùng miễn phí có quyền truy cập vào mô hình cơ bản cho các nhiệm vụ tiêu chuẩn. Người dùng Plus và Pro có thể truy cập khả năng Thinking, bao gồm sử dụng công cụ, tìm kiếm web và tạo nhiều hình ảnh. Người dùng Pro nhận được quyền truy cập bổ sung vào các mô hình ImageGen Pro để tạo hình ảnh nâng cao hơn.

Các nhà phát triển có thể tích hợp gpt-image-2 qua giao diện lập trình ứng dụng, hỗ trợ độ phân giải lên tới 4K (hiện đang thử nghiệm) và tỷ lệ khung hình linh hoạt từ 3:1 rộng đến 1:3 cao. Giá là 8 USD cho đầu vào, 2 USD cho đầu vào được lưu trong bộ nhớ đệm và 30 USD cho đầu ra — thực sự giảm 2 USD ở phần đầu ra so với mô hình tiền nhiệm.

Khi được hỏi về khả năng sử dụng trong các chiến dịch lừa đảo hoặc ảnh hưởng chính trị, bà Li khẳng định: "Chúng tôi coi trọng an toàn và bảo mật một cách vô cùng nghiêm túc. Điều đó bao gồm bất cứ điều gì liên quan đến chính trị hoặc can thiệp bầu cử. Trong khi các nền tảng khác có thể không có những biện pháp bảo vệ đó, ChatGPT có, và chúng tôi coi việc giám sát và bảo vệ người dùng một cách vô cùng nghiêm túc."