Omni Flash là mô hình AI đa phương thức mới nhất của Google, được xây dựng để tạo và chỉnh sửa video từ gần như mọi loại đầu vào — văn bản, hình ảnh, âm thanh và video. Được công bố vào tháng 5 năm 2026 với tư cách thành viên đầu tiên của dòng mô hình "Omni" của Google, đây là bước chuyển từ những công cụ chỉ đơn thuần tạo clip sang một mô hình duy nhất có thể suy luận về một cảnh quay và tinh chỉnh nó thông qua hội thoại tự nhiên. Nếu bạn sáng tạo nội dung cho YouTube, TikTok, Instagram hay tiếp thị sản phẩm, Omni Flash là một trong những bản phát hành AI quan trọng nhất cần nắm rõ trong năm nay.
Về bản chất, Omni Flash là một mô hình dựa trên kiến trúc transformer với khả năng hỗ trợ đa phương thức nguyên bản cho văn bản, hình ảnh, video và âm thanh. Thay vì xử lý mỗi định dạng như một tác vụ riêng biệt, mô hình hiểu được mối liên hệ giữa các đầu vào của bạn và tạo ra một video mạch lạc, độ phân giải cao — kèm âm thanh đồng bộ — ở đầu ra.
Bản thân cái tên đã mô tả thiết kế của mô hình. "Omni" thể hiện rằng mô hình hoạt động đồng thời trên nhiều phương thức, trong khi "Flash" phản ánh quy ước đặt tên của Google dành cho các mô hình được tối ưu cho tốc độ và hiệu quả. Bạn có thể đọc phần giới thiệu của chính Google trong thông báo chính thức về Gemini Omni trên blog của Google.
Omni Flash chấp nhận sự kết hợp linh hoạt của các đầu vào và biến chúng thành một video hoàn chỉnh:
Đầu vào: câu lệnh văn bản, hình ảnh tham chiếu, đoạn video và tệp giọng nói/âm thanh
Đầu ra: video độ phân giải cao kèm âm thanh đi cùng
Chỉnh sửa: tinh chỉnh theo hội thoại, từng bước một, thay vì phải làm lại từ đầu mỗi lần
Vì mô hình suy luận về mối quan hệ giữa các đầu vào, bạn có thể kết hợp một câu lệnh viết tay, một bức ảnh sản phẩm và một đoạn clip tham chiếu trong cùng một yêu cầu — và Omni Flash sẽ cố gắng tạo ra một cảnh thống nhất thay vì ghép nối các mảnh rời rạc. Google đã huấn luyện mô hình bằng JAX và ML Pathways trên hạ tầng TPU của mình, chính nền tảng đứng sau cả dòng Gemini rộng lớn hơn.
Theo thẻ mô hình Gemini Omni Flash của Google, mô hình đang được đánh giá trên nhiều khả năng khác nhau:
Văn bản thành video (T2V): tạo một clip từ mô tả bằng ngôn ngữ thông thường
Hình ảnh thành video (I2V): làm động một bức ảnh tĩnh hoặc dựng cảnh quanh một ảnh tham chiếu
Chỉnh sửa qua hội thoại: điều chỉnh một video sẵn có theo từng bước, mỗi chỉ dẫn nối tiếp chỉ dẫn trước đó
Quy trình đa đầu vào: kết hợp văn bản, hình ảnh, âm thanh và video làm các điểm tham chiếu trong một lần tạo
Hiểu biết về thế giới thực: mô hình được thiết kế để tôn trọng vật lý đời thực — như trọng lực và động lực học chất lỏng — và giữ tính nhất quán cho nhân vật, vật thể cùng môi trường qua các lần chỉnh sửa
Chính sự nhất quán này là điểm tách biệt Omni Flash khỏi các công cụ tạo video kiểu "một câu lệnh, một clip" trước đây. Bạn có thể lặp lại tinh chỉnh một cảnh quay theo hội thoại mà vẫn giữ được tính liền mạch khi video tiến triển.
Omni Flash không xuất hiện một cách đột ngột. Nó được xây dựng trực tiếp dựa trên những công trình trước đó của Google về truyền thông tạo sinh, mở rộng trí thông minh từng vận hành các công cụ tạo ảnh của Google sang lĩnh vực video động. Bạn có thể tìm hiểu cách nó phù hợp với danh mục sản phẩm rộng hơn tại trang Gemini Omni của Google DeepMind. Nói ngắn gọn: nơi các mô hình trước đây đưa khả năng suy luận của Gemini vào hình ảnh tĩnh, thì Omni Flash mang chính khả năng suy luận đó vào chuyển động, âm thanh và chỉnh sửa.
Tính minh bạch được tích hợp vào mọi đầu ra. Mọi video được tạo bằng Omni Flash đều mang một hình mờ kỹ thuật số SynthID không thể nhận thấy bằng mắt thường, và nội dung được tạo trên các nền tảng riêng của Google còn kèm theo Chứng chỉ Nội dung C2PA. Điều này cho phép người xem xác minh rằng một clip được tạo bởi AI thông qua ứng dụng Gemini — với sự hỗ trợ trên Chrome và Google Tìm kiếm cũng đang được triển khai. Như một biện pháp bảo vệ bổ sung, Google hiện đã tắt tính năng chỉnh sửa giọng nói trong khi biên tập cho đến khi có thể triển khai an toàn hơn.
Google đang triển khai Omni Flash cho người đăng ký gói AI Plus, Pro và Ultra thông qua ứng dụng Gemini và Google Flow, đồng thời cung cấp quyền truy cập miễn phí trên YouTube Shorts và ứng dụng YouTube Create. API dành cho nhà phát triển và doanh nghiệp dự kiến ra mắt trong những tuần sau đó.
Nếu muốn bỏ qua các bậc tài khoản và khóa API, các công cụ chạy trên trình duyệt giúp bạn dễ dàng thử nghiệm mô hình. Omni Flash cung cấp một cách trực tuyến, miễn phí để tạo clip văn-bản-thành-video và hình-ảnh-thành-video ở cả tỷ lệ 16:9 và 9:16, kết nối qua API của Google — không cần cài đặt phần mềm. Đây là cách nhanh chóng để khám phá khả năng của mô hình trước khi cam kết với một gói trả phí hay một quy trình phát triển đầy đủ.
Google thẳng thắn về những điều vẫn còn khó. Thẻ mô hình liệt kê ba thách thức chính:
Sự nhất quán hoàn hảo qua nhiều lần chỉnh sửa
Chuyển động phức tạp trong các phân cảnh
Hiển thị văn bản chính xác bên trong video được tạo
Video cũng là định dạng đầu ra duy nhất tại thời điểm ra mắt — khả năng tạo hình ảnh và âm thanh được lên kế hoạch cho các bản cập nhật trong tương lai. Hiểu rõ những ranh giới này giúp bạn đặt kỳ vọng thực tế và viết câu lệnh hiệu quả hơn.
Omni Flash có miễn phí không?
Google cung cấp quyền truy cập miễn phí thông qua YouTube Shorts, trong khi đầy đủ tính năng nằm ở các gói AI Plus, Pro và Ultra. Các công cụ web như Omni Flash cũng cung cấp tín dụng dùng thử miễn phí cho người mới.
Omni Flash có thể tạo ra những gì?
Video độ phân giải cao kèm âm thanh, được tạo từ văn bản, hình ảnh, video hoặc giọng nói tham chiếu — và có thể chỉnh sửa qua hội thoại.
Omni Flash khác gì so với các công cụ tạo video trước đây?
Nó suy luận về các đầu vào của bạn như một cảnh thống nhất, hỗ trợ chỉnh sửa đa bước theo hội thoại, và hướng tới việc giữ tính nhất quán về vật lý và hình ảnh xuyên suốt.
Video do AI tạo ra có được gắn nhãn không?
Có. Mọi đầu ra đều bao gồm hình mờ SynthID, và các nền tảng của Google còn thêm Chứng chỉ Nội dung C2PA để xác minh.
Omni Flash thể hiện đặt cược của Google rằng tương lai của truyền thông AI không phải là một đống công cụ đơn mục đích, mà là một mô hình duy nhất có thể tạo và chỉnh sửa bất cứ thứ gì từ bất kỳ đầu vào nào — khởi đầu bằng video. Dù bạn truy cập qua ứng dụng Gemini hay một công cụ trên trình duyệt, đây là mô hình rất đáng để làm quen ngay từ bây giờ.