Stable Video Diffusion: Bước tiếp theo của phát triển AI?

Stable Video Diffusion: Bước tiếp theo của phát triển AI?

Tiến bộ mới trong lĩnh vực trí tuệ nhân tạo (AI) tiếp tục mở ra những khả năng đầy ấn tượng. Stability AI là công ty đứng sau dự án Stable Diffusion Text-to-Image mã nguồn mở rất nổi tiếng, và hiện đang thử nghiệm một tính năng mới: Text-to-Video.

Công bố về model mới từ Stability AI

Stability AI, công ty phát triển của Stable Diffusion, đã công bố rằng một model mới, có tên là Stable Video Diffusion, đã chính thức ra mắt dưới dạng Foundation Model.

Hình 1. So sánh kết quả của Stable Video Diffusion với Pika Labs và Runway
"Mô hình video AI tạo ra từ hình ảnh này đánh dấu một bước quan trọng trong hành trình của chúng tôi để tạo ra mô hình cho mọi người và mọi loại hình,"
-Stability AI Chia sẻ.

Công cụ mới này được phát hành dưới dạng Text-to-Video (Chữ sang Video) Image-to-Video (Ảnh sang Video), mỗi cái có khả năng tạo ra từ 14 đến 25 khung hình với tốc độ từ 3 đến 30fps ở độ phân giải 576 × 1024. Nó có khả năng tạo nhiều góc nhìn từ một khung hình duy nhất.

Video giới thiệu về Stable Video Diffusion.

"Tính đến thời điểm phát hành, thông qua đánh giá bên ngoài, chúng tôi đã thấy rằng những mô hình này vượt qua các mô hình đóng của đối thủ trong các nghiên cứu ưa thích của người dùng,"

So sánh với các nền tảng text-to-video như Runway và Pika Labs.

Tại sao Điều này lại quan trọng?

Thông qua video demo của Stability AI, mình nhận thấy model này có độ ổn định rất tốt khi so sánh với cái model khác hiện đang có trên thị trường, và một điểm rất quan trọng nữa là đây là một model hoàn toàn Open source (mã nguồn mở) có nghĩa rằng mọi người có thể hoàn toàn phát triển dựa trên model foundation này để tiếp tục xây dựng và cải tiến hoàn toàn miễn phí.

Tính đến thời điểm hiện tại, Stable Video Diffusion chỉ có sẵn cho mục đích nghiên cứu, chưa có ứng dụng thực tế hoặc thương mại (xem tại dây). Người dùng tiềm năng có thể đăng ký để tham gia danh sách chờ để trải nghiệm "giao diện web sắp tới với khả năng chuyển đổi văn bản thành video," Stability AI viết. Công cụ này sẽ giới thiệu các ứng dụng tiềm năng trong các lĩnh vực bao gồm quảng cáo, giáo dục, giải trí và nhiều lĩnh vực khác.

Ưu và nhược điểm của model này?

Sau khi tổng hợp và đọc qua Research Paper của Stability AI thì mình rút ra được một vài điểm sau:

Ưu điểm:

  • Chất lượng video ra rất cao, độ phân giải lên tới 4K. Các chi tiết như chuyển động, ánh sáng, bóng râm được mô phỏng rất sống động.
  • Có khả năng tạo ra các video dài, liên tục từ văn bản. Không còn bị giới hạn vài giây như các model cũ.
  • Tích hợp được kiến thức về các cảnh 3D tốt hơn so với các model hình ảnh thông thường, giúp tổng hợp được các góc nhìn 3D nhất quán.

Nhược điểm:

  • Với foundation model này hiện tại rất khó để có thể chạy trên các dòng GPU phổ thông hiện tại như RTX 3060, 4070, ... mà phải yêu cầu các dòng GPU chuyên dụng như Nvidia H100 hopper với một lượng lớn VRAM.
  • Model khó mở rộng để tạo ra các video dài hơn 1-2 phút do bị giới hạn về tài nguyên.
  • Vẫn chưa hoàn toàn ổn định, thỉnh thoảng vẫn gây ra một số nhược điểm như thiếu liên tục hay có động tác không tự nhiên.

Mẫu video được hiển thị trong video trên có vẻ có chất lượng khá cao, tương đương với các model khác của đối thủ. Tuy nhiên, công ty cũng ghi nhận một số hạn chế: tạo ra video tương đối ngắn (dưới 4 giây), thiếu tính chân thực, không thể thực hiện chuyển động máy ảnh ngoại trừ việc quay chậm, không có kiểm soát văn bản, không thể tạo ra văn bản đọc được và có thể không tạo ra hình ảnh và khuôn mặt một cách chính xác.

Công cụ này đã được đào tạo trên một bộ dữ liệu hàng triệu video và sau đó được điều chỉnh trên một tập dữ liệu nhỏ hơn, với Stability AI chỉ nói rằng nó đã sử dụng video có sẵn công khai cho mục đích nghiên cứu. Xuất xứ của bộ dữ liệu là quan trọng, khi mà Stability AI gần đây đã bị Getty Images kiện vì thu thập thông tin từ bộ sưu tập hình ảnh của nó.

Tóm lại

Với tình hình hiện tại bạn chưa thể chạy được mẫu model này với các máy tính thông thường, nhưng đây lại là một bước tiến rất lớn của AI và trong bài sắp tới mình sẽ phân tích cụ thể những công nghệ mà Stability AI đã sử dụng để tạo ra model này và cũng như một vài phương thức để có thể tối ưu model này hơn.