Logo JawaPos
Author avatar - Image
Jumat, 30 Mei 2025 | 21.21 WIB

AI Canggih Ini Bisa Cocokkan Suara dan Gambar Tanpa Campur Tangan Manusia, Bagaimana Cara Kerjanya?

Ilustrasi AI memahami gambar dan suara (Dok. Freepik)

JawaPos.com - Peneliti dari MIT bekerja sama dengan Goethe University dan IBM Research mengembangkan sistem AI yang bisa memahami hubungan antara suara dan gambar dari video. 

Sistem ini tidak membutuhkan label atau penjelasan dari manusia untuk belajar. AI ini dirancang agar bisa mengenali dan menghubungkan suara serta visual seperti manusia. 

Teknologi ini disebut bisa dimanfaatkan dalam banyak bidang, seperti jurnalisme, produksi film, dan robotika. 

Baca Juga: Gratis dan Aman! Ini 2 Cara Mudah Menggunakan DeepSeek AI Tanpa Khawatir Privasi Data

Salah satu contohnya, AI bisa mengenali suara pintu yang dibanting dan mencocokkannya dengan gambar pintu yang tertutup.

"Jika teknologi ini dapat diintegrasikan dengan model bahasa besar yang sudah digunakan sehari-hari, seperti chatbot, banyak kemungkinan baru yang bisa dibuka," kata Andrew Rouditchenko, mahasiswa MIT sekaligus penulis studi ini, dikutip dari news.mit.edu. 

CAV-MAE Sync: Model AI Versi Lebih Pintar

Model terbaru ini diberi nama CAV-MAE Sync, yang merupakan pengembangan dari model sebelumnya, CAV-MAE. 

Model lama memproses seluruh klip video dan audio sebagai satu kesatuan, meskipun suara penting hanya muncul sebentar. 

Di versi baru, audio dibagi menjadi bagian kecil agar bisa dipasangkan langsung dengan frame video pada waktu yang sama. 

Ini membuat model belajar dengan lebih rinci dan memahami hubungan suara dan gambar secara tepat. Cara ini terbukti membuat performa AI jadi lebih baik.

"Dengan cara seperti ini, model kami belajar keterkaitan yang lebih halus, dan itu meningkatkan performa secara keseluruhan," ujar Edson Araujo dari Goethe University.

Gabungkan Dua Tujuan Pembelajaran Sekaligus

CAV-MAE Sync menggabungkan dua cara belajar, yakni mengenali kemiripan data (kontrasif) dan membangun ulang data (rekonstruktif). 

Pembelajaran kontrasif membantu AI menemukan pasangan visual dan suara yang saling cocok. 

Editor: Candra Mega Sari
Tags
Jawa Pos
JawaPos.com adalah bagian dari Jawa Pos Group, perusahaan media terkemuka di Indonesia. Menyajikan berita terkini, akurat, dan terpercaya.
Graha Pena Lt.2 Jl. Raya Kby. Lama No.12, Grogol Utara, Kec. Kebayoran Lama, Kota Jakarta Selatan, Daerah Khusus Ibukota Jakarta 12210
Download Aplikasi JawaPos.com
Download PlaystoreDownload Appstore