Η Google ανακοίνωσε το Gemini Omni, μια νέα οικογένεια generative AI μοντέλων που έχει σχεδιαστεί για τη δημιουργία περιεχομένου από διαφορετικούς τύπους εισόδου.
Το πρώτο μοντέλο της οικογένειας είναι το Omni Flash, το οποίο μπορεί να δημιουργεί AI βίντεο χρησιμοποιώντας κείμενο, φωτογραφίες, βίντεο και ήχο. Μακροπρόθεσμα, η Google θέλει το Omni να μπορεί να «δημιουργεί οτιδήποτε από οποιαδήποτε είσοδο», κάτι που εξηγεί και την ονομασία του.
Η εταιρεία τοποθετεί το Omni Flash ως μια αντίστοιχη λύση για βίντεο με το Nano Banana, το μοντέλο δημιουργίας εικόνων της. Από την κυκλοφορία του πέρυσι, το Nano Banana έχει χρησιμοποιηθεί για τη δημιουργία περισσότερων από 50 δισεκατομμυρίων εικόνων.
Βίντεο έως 10 δευτερολέπτων με ήχο
Με το Gemini Omni Flash, οι χρήστες θα μπορούν να δημιουργούν clips με εικόνα και ήχο διάρκειας έως 10 δευτερολέπτων. Η Google εργάζεται ήδη για να αυξήσει αυτό το όριο.
Ένα από τα παραδείγματα χρήσης που δίνει η εταιρεία είναι η δυνατότητα εισαγωγής της εικόνας ενός χρήστη μέσα σε βίντεο. Η Nicole Brichtova, επικεφαλής της ομάδας προϊόντος που εργάζεται στο Omni, ανέφερε ότι η Google έχει δει πολλούς χρήστες να βάζουν την εικόνα τους σε φωτογραφίες μέσω του Nano Banana.
Η Google διαθέτει ήδη το Veo, ένα μοντέλο δημιουργίας βίντεο από κείμενο. Η διαφορά του Omni Flash είναι ότι μπορεί να χρησιμοποιεί και υπάρχον βίντεο ως βάση για τη δημιουργία νέου βίντεο.
Σύμφωνα με τον Koray Kavukcuoglu, CTO του Google DeepMind και chief AI architect της Google, το Omni Flash έχει επίσης πολύ περισσότερη γνώση για τον κόσμο σε σχέση με το Veo, λόγω των δεδομένων εκπαίδευσης του Gemini.
Το Gemini Omni Flash θα γίνει διαθέσιμο από την Τρίτη μέσα από την εφαρμογή Gemini, το Google Flow και το YouTube Shorts.
Ακολουθήστε το XplayGR στο Google News για να μαθαίνετε πρώτοι όλες τις εξελίξεις από τον χώρο του gaming και της ψυχαγωγίας.
Δείτε όλες τις τελευταίες ειδήσεις στο XplayGR.com.






























