80
COSMOTE Tips

Η νέα AI του Facebook μπορεί να μιμείται τη φωνή των φίλων σου

Η νέα AI του Facebook μπορεί να μιμείται τη φωνή των φίλων σου
H Meta ανακοίνωσε το Voicebox μια ευέλικτη, όπως λέει, Τεχνητή Νοημοσύνη για τη σύνθεση φωνής και δημιουργία ομιλίας.

Άλλη μια ανακοίνωση έρχεται από τον χώρο της τεχνητής νοημοσύνης για να ταράξει τα – ούτως ή άλλως αρκετά ταραγμένα – νερά της πληροφορικής, και όχι μόνο. Η ανακοίνωση έρχεται από τη μητρική εταιρεία των Facebook και Instagram, τη Meta, και αφορά τη χρήση τεχνητής νοημοσύνης για τη δημιουργία ανθρώπινης ομιλίας! Το σύστημα της Meta ονομάζεται Voicebox και είναι ένα μοντέλο τεχνητής νοημοσύνης τελευταίας γενιάς (αν μπορεί κανείς να το πει αυτό σε έναν χώρο που οι εξελίξεις είναι ραγδαίες) το οποίο μπορεί να παράξει ηχητικά υψηλής ποιότητας ή και να αλλάξει υφιστάμενα ηχητικά, διατηρώντας το περιεχόμενο και το ύφος. Επίσης, το σύστημα μπορεί να “καταλάβει” έξι γλώσσες και να παράξει ομιλία σε αυτές!

Αλλά καλύτερα να δεις το σύντομο βίντεο της Meta για να καταλάβεις καλύτερα το πώς λειτουργεί:

Αν αυτό σου φαίνεται εντυπωσιακό, είναι! Το θέμα, όμως, είναι πως ανακύπτουν και σοβαρά θέματα ασφάλειας, διότι ο οποιοσδήποτε πλέον θα μπορεί να αντιγράψει τη φωνή κάποιου άλλου, να αλλάξει τόνο και χροιά, να βάλει οποιαδήποτε φωνή να πει οτιδήποτε. Με άλλα λόγια, η φωνή πολύ σύντομα θα πάψει να είναι αποδεικτικό στοιχείο και όλοι θα πρέπει να το έχουμε αυτό στο μυαλό μας.

Κατά τα άλλα, οι ικανότητες του Voicebox περιλαμβάνουν διάφορες διεργασίες, όπως:

  • Σύνθεση ομιλίας από κείμενο με συγκεκριμένο ύφος· χρησιμοποιώντας ένα μικρό δείγμα ομιλίας, έστω και 2 δευτερολέπτων, το Voicebox μπορεί να μιμηθεί το στυλ ομιλίας και να παράξει παρόμοιο ύφος.
  • Εξάλειψη θορύβων και διόρθωση ομιλίας. Το Voicebox είναι σε θέση να επαναδημιουργήσει ένα τμήμα ομιλίας το οποίο διακόπτεται από εξωτερικούς θορύβους ή και να αντικαταστήσει λάθος λέξεις, χωρίς να υπάρχει ανάγκη για ηχογράφηση όλης της πρότασης.
  • Μεταφορά ύφους από μια γλώσσα σε άλλη. Με είσοδο το ηχητικό κάποιου ομιλητή και του αντίστοιχου κειμένου σε μία από τις γλώσσες που “καταλαβαίνει”, το Voicebox μπορεί να παράξει ηχητικό της ανάγνωσης του κειμένου σε οποιαδήποτε γλώσσα από αυτές, ακόμη και εάν το κείμενο και το ηχητικό είναι σε διαφορετικές γλώσσες.
  • Παραγωγή αληθοφανούς ομιλίας. Το Voicebox έχει εκπαιδευτεί από πολλά και διαφορετικά μεταξύ τους δεδομένα, επομένως παράγει ομιλία με πολύ αληθοφανή τρόπο, ο οποίος αποτυπώνει το πώς μιλάνε στην πραγματικότητα οι άνθρωποι μεταξύ τους.

Η Meta έχει πολλούς λόγους για να αναπτύσσει αυτό το σύστημα, ενώ αναφέρει πως μπορεί να επιτρέψει σε ανθρώπους με προβλήματα όρασης να ακούσουν γραπτά μηνύματα φίλων τους, όπως θα τα διάβαζαν οι ίδιοι, με τις φωνές τους. Βέβαια, το να μπορείς να αντιγράψεις και να “κλωνοποιήσεις” τη φωνή ενός φίλου σου, είναι creepy, ενώ ταυτοχρόνως είναι και ιδιαιτέρως προβληματικό, αν δεν έχεις κατά νου το καλό του “φίλου” αυτού. Η Meta το γνωρίζει αυτό και ίσως αυτός είναι ένας λόγος που το Voicebox δεν είναι διαθέσιμο στο κοινό, ούτε ως κώδικας ούτε ως μοντέλο. Για την ώρα, παραμένει κλειδωμένο στους σκληρούς δίσκους των ερευνητών της Meta και θα δούμε αν κάποια στιγμή στο μέλλον το δούμε σε χρήση.

Σε κάθε περίπτωση, όμως, καλό είναι να έχεις στο μυαλό σου το ότι πλέον δεν πρέπει να πιστεύεις ούτε σε αυτά που βλέπεις (DeepFake) ούτε σε αυτά που ακούς (Voicebox), γιατί όλα μπορούν να παραποιηθούν με πολύ μεγάλη ακρίβεια μέσω τεχνητής νοημοσύνης. Από την άλλη, οι νόμιμες (και νομότυπες) χρήσεις της τεχνολογίας αυτής είναι πολλές και ιδιαιτέρως χρήσιμες για πολλούς ανθρώπους.