
Το Whisper του OpenAI, ένα εργαλείο αναγνώρισης ομιλίας και μεταγραφής τεχνητής νοημοσύνης (AI) που κυκλοφόρησε το 2022, βρέθηκε ότι προκαλεί παραισθήσεις ή επινοεί πράγματα – τόσο πολύ που οι ειδικοί ανησυχούν ότι θα μπορούσε να προκαλέσει σοβαρή βλάβη σε λάθος πλαίσιο.
Την περασμένη εβδομάδα, το AP ανέφερε ότι ένας ερευνητής του Πανεπιστημίου του Μίσιγκαν «βρήκε παραισθήσεις σε οκτώ στις 10 ηχογραφήσεις που εξέτασε» που δημιουργήθηκαν από τον Whisper κατά τη διάρκεια μιας μελέτης δημοσίων συγκεντρώσεων.
Επίσης: Σύγκριση του νέου εργαλείου ανάλυσης δεδομένων AI του Claude με την έκδοση ChatGPT (υπόδειξη: δεν είναι)
Τα δεδομένα είναι μεταξύ πολλών: Ξεχωριστά, ένας μηχανικός που εξέτασε 100 ώρες μεταγραφών του Whisper είπε στο AP ότι βρήκε παραισθήσεις σε περίπου 50% από αυτές, ενώ ένας άλλος προγραμματιστής βρήκε ψευδαισθήσεις σε σχεδόν κάθε μεταγραφή που δημιούργησε χρησιμοποιώντας το Whisper, που συνολικά είναι 26.000 .
Ενώ οι χρήστες μπορούν πάντα να περιμένουν από τους μεταγραφείς τεχνητής νοημοσύνης να γράφουν λάθος μια λέξη ή μια ορθογραφία εδώ κι εκεί, οι ερευνητές παρατήρησαν ότι «δεν έχουν δει ποτέ άλλο εργαλείο μεταγραφής τεχνητής νοημοσύνης να έχει τόσο παραισθήσεις όσο το Whisper».
Το OpenAI ισχυρίζεται ότι το Whisper, ένα νευρωνικό δίκτυο ανοιχτού κώδικα, «προσεγγίζει την αξιοπιστία και την ακρίβεια σε ανθρώπινο επίπεδο στην αγγλική αναγνώριση ομιλίας». Είναι ευρέως ενσωματωμένο σε πολλές βιομηχανίες για κοινούς τύπους αναγνώρισης ομιλίας, συμπεριλαμβανομένης της μεταγραφής συνεντεύξεων και της μετάφρασης και του υποτιτλισμού βίντεο.
Επίσης: Η αστυνομία χρησιμοποιεί τεχνητή νοημοσύνη για να γράψει αναφορές εγκλημάτων. Τι μπορεί να πάει στραβά;
Αυτό το επίπεδο πανταχού παρουσίας μπορεί να διαδώσει γρήγορα κατασκευασμένο κείμενο, εσφαλμένα και κατασκευασμένα εισαγωγικά και άλλη παραπληροφόρηση σε πολλά μέσα, η σημασία των οποίων μπορεί να ποικίλλει ανάλογα με τη φύση του υλικού πηγής. Το Whisper περιλαμβάνεται σε ορισμένες εκδόσεις του ChatGPT, ενσωματωμένο σε τηλεφωνικά κέντρα, φωνητικούς βοηθούς και πλατφόρμες cloud από την Oracle και τη Microsoft και λήφθηκε περισσότερες από 4,2 εκατομμύρια φορές από το HuggingFace τον περασμένο μήνα, σύμφωνα με το AP.
Ακόμη πιο ανησυχητικό, είπαν οι ειδικοί στο AP, είναι ότι οι πάροχοι υγειονομικής περίθαλψης χρησιμοποιούν όλο και περισσότερο «εργαλεία που βασίζονται στον ψίθυρο» για να μεταγράψουν τις διαβουλεύσεις μεταξύ ασθενούς και γιατρού. Το AP πήρε συνεντεύξεις με περισσότερους από 12 μηχανικούς, ερευνητές και προγραμματιστές που επιβεβαίωσαν ότι ο Whisper κατασκεύασε φράσεις και πλήρεις προτάσεις στις μεταγραφές του κειμένου, μερικές από τις οποίες «μπορεί να περιλαμβάνουν φυλετικά σχόλια, βίαιη ρητορική και ακόμη και φανταστικές μεταχειρίσεις».
Επίσης: Πώς οι παραισθήσεις AI θα μπορούσαν να βοηθήσουν στη δημιουργία αντιβιοτικών που σώζουν ζωές
«Κανείς δεν θέλει να του κάνουν λάθος διάγνωση», είπε η Αλόντρα Νέλσον, καθηγήτρια στο Ινστιτούτο Προηγμένων Μελετών.
Το OpenAI μπορεί να μην υποστήριζε την ιατρική χρήση – η εταιρεία συμβουλεύει “να μην το χρησιμοποιείτε σε τομείς υψηλού κινδύνου, όπως περιβάλλοντα λήψης αποφάσεων, όπου οι ελλείψεις στην ακρίβεια θα μπορούσαν να οδηγήσουν σε σαφείς ελλείψεις στα αποτελέσματα” – αλλά κυκλοφορεί το εργαλείο στην αγορά και Η προαγωγή της ακρίβειας σημαίνει ότι είναι πιθανό να ληφθεί από πολλές βιομηχανίες που προσπαθούν να επιταχύνουν την εργασία και να βελτιώσουν την αποτελεσματικότητά τους όπου είναι δυνατόν, ανεξάρτητα από τους πιθανούς κινδύνους.
Το πρόβλημα δεν φαίνεται να επηρεάζεται από μεγαλύτερο ή κακώς εγγεγραμμένο ήχο. Σύμφωνα με το AP, επιστήμονες υπολογιστών ανακάλυψαν πρόσφατα αρκετές παραισθήσεις σε σύντομα, καθαρά ηχητικά δείγματα. Οι ερευνητές είπαν στο AP ότι η τάση θα «οδήγησε σε δεκάδες χιλιάδες εσφαλμένες μεταγραφές σε εκατομμύρια αρχεία».
«Είναι δύσκολο να εκτιμηθεί πλήρως το πρόβλημα, αλλά ερευνητές και μηχανικοί λένε ότι έχουν συναντήσει συχνά παραισθήσεις Whisper στην εργασία τους», ανέφερε το AP. Επιπλέον, όπως σημείωσε ο Christian Vogler, ο οποίος είναι κωφός και διευθύνει το Πρόγραμμα Πρόσβασης στην Τεχνολογία του Πανεπιστημίου Gallaudet, τα άτομα που είναι κωφά ή βαρήκοα μπορεί να μην μπορούν να αντιληφθούν παραισθήσεις που είναι «κρυμμένες ανάμεσα σε όλο αυτό το άλλο κείμενο».
Τα ευρήματα των ερευνητών υποδεικνύουν ένα ευρύτερο πρόβλημα στον κλάδο της τεχνητής νοημοσύνης: τα εργαλεία κυκλοφορούν πολύ γρήγορα στην αγορά για λόγους κέρδους, ειδικά σε μια εποχή που οι ΗΠΑ εξακολουθούν να στερούνται κατάλληλων κανόνων για τη ρύθμιση της τεχνητής νοημοσύνης. Αυτό είναι επίσης σχετικό δεδομένης της συνεχιζόμενης συζήτησης υπέρ και μη κερδοσκοπικού χαρακτήρα του OpenAI και τις πρόσφατες οδηγίες από τη διοίκηση που δεν λαμβάνει υπόψη τους κινδύνους της τεχνητής νοημοσύνης.
Επίσης: Θα μπορούσε η τεχνητή νοημοσύνη να καταστήσει την επιστήμη των δεδομένων ξεπερασμένη;
«Ένας εκπρόσωπος του OpenAI είπε ότι η εταιρεία μελετά συνεχώς τρόπους μείωσης των παραισθήσεων και επαίνεσε τα ευρήματα των ερευνητών, προσθέτοντας ότι το OpenAI λαμβάνει υπόψη τα σχόλια όταν ενημερώνει τα μοντέλα του», γράφει το AP.
Ενώ περιμένετε να λύσει το πρόβλημα το OpenAI, σας συνιστούμε να δοκιμάσετε το Otter.ai, ένα εργαλείο μεταγραφής τεχνητής νοημοσύνης αξιόπιστο από τους δημοσιογράφους που μόλις πρόσθεσε έξι νέες γλώσσες. Τον περασμένο μήνα, ένας μακροχρόνιος χρήστης του Otter.ai παρατήρησε ότι η νέα λειτουργία σύνοψης AI της πλατφόρμας έβγαζε στατιστικά στοιχεία, αλλά το σφάλμα δεν ήταν στην ίδια τη μεταγραφή. Ίσως είναι σοφό να μην βασίζεστε σε αυτό το χαρακτηριστικό, ειδικά επειδή οι κίνδυνοι μπορεί να αυξηθούν όταν ζητηθεί από το AI να συνοψίσει μεγαλύτερα περιβάλλοντα.
Ο οδηγός μεταγραφής του Otter.ai δεν κάνει καμία αναφορά σε παραισθήσεις, δηλώνοντας μόνο ότι “η ακρίβεια μπορεί να ποικίλλει ανάλογα με παράγοντες όπως ο θόρυβος του περιβάλλοντος, οι τόνοι των ηχείων και η πολυπλοκότητα της συνομιλίας” και συμβουλεύει τους χρήστες να “ελέγξουν και να επεξεργαστούν τις μεταγραφές για να εξασφαλίσουν πλήρη ακρίβεια, ειδικά για κρίσιμες εργασίες ή σημαντικές συνομιλίες».
Επίσης: Το iOS 18.1 με Apple Intelligence είναι εδώ. Δοκιμάστε πρώτα αυτά τα 5 χαρακτηριστικά τεχνητής νοημοσύνης
Εάν διαθέτετε iPhone, το νέο iOS 18.1 με Apple Intelligence σάς επιτρέπει πλέον να καταγράφετε και να μεταγράφετε κλήσεις τεχνητής νοημοσύνης, αλλά ο αρχισυντάκτης του ZDNET, Jason Hiner, λέει ότι η εργασία είναι “ακόμα ένα έργο σε εξέλιξη”.
Εν τω μεταξύ, το OpenAI μόλις ανακοίνωσε τα σχέδιά του να φέρει περισσότερα εργαλεία στους 250 εκατομμύρια χρήστες του ChatGPT Plus.