Το OpenAI ανακοίνωσε νωρίτερα αυτή την εβδομάδα ότι οι περισσότεροι χρήστες θα πρέπει να περιμένουν μέχρι το φθινόπωρο για να αποκτήσουν πρόσβαση στην προηγμένη λειτουργία φωνής του GPT-4o, αλλά φαίνεται ότι κάποιοι τυχεροί έχουν πάρει μια κλεφτή ματιά σε ό,τι είναι δυνατό με τον φωνητικό βοηθό επόμενης γενιάς.
Χρήστης Reddit RozziTheCreator Ήταν ένας από τους λίγους τυχερούς. Μοιράστηκαν μια ηχογράφηση μιας νέας, άκουστης φωνής GPT-4o που αφηγείται μια ιστορία τρόμου, με ηχητικά εφέ που σχετίζονται με την ιστορία, όπως βροντή και βήματα. Ο συγγραφέας τεχνητής νοημοσύνης Sambhav Gupta Πρώτα επισημάνετε το κλιπ στο Xπου του τράβηξε ευρύτερη προσοχή.
Φαίνεται ότι η πρόσβαση της Ρόζι ήταν λάθος. Το OpenAI μου είπε σε μια δήλωση ότι ορισμένοι χρήστες απέκτησαν πρόσβαση στο μοντέλο κατά λάθος, αλλά αυτό έχει πλέον διορθωθεί.
Τι ακούμε στο βίντεο που διέρρευσε;
Κάθε βίντεο που είχαμε με προηγμένο ήχο GPT-4o μέχρι στιγμής ήταν υπό τον έλεγχο του OpenAI και ενώ φαινόταν εκπληκτικό, περιοριζόταν σε περιπτώσεις προσαρμοσμένης χρήσης.
Το νέο βίντεο από το RozziTheCreator φαίνεται να επιδεικνύει την ικανότητα με πιο φυσικό τρόπο, συμπεριλαμβανομένης μιας δυνατότητας ηχητικών εφέ που δεν έχουμε ακούσει ποτέ πριν.
Έστειλα στον RozziTheCreator ένα μήνυμα σχετικά με την εμπειρία και μου είπαν, “Βγήκε από το μπλε, φαινόταν το ίδιο, η μόνη διαφορά ήταν ο ήχος.” Η ανακάλυψη έγινε αργά το βράδυ, όταν ο RozziTheCreator προσπαθούσε να κάνει μια ερώτηση στο chatbot: «Ανακάλυψα την αλλαγή».
Χρειάστηκαν μόνο λίγα λεπτά, και σύμφωνα με τον RozziTheCreator, “ήταν αρκετά λάθη”, οπότε δεν υπήρχε χρόνος για να βγουν πολλά, αλλά κατάφεραν να απαθανατίσουν ένα απόσπασμα αυτής της εκπληκτικής ιστορίας.
«Άρχισε να γίνεται τρελό να επαναλαμβάνω και να ανταποκρίνομαι σε πράγματα που δεν είπα», λέει ο RozziTheCreator, πριν επιστρέψει στην κανονική βασική φωνή που μπορούν πραγματικά να χρησιμοποιήσουν όλοι οι άλλοι.
Στο βίντεο, μπορείτε να ακούσετε το GPT-4o να λέει ανυπόμονα την ιστορία με περιστασιακό τρόπο, υποστηριζόμενη από ηχητικά εφέ. «Φανταστείτε αυτό, υπάρχει αυτή η μικρή πόλη, όλοι γνωρίζουν τους πάντες από το βίντεο και υπάρχει αυτό το μικρό σπίτι στο τέλος του δρόμου», εξήγησε.
Η ιστορία συνεχίζεται για δύο έφηβους που ελέγχουν το σπίτι κατά τη διάρκεια μιας καταιγίδας «με τίποτα άλλο από έναν φακό και τα τηλέφωνά τους για φως».
Τι πήγε στραβά λοιπόν με την αφαίρεση;
Το OpenAI κυκλοφορεί σιγά-σιγά ένα σωρό νέες δυνατότητες. Οι χρήστες του Early Plus έπρεπε να λάβουν προηγμένο GPT-4o για ήχο αυτόν τον μήνα, αλλά λόγω ορισμένων ζητημάτων ασφαλείας και ανησυχιών σχετικά με το αν είχαν την υποδομή υλικού ή όχι – καθυστέρησε.
Ρώτησα το OpenAI τι συνέβη που οδήγησε στην απόκτηση πρόσβασης στο RozziTheCreator και ένας εκπρόσωπος της εταιρείας απάντησε: «Κατά τη δοκιμή της λειτουργίας, στείλαμε ακούσια προσκλήσεις σε έναν μικρό αριθμό χρηστών ChatGPT. Αυτό ήταν ένα σφάλμα και το διορθώσαμε.
Επιβεβαίωσαν ότι οι πρώτοι χρήστες Plus θα αποκτήσουν πρόσβαση τον επόμενο μήνα, αλλά για τους περισσότερους ανθρώπους, θα χρειαστεί περισσότερος χρόνος. Η εξήγηση για την αρχική κυκλοφορία θα είναι να «συλλέξουμε σχόλια και να σχεδιάσουμε να επεκταθούμε με βάση αυτά που μαθαίνουμε».
Έτσι, δεν ακούγεται ακόμα ήχος του GPT-4o, αλλά αυτό είναι το πιο πρόσφατο σε μια σειρά παραδειγμάτων όπου το GPT-4o φαίνεται να θέλει να απελευθερωθεί από τους περιορισμούς του και να προσφέρει τις πλήρεις δυνατότητές του. Έχω δει προσωπικά παραδείγματα να αναλύει ζωντανά αρχεία ήχου ένα λεπτό και μετά να τα τρέχει μέσω κώδικα το επόμενο.
Αυτό που έκανε ήταν να με ενθουσιάσει περισσότερο με τις πλήρεις δυνατότητές του και να με ενόχλησε περισσότερο από την καθυστέρηση — όσο κατανοητή κι αν είναι.
Περισσότερα από τον οδηγό του Τομ
“Τηλεοπτικός γκουρού. Υποστηρικτής της ζόμπι. Οπαδός του διαδικτύου. Πιστοποιημένος μπύρας. Υπερήφανος αναγνώστης. Φανταστικός αλκοόλ. Βραβευμένος επιχειρηματίας.”