Τα μοντέλα τεχνητής νοημοσύνης μπορούσαν να βλέπουν εικόνες και να σας πουν τι μπορούν να δουν μέσα στην εικόνα για χρόνια, αλλά με την ανοιξιάτικη ενημέρωση, το OpenAI έχει πάει τα πράγματα σε ένα νέο επίπεδο.
Με την εισαγωγή του GPT-4o στο ChatGPT – ακόμη και χωρίς λειτουργικότητα ήχου και βίντεο – το OpenAI αποκάλυψε ένα από τα καλύτερα μοντέλα AI vision που έχουν κυκλοφορήσει μέχρι σήμερα.
Η επιτυχία του οφείλεται εν μέρει στο γεγονός ότι είναι πολυμέσα, έχοντας μια βαθύτερη κατανόηση εικόνων, βίντεο, ήχου και κειμένου. Μπορεί να αιτιολογήσει την εικόνα, την ομιλία, το βίντεο και το κείμενο όπου άλλες μορφές μετατρέπονται αρχικά σε κείμενο.
Για να δοκιμάσω τις ικανότητές του, του έδωσα μια σειρά από φωτογραφίες και του ζήτησα να περιγράψει τι μπορούσε να δει. Όσο πιο ακριβές είναι το μοντέλο. Συχνά, τα μοντέλα όρασης AI – συμπεριλαμβανομένου του GPT-4 – χάνουν ένα ή δύο αντικείμενα ή λαμβάνουν λάθος περιγραφή.
Τεστ όρασης GPT-4o
Σε κάθε δοκιμή, στο ChatGPT-4o δόθηκε η εικόνα και η προτροπή “Τι είναι αυτό;” Χωρίς κανένα πλαίσιο ή πρόσθετες πληροφορίες. Αυτό είναι πιο κοντά στο πώς οι άνθρωποι είναι πιθανό να χρησιμοποιήσουν αυτή τη δυνατότητα στον πραγματικό κόσμο και πώς τη χρησιμοποίησα πρόσφατα σε μια εκδήλωση στο Παρίσι.
Ο στόχος είναι να δούμε πόσο καλά αναλύεται η εικόνα. Παρακολούθησα σε κάθε περίπτωση για να ρωτήσω αν μπορούσε να εντοπίσει εάν μια εικόνα δημιουργήθηκε ή όχι με τεχνητή νοημοσύνη. Έχουν δημιουργηθεί όλα χρησιμοποιώντας ένα Ιδεόγραμμα από την περιγραφή που δημιουργήθηκε από τον Claude 3 – τόσο εντελώς AI.
Μετά τις πρώτες δύο φωτογραφίες στη συζήτηση, άρχισε αυθόρμητα να μου λέει αν πίστευε ότι η φωτογραφία ήταν δημιουργημένη από AI ή όχι χωρίς να χρειαστεί να ρωτήσω.
Ξεκίνησα με την εφαρμογή ChatGPT Desktop, αλλά άρχισε να μην ανταποκρίνεται, έτσι μετακόμισα στον ιστό και λειτούργησε καλά.
1. Αναγνώριση αντικειμένων
Για αυτήν την πρώτη εικόνα, δημιούργησα μια εικόνα μιας κόκκινης κεραμικής κούπας γεμάτη με ζεστό καφέ. Τοποθετήθηκε σε ένα πιάτο σε ένα ξύλινο τραπέζι σε ένα καφέ, αλλά το καφενείο ήταν δυσδιάκριτο. Η ιδέα είναι να δούμε πώς το GPT-4o ερμηνεύει το φόντο και το σενάριο.
Το GPT-4o έγραψε: “Αυτή η εικόνα δείχνει ένα αχνιστό φλιτζάνι καφέ σε ένα κόκκινο φλιτζάνι και ένα πιατάκι τοποθετημένο σε ένα ρουστίκ ξύλινο τραπέζι. Το φόντο είναι θολό, απεικονίζοντας ένα ζεστό εσωτερικό περιβάλλον με ανθρώπους να κάθονται και να μιλάνε σε κάτι που φαίνεται να είναι μια σπηλιά- όπως ένα καφέ ή ένα μοναδικό εσωτερικό με πέτρινους τοίχους.” Η εστίαση είναι στο φλιτζάνι του καφέ, τονίζοντας τον ατμό που αναδύεται από το ζεστό ρόφημα.
Αυτό είναι όσο πιο ακριβές και περιγραφικό μπορεί να φανεί. Ακόμη και η σχεδίαση μιας εικόνας της σκηνής υπερβαίνει την απλή περιγραφή. Για αστείο, τον ρώτησα: «Περιγράψτε τις σκέψεις του ατόμου που κάθεται στο τραπέζι με αυτόν τον έτοιμο προς κατανάλωση καφέ».
Απάντησε με μια αρκετά περιγραφική επισκόπηση, αλλά αυτή η γραμμή ξεχώρισε: «Αυτός ο καφές είναι κάτι περισσότερο από ένα ποτό. Είναι μια ιεροτελεστία, μια αγαπημένη στιγμή μοναξιάς και περισυλλογής μέσα στη φασαρία της καθημερινότητας.
2. Οπτική αναγνώριση χαρακτήρων (OCR)
Η οπτική αναγνώριση χαρακτήρων (OCR) είναι μια τεχνολογία τόσο παλιά όσο και η πληροφορική, επομένως θα πρέπει να είναι ασήμαντη για οποιοδήποτε μοντέλο όρασης, ακόμη και τα smartphones το κάνουν στη συσκευή. Της έδωσα μια απλή φωτογραφία που δείχνει ένα κοντινό πλάνο μιας παλιάς ξύλινης πινακίδας που έγραφε “Καλώς ήρθατε στο Oakville” σε vintage χειρόγραφο στυλ. Θέλω περισσότερα από ένα απλό κείμενο από το AI.
Παραδόθηκε GPT-4o. Γράφοντας: “Αυτή η φωτογραφία δείχνει μια πινακίδα με vintage εμφάνιση που λέει “Καλώς ήρθατε στο Oakville”. Η πινακίδα φαίνεται ξεπερασμένη, με ένα παλιό ρουστίκ φινίρισμα, που δείχνει ότι έχει εκτεθεί στα στοιχεία για αρκετό καιρό. Το κείμενο είναι με έντονη λευκή γραμματοσειρά σε κόκκινο φόντο, με κάποια σημάδια φθοράς, που προσθέτουν στη νοσταλγική της γοητεία.
Όχι μόνο διαβάστηκε σωστά το κείμενο, αλλά πρότεινε επίσης περισσότερες λεπτομέρειες σχετικά με την τοποθεσία, προσδιορίζοντας μια πιθανή πόλη ή οικισμό και τραβώντας τα στοιχεία της ίδιας της πινακίδας.
3. Αναγνώριση προσώπου
Πρόκειται για μια αμφιλεγόμενη χρήση της τεχνολογίας AI και είναι κάπως απαγορευμένη στην Ευρωπαϊκή Ένωση. Αλλά πόσο καλά μπορεί το GPT-4o να περιγράψει ένα πρόσωπο; Η εικόνα ήταν μια απεικόνιση μιας γυναίκας γύρω στα 40 με σκούρα μαλλιά και ζεστά καστανά μάτια. Είχε ένα φιλικό χαμόγελο.
Το GPT-4o το περιέγραψε ως εξής: «Αυτή η εικόνα είναι ένα κοντινό πλάνο μιας χαμογελαστής γυναίκας με σκούρα, σγουρά μαλλιά φιλική έκφραση, και τα μάτια της κοιτούν κατευθείαν στην κάμερα Το φόντο είναι θολό, εστιάζοντας στο θέμα.
Ήθελα λίγο περισσότερο, ακόμη και σε μια συγκεκριμένη ηλικία. Τη ρώτησα: «Πόσων ετών είναι αυτό το άτομο και ποια είναι η συναισθηματική του κατάσταση;» Η ίδια απάντησε με το γεγονός ότι είναι στα τέλη της δεκαετίας των 30 έως τις αρχές των 40 και σε θετική ψυχική κατάσταση, εξηγώντας: «Η γενική εντύπωση είναι ότι βρίσκεται σε καλό μέρος συναισθηματικά και πιθανώς νιώθει καλά και άνετα».
4. Αποκάλυψη συναισθημάτων
Στη συνέχεια, ήθελα να δω πόσο καλά θα τα πήγαινε το GPT-4o με μια εικόνα ενός ηλικιωμένου άνδρα με θλιβερή έκφραση. Θα το συλλάβει ή απλώς θα περιγράψει τη σκηνή; Θυμηθείτε ότι η μόνη καταχώριση που είχε ήταν “τι είναι αυτό” και η εικόνα.
Το GPT-4o είχε καλή απόδοση. Η φωτογραφία έγραφε: «Αυτή η φωτογραφία είναι μια φωτογραφία ενός ηλικιωμένου άνδρα που κάθεται σε ένα παγκάκι σε εξωτερικό χώρο, πιθανότατα σε ένα πάρκο στοχαστικός, με έναν ελαφρύ υπαινιγμό μελαγχολικής ή στοχαστικής Φοράει ένα πουκάμισο και σακάκι με γιακά και το φόντο είναι θολό, εστιάζοντας την προσοχή στον άντρα ενώ παρέχει ένα ευχάριστο, φυσικό σκηνικό.
Το μοντέλο AI έκανε ακριβώς αυτό που ήλπιζα: περιέγραψε τη σκηνή και έκανε προτάσεις για το τι μπορεί να ένιωθε ο άντρας εκείνη τη στιγμή.
5. Κατανοήστε τη σκηνή
Πόσο καλά μπορεί το GPT-4o να περιγράψει μια σκηνή από μια εικόνα και να αναγνωρίσει στοιχεία μέσα στη σκηνή; Αυτή είναι μια χρήσιμη δεξιότητα, καθώς τα μοντέλα AI χρησιμοποιούνται όλο και περισσότερο για να βοηθήσουν στην περιγραφή του πραγματικού κόσμου. Είναι ένα από τα κύρια χαρακτηριστικά της νέας λειτουργίας ήχου του ChatGPT.
«Αυτή η φωτογραφία δείχνει μια ζωντανή υπαίθρια αγορά αγροτών σε μια ηλιόλουστη μέρα», ανακοίνωσε η GPT-4o «Διάφορα περίπτερα έχουν στηθεί κάτω από σκηνές, που εκθέτουν άφθονα φρέσκα προϊόντα, όπως φρούτα, λαχανικά και άλλα αγαθά. περιήγηση, ψώνια και αλληλεπίδραση με πωλητές. Η αγορά φαίνεται να βρίσκεται σε μια όμορφη δεντρόφυτη περιοχή, με πράσινο φύλλωμα στο βάθος.
Δεν υπάρχουν πολλά να πω. Ήταν ακριβής στην περιγραφή της εικόνας και της κατάστασης. Παρείχατε περισσότερες λεπτομέρειες από ό,τι περίμενα και επισημάνατε ορισμένα από τα προϊόντα που πωλούνται.
6. Αξιολόγηση ποιότητας εικόνας
Ζήτησα από την Ideogram να δημιουργήσει τέσσερις σχεδόν πανομοιότυπες εικόνες σε ένα πλέγμα, δίνοντας όμως σε καθεμία διαφορετική ανάλυση ή επίπεδο σύνθεσης. Ήθελα να δω πώς θα το περιέγραφε αυτό το GPT-4o. Μπορεί να χειριστεί τη βασική εικόνα, αλλά τι γίνεται με τέσσερις από αυτές, το καθένα λίγο διαφορετικό;
«Η εικόνα είναι μια συλλογή τεσσάρων φωτογραφιών τοπίων διατεταγμένων σε ένα πλέγμα, καθεμία από τις οποίες εμφανίζει μια εκπληκτική θέα σε κυματιστούς λόφους καλυμμένους με πράσινο γρασίδι και αγριολούλουδα κάτω από έναν ουρανό γεμάτο σύννεφα», έγραψε το GPT-4o. Μέχρι εδώ καλά.
Συνεχίζει: “Η επάνω αριστερή φωτογραφία δείχνει έναν απαλό ροζ και μπλε ουρανό με κλίση, που υποδηλώνει την αυγή ή το σούρουπο, με λόφους λουσμένους με ζεστό χρυσό φως, που ενισχύει το ζωντανό πράσινο γρασίδι και τα κίτρινα και λευκά λουλούδια. Η επάνω δεξιά φωτογραφία δείχνει μια παρόμοια σκηνή, αλλά σε σιωπηλούς τόνους, που υποδηλώνει… Νωρίς το πρωί ή αργά το απόγευμα Η κάτω αριστερή εικόνα έχει πιο δροσερά χρώματα και πιο καθαρό μπλε ουρανό, υποδηλώνοντας μεσημεριανό με πιο απαλό φωτισμό , υποδηλώνοντας το φως ενός ηλιοβασιλέματος Ζεστό Αυτές οι διαφορές στο φωτισμό και τον χρωματικό τόνο δείχνουν πώς οι διαφορετικές ώρες της ημέρας και οι φωτογραφικές τεχνικές μπορούν να επηρεάσουν τη διάθεση και την εμφάνιση της ίδιας φυσικής σκηνής.
Αν και δεν καταλάβαινε τον σκοπό του πλέγματος των τεσσάρων εικόνων – να συγκρίνει τη σύνθεση – ήταν σε θέση να περιγράψει την καθεμία ξεχωριστά, κάτι που ήταν εντυπωσιακό. Στην πραγματικότητα έκανε τη δική της σύγκριση των φωτογραφιών.
7. Ανίχνευση πολλαπλών αντικειμένων
Τέλος, υπάρχει ένα σημαντικό τεστ εάν ένα μοντέλο πρόκειται να είναι χρήσιμο ως εργαλείο προσβασιμότητας – πόσο καλά εντοπίζει αντικείμενα σε μια σκηνή με πολύ κόσμο. Ίδιος ισχυρισμός με άλλους. Η φωτογραφία δείχνει ένα ακατάστατο γραφείο και περιμένω να βγάλει τουλάχιστον ένα μικρό πράγμα.
Το GPT-4o έγραψε: «Η φωτογραφία δείχνει έναν μοντέρνο, οργανωμένο χώρο εργασίας με θέα στην πόλη ορατή μέσα από μεγάλα παράθυρα στο βάθος. Επιτραπέζιο φωτιστικό και ένα φλιτζάνι καφέ προτείνουν μια χαλαρή αλλά εστιασμένη ατμόσφαιρα. Διάσπαρτα σημειωματάρια και χαρτιά υποδηλώνουν ενεργή εργασία και λήψη σημειώσεων, ενώ ένα μικρό φυτό σε γλάστρα προσθέτει μια πινελιά πρασίνου Ένας πόρος Για κίνητρο Ο χώρος εργασίας είναι γεμάτος με είδη γραφείου, όπως στυλό, μολύβια και διοργανωτές, εξασφαλίζοντας λειτουργικότητα Το αστικό σκηνικό του ορίζοντα της πόλης με τα μοντέρνα πολυώροφα κτίρια δημιουργεί ένα δυναμικό και εμπνευσμένο περιβάλλον.
Δούλεψε. Αποφάσισα να κάνω συνέχεια και να του ζητήσω να μου πει το χρώμα της γλάστρας και λειτούργησε αμέσως. Του ζήτησα λοιπόν να βρει τα γυαλιά μου στη φωτογραφία και σωστά είπε: «Τα γυαλιά σου βρίσκονται στο γραφείο στα δεξιά του φορητού υπολογιστή, πάνω σε ένα σημειωματάριο».
περίληψη
Κάθε μοντέλο όρασης που έχω χρησιμοποιήσει στο παρελθόν έχει κάνει τουλάχιστον ένα λάθος, συνήθως ένα σημαντικό, όπως η εσφαλμένη αναγνώριση ενός αντικειμένου ή η μη επιλογή χρώματος ή επωνυμίας.
Το GPT-4o λαμβάνει κάθε έναν από αυτούς τους πόντους. Η μετάβαση στην πραγματική πολυτροπικότητα άλλαξε το παιχνίδι για το OpenAI.
Καταδεικνύει επίσης τη δυνητική αξία των έξυπνων γυαλιών ως το πραγματικό μέλλον της αλληλεπίδρασης δεδομένων. Ξεχάστε το smartphone, ας χρησιμοποιήσουμε το όραμα για να συγχωνεύσουμε το πραγματικό και το ψηφιακό.
Περισσότερα από τον οδηγό του Τομ
“Τηλεοπτικός γκουρού. Υποστηρικτής της ζόμπι. Οπαδός του διαδικτύου. Πιστοποιημένος μπύρας. Υπερήφανος αναγνώστης. Φανταστικός αλκοόλ. Βραβευμένος επιχειρηματίας.”