Μπορεί η Τεχνητή Νοημοσύνη να κάνει τέχνη;
Η εποχή της γρήγορης, φτηνής δημιουργίας
Το διαδίκτυο έχει κατακλυστεί από εικόνες που μοιάζουν σαν να τις ζωγράφισε ο ίδιος ο Χαγιάο Μιγιαζάκι, ο animator, σκηνοθέτης, καλλιτέχνης μάνγκα και συνιδρυτής του Στούντιο Γκίμπλι. Όλα ξεκίνησαν όταν η OpenAI ανακοίνωσε ορισμένες νέες δυνατότητες στο GPT-4o, στο οποίο οι χρήστες μπορούσαν πλέον να δώσουν μια εικόνα και να του ζητήσουν να την επανασχεδιάσει χρησιμοποιώντας μια συγκεκριμένη τεχνοτροπία. Είναι ένα μυστήριο το γιατί εκατομμύρια άνθρωποι επέλεξαν να επανασχεδιάσουν τις φωτογραφίες τους (και όχι μόνο) στο ύφος του Στούντιο Γκίμπλι. Κάποιος το ξεκίνησε, σε κάποιον άρεσε και το συνέχισε και στη συνέχεια, μέσω ενός φαινομένου χιονοστιβάδας, άρχισε να βρίσκεται κυριολεκτικά παντού - όπως συμβαίνει συνήθως, δηλαδή, με κάτι που γίνεται viral.
Παρόλο που είναι δύσκολο να εξηγήσουμε πότε ένα meme θα γίνει trend, είναι μάλλον εύκολο να πούμε πότε πεθαίνει:
Όπως είναι λογικό, όλη αυτή η παράκρουση με τις εικόνες που δημιουργήθηκαν μέσω Τεχνητής Νοημοσύνης έχει προβληματίσει κάποιους ανθρώπους. Ειδικά τους δημιουργικούς ανθρώπους. Κάθε νέα εικόνα που γκιμπλιοποιείται, είναι μια οδυνηρή υπενθύμιση της απειλής που καθιστούν τα μοντέλα ΤΝ στα μέσα βιοπορισμού των καλλιτεχνών. Παράλληλα, φέρνουν στο προσκήνιο διαχρονικά ερωτήματα που αφορούν την Τέχνη: Τι είναι; Τι δεν είναι; Γιατί την κάνουμε; Έχει σκοπό και αν ναι, ποιος είναι;
Ο Ηλίας Κυριαζής και ο Pan Pan (κατά κόσμον Παναγιώτης Πανταζής), δύο Έλληνες καλλιτέχνες, έχουν πράγματα να πουν. Σε συνέντευξη που έδωσαν στο reader.gr, ο Πανταζής λέει:
Πρώτον, είναι κλοπή. Οικονομικοί κολοσσοί παράγουν κέρδος για τους εαυτούς τους χρησιμοποιώντας την δουλειά δημιουργών χωρίς να τους αποδίδουν πληρωμή. Δεύτερον, σκοτώνει την ουσία της τέχνης που είναι η ψυχική κίνηση. Τρίτον, είναι πολύ κοστοβόρα σε φυσικούς πόρους διαδικασία.
Παρόμοια άποψη φαίνεται να έχει και ο Κυριαζής:
Δεν υπάρχει περίπτωση να βγάλει καλό αποτέλεσμα ένα πρόγραμμα που απλά κλέβει δουλειά καλλιτεχνών και την πετάει άκριτα στο μπλέντερ για να ξεράσει ένα νιανιά.
Το πρόβλημα είναι ότι αυτό το νιανιά είναι γρήγορο και φτηνό. Και αν ο κόσμος το τρώει… αν δεν το πετάει στα μούτρα στις εταιρίες που του το σερβίρουν, τότε κι αυτές δεν έχουν κανένα απολύτως λόγο να ξαναπροσλάβουν καλλιτέχνες.
Δε διαφωνώ καθόλου με τη δημιουργία ενός ρυθμιστικού πλαισίου γι’ αυτές τις τεχνολογίες που θα προστατεύει τα δικαιώματα των καλλιτεχνών. Θεωρώ ότι θα έπρεπε να είχε ήδη γίνει. Όμως, δεν μπορώ να ενστερνιστώ το επιχείρημα περί κλοπής, γιατί δε μου φαίνεται ότι αυτό που κάνει η ΤΝ μπορεί να χαρακτηριστεί έτσι. Πιθανόν να αποτελεί παραβίαση πνευματικών δικαιωμάτων. Θα μπορούσε, ακόμα, να πει κανείς πως είναι πειρατεία. Αλλά κλοπή; 🤷
Οικειοποίηση ή έμπνευση;
Ο ανθρώπινος εγκέφαλος είναι ένα δίκτυο από νευρώνες: κύτταρα που αποτελούν δομικά μέρη του νευρικού συστήματος. Οι νευρώνες δημιουργούν μεταξύ τους συνδέσεις που αποκαλούμε συνάψεις. Όταν ερχόμαστε σε επαφή με ένα οπτικό ερέθισμα (π.χ. μια εικόνα), οι νευρώνες μας ενεργοποιούνται και, μέσω της πλαστικότητάς τους, δημιουργούν νέες συνάψεις ή τροποποιούν τις υπάρχουσες. Με άλλα λόγια, κάθε ερέθισμα αφήνει ένα αποτύπωμα στον εγκέφαλό μας. Όλα αυτά τα αποτυπώματα συγκροτούν το δίκτυο των νευρώνων που μας κάνει μοναδικούς.
Αντίστοιχα, τα μοντέλα δημιουργίας εικόνων ΤΝ εκπαιδεύονται σε τεράστιες συλλογές εικόνων που αντλούν από το διαδίκτυο. Η διαδικασία κατά την οποία μετατρέπουν τις εισαγόμενες εικόνες σε παραμέτρους δε διαφέρει φιλοσοφικά από τον τρόπο που ο ανθρώπινος εγκέφαλος αποθηκεύει αναμνήσεις και ερεθίσματα. Κάθε φορά που ένα μοντέλο ΤΝ «βλέπει» (ως δεδομένο εκπαίδευσης) μια εικόνα, προχωράει σε μια αναπροσαρμογή του εσωτερικού του νευρωνικού δικτύου, ώστε να μάθει (ή να ενισχύσει) τον τρόπο με τον οποίο τη βλέπει και την αναπαριστά.
Έτσι, όταν ζητάμε από το GPT να δημιουργήσει μια εικόνα, δεν κλέβει τα πρωτότυπα έργα, δεν αντιγράφει δηλαδή αυτούσια κομμάτια: συνδυάζει και ανασυνθέτει στοιχεία από την εσωτερική του αναπαράσταση για να παράγει κάτι καινούργιο - κάτι σαν κι αυτό που κάνουν οι άνθρωποι, δηλαδή, όταν δημιουργούν νέα τέχνη έχοντας αφομοιώσει χιλιάδες οπτικές επιρροές κατά τη ζωή τους. Οποιοσδήποτε καλλιτέχνης, με αρκετή εξάσκηση, μπορεί να δημιουργήσει ένα έργο που είναι πιστό στο ύφος του Studio Ghibli - η ΤΝ το κάνει απλώς πολύ πιο γρήγορα και αποδοτικά.
Η γραμμή μεταξύ αντιγραφής και έμπνευσης είναι λεπτή. Όταν ένα σύστημα Τεχνητής Νοημοσύνης «βλέπει» εικόνες, δεν αποθηκεύει πιστά κάθε πίξελ - ακριβώς όπως κι ο ανθρώπινος εγκέφαλος δε συγκρατεί μια φωτογραφική καταγραφή του κόσμου. Και στις δύο περιπτώσεις, δεν υπάρχει αρκετός αποθηκευτικός χώρος για κάτι τέτοιο. Τόσο οι άνθρωποι όσο και τα μοντέλα ΤΝ στηρίζονται σε αφηρημένες, συμπιεσμένες αναπαραστάσεις της πραγματικότητας, τις οποίες αργότερα ανασύρουν από μνήμης για να συνθέσουν κάτι νέο. Αυτό, από μόνο του, το ότι δηλαδή ένας υπολογιστής μπορεί να δημιουργήσει μια εικόνα από το τίποτα λειτουργώντας κάπως σαν τον ανθρώπινο εγκέφαλο, εμένα μου φαίνεται τρομερά εντυπωσιακό και καμιά φορά δυσκολεύομαι να πιστέψω ότι είναι πραγματικά εφικτό.
Υπάρχουν διάφορες πτυχές της Τέχνης που εμείς οι άνθρωποι θαυμάζουμε. Θαυμάζουμε τα συναισθήματα που μπορεί να μας προκαλέσει. Την πρωτοτυπία που ένα έργο μπορεί να φέρει - μια ανατροπή, μια άγνωστη οπτική, μια ριζοσπαστική τεχνική. Θαυμάζουμε την πρόθεση του δημιουργού, το γιατί δημιούργησε αυτό που δημιούργησε, το ύφος, τις επιρροές και την ιδιαίτερη αισθητική του γλώσσα. Προσπαθούμε να συναισθανθούμε την ψυχική του κατάσταση και τις πολιτισμικές του εμπειρίες. Θαυμάζουμε, επίσης, τη δεξιότητα που απαιτεί η Τέχνη, αναγνωρίζουμε και σεβόμαστε τις ατελείωτες ώρες που ένας άνθρωπος μπορεί να έχει αφιερώσει για να εξασκηθεί σε μια συγκεκριμένη τεχνοτροπία.
Μπορούν άραγε κάποια -ή όλα- από αυτά, να υπάρξουν σε κάτι που δημιούργησε μια Τεχνητή Νοημοσύνη;
Τι είναι Τέχνη;
Να μια εύκολη ερώτηση για να συζητήσουμε σε ένα σύντομο γράμμα. Όταν, για τις ανάγκες ενός παλιότερου κειμένου, έπρεπε να δώσω έναν ορισμό, υιοθέτησα τη θέση πως Τέχνη είναι το αποτέλεσμα της ανθρώπινης δημιουργικότητας. Ο Τεντ Σιάνγκ, συγγραφέας επιστημονικής φαντασίας και δημιουργός ενός από τα αγαπημένα μου σύντομα διηγήματα, προτείνει κάτι διαφορετικό σ' ένα άρθρο του στο New Yorker: η τέχνη είναι κάτι που προκύπτει από τη λήψη πολλών αποφάσεων. Όταν γράφεις κάτι, λέει, συνειδητά ή ασυνείδητα κάνεις μια επιλογή σχεδόν για κάθε λέξη που πληκτρολογείς - ένα διήγημα δέκα χιλιάδων λέξεων μπορεί να απαιτεί τη λήψη δέκα χιλιάδων αποφάσεων. Αντιθέτως, η ΤΝ μπορεί να δημιουργήσει κάτι από δυσανάλογα λιγότερες αποφάσεις: μπορείς να της δώσεις μια προτροπή 100 λέξεων ζητώντας της να παράγει ένα κείμενο χιλιάδων ή δεκάδων χιλιάδων λέξεων.
Εάν μια Τεχνητή Νοημοσύνη συνθέσει μια ιστορία δέκα χιλιάδων λέξεων με βάση την προτροπή σου, πρέπει να συμπληρώσει όλες τις επιλογές που εσύ δεν έκανες. Υπάρχουν διάφοροι τρόποι για να το κάνει αυτό. Ο ένας είναι να πάρει έναν μέσο όρο των επιλογών που έχουν κάνει άλλοι συγγραφείς, όπως αυτές αποτυπώνονται σε κείμενα στο διαδίκτυο· αυτός ο μέσος όρος ισοδυναμεί με τις λιγότερο ενδιαφέρουσες επιλογές που θα μπορούσε να κάνει, γι’ αυτό και το κείμενο που παράγεται από μια ΤΝ είναι συχνά εξαιρετικά άνοστο. Ένας άλλος τρόπος είναι να δώσουμε στο πρόγραμμα την οδηγία να μιμηθεί το στιλ, αντιγράφοντας τις επιλογές που έκανε ένας συγκεκριμένος συγγραφέας, πράγμα που καταλήγει σε ένα έντονα «παράγωγο» κείμενο. Σε καμία από αυτές τις περιπτώσεις, πάντως, δεν προκύπτει πραγματικά ενδιαφέρουσα τέχνη.
Η συνέχεια, ωστόσο, έχει ενδιαφέρον. Αν φανταστούμε, λέει, έναν μετατροπέα κειμένου σε εικόνα που σου επιτρέπει να εισάγεις δεκάδες χιλιάδες λέξεις στο πεδίο κειμένου για να αποκτήσεις εξαιρετικά λεπτομερή έλεγχο της εικόνας που παράγεις (κάτι σαν το Photoshop, δηλαδή, αλλά με μια αποκλειστικά γλωσσική διεπαφή), τότε ένας άνθρωπος που θα μπορούσε να χρησιμοποιήσει ένα τέτοιο πρόγραμμα για να δημιουργήσει μια εικόνα θα άξιζε, λέει, να αποκαλείται καλλιτέχνης.
Ο σκηνοθέτης Μπένετ Μίλερ χρησιμοποίησε το DALL-E 2 για να δημιουργήσει μερικές ιδιαίτερα εντυπωσιακές εικόνες, οι οποίες εκτέθηκαν στην γκαλερί Γκαγκόζιαν. Για να τις φτιάξει, επινόησε λεπτομερείς περιγραφές κειμένου (text prompts) και έδινε στο DALL-E εντολές να αναθεωρεί και να τροποποιεί τις παραγόμενες εικόνες ξανά και ξανά. Έφτιαξε περισσότερες από εκατό χιλιάδες εικόνες για να καταλήξει στις είκοσι που τελικά εκτέθηκαν. Ωστόσο, έχει δηλώσει ότι δεν έχει καταφέρει να πετύχει αντίστοιχα αποτελέσματα στις επόμενες εκδόσεις του DALL-E. Υποψιάζομαι πως αυτό συμβαίνει επειδή ο Μίλερ χρησιμοποιούσε το DALL-E για κάτι για το οποίο δεν ήταν φτιαγμένο· είναι σαν να χάκαρε το Microsoft Paint για να το κάνει να λειτουργεί σαν το Photoshop, αλλά μόλις κυκλοφόρησε μια καινούρια έκδοση του Paint, οι τροποποιήσεις του έπαψαν να λειτουργούν.
Ανεξάρτητα από τον ορισμό της Τέχνης που θα χρησιμοποιήσουμε, οποιοδήποτε έργο ανθρώπινης δημιουργίας αξίζει να βιωθεί, αξίζει γιατί έχει προκύψει από προσπάθεια - πραγματική, συχνά επίπονη (αλλά όχι απαραίτητα) προσπάθεια, που εκφράζει μια βαθιά ανθρώπινη ανάγκη για σύνδεση και επικοινωνία.
Θεωρώ ότι εδώ είναι, τελικά, το πρόβλημα - και όχι σε κάποια υποτιθέμενη κλοπή. Είναι κάτι που ανέφεραν και οι δύο Έλληνες καλλιτέχνες στη συνέντευξή τους, με διαφορετικά λόγια. Εταιρείες όπως η OpenAI δεν έχουν στο μυαλό τους τον Μίλερ όταν αναπτύσσουν τα μοντέλα Τεχνητής Νοημοσύνης τους, γιατί ένα εργαλείο που απαιτεί εκατοντάδες ώρες δουλειάς για να παράγει μια εικόνα δεν είναι ελκυστικό για την αγορά. Σκοπός της εταιρείας είναι να προσφέρει ένα προϊόν που παράγει αποτελέσματα με την ελάχιστη δυνατή προσπάθεια. Όπως και πολλά άλλα πράγματα μέσα στον καπιταλισμό, το πρωταρχικό κίνητρο πίσω από την τεχνολογία που αναπτύσσεται δεν είναι να παρέχει ένα εργαλείο που θα κάνει τις ζωές των ανθρώπων καλύτερες ή ευκολότερες (παρόλο που ενίοτε το κάνει, ως παράπλευρη ωφέλεια) αλλά η μεγιστοποίηση του κέρδους της εταιρείας που το παράγει. Η διαφορά μπορεί να μην είναι εμφανής σε πρώτο επίπεδο, έχει όμως σημασία μακροπρόθεσμα.
Αυτό δεν είναι κάτι καινούργιο. Η ανάθεση ενός μέρους της δημιουργικότητας στην Τεχνητή Νοημοσύνη, αποτελεί ένα ακόμα ορόσημο σε μια μακρά πορεία που μετατρέπει την Τέχνη, μεταξύ άλλων, σε περιεχόμενο προς κατανάλωση. Γρήγορο, εφήμερο και εύκολο. Ακριβώς όπως επιτάσσει η εποχή.
Ξέρετε ποια είναι η ειρωνεία; Οι εικόνες που τοποθετώ στην κορυφή ετούτων των γραμμάτων, και που χρησιμοποιώ για να τα προωθήσω στα social media, είναι φτιαγμένες από Τεχνητή Νοημοσύνη.
Διαβάστε επίσης
Η Καθημερινή Φυσική συνεχίζει να υπάρχει γιατί άνθρωποι σαν κι εσάς την υποστηρίζουν. Αν θέλετε να γίνετε μέλος και να έχετε πρόσβαση σε όλα τα γράμματα, μπορείτε τώρα να αποκτήσετε συνδρομή με μόλις 15€ τον χρόνο.