Τα chatbot AI θα πιάσουν «ταβάνι» μετά το 2026 καθώς τα δεδομένα εκπαίδευσης εξαντλούνται
Το απόθεμα των γλωσσικών δεδομένων στα οποία εκπαιδεύεται η τεχνητή νοημοσύνη, όπως το ChatGPT, θα μπορούσε να εξαντληθεί έως το 2026, επειδή η ΑΙ τα καταναλώνει γρηγορότερα από ό,τι τα παράγουν οι άνθρωποι.
Η παροχή γλωσσικών δεδομένων υψηλής ποιότητας που χρησιμοποιούνται για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης με μηχανική μάθηση μπορεί να εξαντληθεί σε τρία χρόνια, οδηγώντας την πρόοδο της τεχνητής νοημοσύνης σε στασιμότητα, διαπιστώνουν αμερικανοί ερευνητές.
Η μηχανική εκμάθηση εξουσιοδοτεί προγράμματα τεχνητής νοημοσύνης, όπως το Midjourney και το ChatGPT του OpenAI
Τα γλωσσικά μοντέλα εκπαιδεύονται χρησιμοποιώντας κείμενα από πηγές όπως η Wikipedia, άρθρα ειδήσεων, επιστημονικές εργασίες και βιβλία. Η τάση τα τελευταία χρόνια ήταν αυτά τα μοντέλα να εκπαιδεύονται σε όλο και περισσότερα δεδομένα με την ελπίδα να καταστούν πιο ακριβή και ευέλικτα. Οι ερευνητές που δημιουργούν πιο ισχυρά μοντέλα με μεγαλύτερες δυνατότητες, πρέπει να βρουν όλο και περισσότερα κείμενα για να τα εκπαιδεύσουν και ανησυχούν ολοένα και περισσότερο ότι θα ξεμείνουν από αυτού του είδους τα δεδομένα.
Σύμφωνα με μια επιστημονική δημοσίευση ερευνητών από τον Epoch , έναν οργανισμό έρευνας και πρόβλεψης τεχνητής νοημοσύνης, το απόθεμα γλωσσικών δεδομένων αυξάνεται επί του παρόντος κατά 7% ετησίως, αλλά το μοντέλο τους προβλέπει επιβράδυνση στο 1% μέχρι το 2100. Το απόθεμα είναι αυτή τη στιγμή μεταξύ 7e13 και 7e16 λέξεων, το οποίο είναι κατά 1,5 έως 4,5 τάξεις μεγέθους μεγαλύτερο από τα μεγαλύτερα σύνολα δεδομένων που χρησιμοποιούνται σήμερα. Με βάση αυτές τις τάσεις, πιθανότατα θα ξεμείνουμε από δεδομένα στο χρονικό διάστημα μεταξύ 2030 και 2050.
Σύμφωνα πάντα με τη δημοσίευση του Epoch, οι ερευνητές γλώσσας ΑΙ τεχνητής φιλτράρουν τα δεδομένα που χρησιμοποιούν για την εκπαίδευση μοντέλων σε δύο κατηγορίες, σε υψηλής και σε χαμηλής ποιότητας. Η γραμμή μεταξύ των δύο κατηγοριών μπορεί να είναι ασαφής, λέει ο Pablo Villalobos, ερευνητής του Epoch και ο κύριος συγγραφέας της μελέτης, ωστόσο το κείμενο από την πρώτη κατηγορία θεωρείται καλύτερα γραμμένο και συχνά παράγεται από επαγγελματίες συγγραφείς. Συγκριτικά με το μεγαλύτερο από τα μεγαλύτερα σύνολα δεδομένων, το απόθεμα γλωσσικών δεδομένων υψηλής ποιότητας είναι μεταξύ 4,6e12 και 1,7e13 λέξεων, δηλαδή μικρότερο κατά μία τάξη μεγέθους. Είμαστε σε μια τάξη μεγέθους υψηλής ποιότητας δεδομένων με εξαντλητική τάση που πιθανότατα θα συμβεί μεταξύ 2023 και 2027.
Τα δεδομένα από κατηγορίες χαμηλής ποιότητας αποτελούνται από κείμενα όπως αναρτήσεις μέσων κοινωνικής δικτύωσης ή σχόλια σε ιστότοπους όπως το 4chan, τα οποία υπερτερούν σε αριθμό εκείνων που θεωρούνται υψηλής ποιότητας. Οι ερευνητές συνήθως εκπαιδεύουν μοντέλα χρησιμοποιώντας μόνο δεδομένα που εμπίπτουν στην κατηγορία υψηλής ποιότητας, επειδή αυτός είναι ο τύπος γλώσσας που θέλουν να αναπαράγουν τα μοντέλα. Αυτή η προσέγγιση οδήγησε σε μερικά εντυπωσιακά αποτελέσματα για μεγάλα γλωσσικά μοντέλα όπως το GPT-3.
Αντίστοιχα, η μελλοντική ανάπτυξη των συνόλων δεδομένων εικόνων δείχνει να είναι μικρότερη, ωστόσο, ο ρυθμός ανάπτυξης φαίνεται να είναι περίπου 18% έως 31% ετησίως. Το απόθεμα δεδομένων όρασης αυξάνεται επί του παρόντος κατά 8% ετησίως, αλλά αναμένεται να επιβραδυνθεί στο 1% έως το 2100. Η προβολή αυτών των τάσεων υπογραμμίζει ότι οι εκπαιδευτές μοντέλων ΑΙ πιθανότατα θα τρέξουν δεδομένα εκτός όρασης μεταξύ 2030 και 2070
Ένας τρόπος για να ξεπεραστούν αυτοί οι περιορισμοί δεδομένων θα ήταν να επαναξιολογηθεί αυτό που ορίζεται ως «χαμηλή» και «υψηλή» ποιότητα, σύμφωνα με την Swabha Swayamdipta, καθηγήτρια μηχανικής μάθησης στο Πανεπιστήμιο της Νότιας Καλιφόρνια που ειδικεύεται στην ποιότητα των συνόλων δεδομένων. Εάν οι ελλείψεις δεδομένων ωθήσουν τους ερευνητές της τεχνητής νοημοσύνης να ενσωματώσουν πιο διαφορετικά σύνολα δεδομένων στη διαδικασία εκπαίδευσης, θα ήταν «καθαρά θετικό» για τα γλωσσικά μοντέλα, λέει η ίδια.
Οι ερευνητές μπορούν επίσης να βρουν τρόπους να παρατείνουν τη διάρκεια ζωής των δεδομένων που χρησιμοποιούνται για την εκπαίδευση γλωσσικών μοντέλων. Επί του παρόντος, αυτά τα μοντέλα εκπαιδεύονται με τα ίδια δεδομένα μόνο μία φορά, λόγω των περιορισμών απόδοσης και κόστους, αλλά μπορεί να είναι δυνατό να εκπαιδευτεί ένα μοντέλο πολλές φορές χρησιμοποιώντας τα ίδια δεδομένα, λέει η Swayamdipta.
Ο Percy Liang, καθηγητής επιστήμης υπολογιστών στο Πανεπιστήμιο του Στάνφορντ, αντίθετα λέει ότι χρειάζεται να βελτιωθεί η ικανότητα των μοντέλων και όχι το μέγεθος για να γίνουν πιο αποτελεσματικά. «Είδαμε πώς τα μικρότερα μοντέλα που εκπαιδεύονται σε δεδομένα υψηλότερης ποιότητας μπορούν να ξεπεράσουν τα μεγαλύτερα μοντέλα που έχουν εκπαιδευτεί σε δεδομένα χαμηλότερης ποιότητας», εξηγεί.
Πηγή: MIT Technology Review
#CHATBOTS- Δημοφιλέστερες Ειδήσεις Κατηγορίας Ειδήσεις
- Καιρός: Έρχεται χιονιάς, «στα λευκά» και η Αττική
- Σκάνδαλο με την επιλογή τραγουδιού στην Eurovision; - «Πώς ψήφισε η επιτροπή τον Vernicos» λέει ο δικηγόρος της τρίτης υποψήφιας
- ΠΡΙΝ ΛΙΓΟ: Τροχαίο με σύγκρουση ΙΧ με φορτηγό στον Περιφερειακό στη Θεσσαλονίκη
- Παρουσία του Βαγγέλη Μαρινάκη έκοψε την πίτα του ο Ολυμπιακός - Δείτε φωτογραφίες
- Κούγιας στην ΕΡΑΣΠΟΡ: «Υπάρχει εγκληματική οργάνωση – Καλά κάνει ο Αυγενάκης και δεν δίνει τα χρήματα στις ομάδες!» (audio)
- Τουρκία: Εκνευρισμός της Άγκυρας μετά τις ταξιδιωτικές οδηγίες - Κάλεσε τους πρεσβευτές εννέα χωρών για εξηγήσεις
- Survivor spoiler αποχώρηση 2/2/23: Αυτός ο παίκτης «αποχαιρετά» τον Άγιο Δομίνικο σήμερα
- Τα ΝΕΑ απέλυσαν τον Πέτρο Τατσόπουλο
- Κηδεία υποσμηναγού Τουρούτσικα - «Αθάνατος»: 8 συγκλονιστικά καρέ στο τελευταίο αντίο
- Survivor Spoiler: Χάος στον αγώνα - Αρνούνται το έπαθλο και ο Λιανός το "χαρίζει" στην αντίπαλη ομάδα
- Δημοφιλέστερες Ειδήσεις Dikaiologitika
- Κορονοϊός: Άλλοι 169 θάνατοι σε 7 ημέρες, ανησυχία για τη γρίπη με νοσηλείες σε ΜΕΘ
- Κυνηγός αυτοπυροβολήθηκε κατά λάθος, μεγάλη επιχείρηση από ΕΚΑΒ και Πυροσβεστική
- Τα chatbot AI θα πιάσουν «ταβάνι» μετά το 2026 καθώς τα δεδομένα εκπαίδευσης εξαντλούνται
- ΔΟΕ: 24ωρη απεργία στις 15 Φεβρουαρίου αποφάσισαν οι δάσκαλοι
- Μείωση κατά 4,4% αναμένεται στις πωλήσεις συσκευών το 2023
- Κοινωφελής εργασία ΟΑΕΔ: Ανακοινώθηκε παράταση του προγράμματος ανέργων από την ΔΥΠΑ
- Για «ψυχολογικό πόλεμο» κατηγορεί η Άγκυρα, ΗΠΑ και Ευρώπη, για εξηγήσεις κλήθηκαν πρεσβευτές
- Τα «πυρηνικά» σχέδια του Πούτιν πριν ξεκινήσει ο πόλεμος
- Τα Zara χρεώνουν τις ηλεκτρονικές επιστροφές προϊόντων και στην Ισπανία
- Νέες αποκαλύψεις για τις αιτήσεις του voucher έως 1.000 ευρώ για αγορά ηλιακού θερμοσίφωνα
- Τελευταία Νέα Dikaiologitika
- Τα chatbot AI θα πιάσουν «ταβάνι» μετά το 2026 καθώς τα δεδομένα εκπαίδευσης εξαντλούνται
- Κυνηγός αυτοπυροβολήθηκε κατά λάθος, μεγάλη επιχείρηση από ΕΚΑΒ και Πυροσβεστική
- Μείωση κατά 4,4% αναμένεται στις πωλήσεις συσκευών το 2023
- Τηλεργασία στο Δημόσιο: Ξεκίνησε η εφαρμογή της, τι αλλάζει με το νέο καθεστώς
- ΔΟΕ: 24ωρη απεργία στις 15 Φεβρουαρίου αποφάσισαν οι δάσκαλοι
- Κοινωφελής εργασία ΟΑΕΔ: Ανακοινώθηκε παράταση του προγράμματος ανέργων από την ΔΥΠΑ
- Για «ψυχολογικό πόλεμο» κατηγορεί η Άγκυρα, ΗΠΑ και Ευρώπη, για εξηγήσεις κλήθηκαν πρεσβευτές
- Κορονοϊός: Άλλοι 169 θάνατοι σε 7 ημέρες, ανησυχία για τη γρίπη με νοσηλείες σε ΜΕΘ
- Τα «πυρηνικά» σχέδια του Πούτιν πριν ξεκινήσει ο πόλεμος
- Νέες αποκαλύψεις για τις αιτήσεις του voucher έως 1.000 ευρώ για αγορά ηλιακού θερμοσίφωνα
- Τελευταία Νέα Κατηγορίας Ειδήσεις
- Επανασύνδεση ρεύματος σε ευάλωτα νοικοκυριά του Δήμου Ναυπακτίας
- Το έλαιο της καρύδας, εξίσου ανθυγιεινό με τα ζωικά λίπη και το βούτυρο
- Ο Νιγηριανός επιχειρηματίας Ντόζι Μομπουόσι αγοράζει τη Σέφιλντ Γιουνάιτεντ
- ΔΥΠΑ: Παράταση συμβάσεων για 4.000 εργαζόμενους στον τομέα της Υγείας
- Φινλανδία και Σουηδία παραμένουν δεσμευμένες στην ταυτόχρονη ένταξή τους στο ΝΑΤΟ
- Αποπλήρωσε το χρέος της η ιστορική MV Agusta!
- My Style Rocks: Έξαλλος ο Κουδουνάρης, η αντίδραση της Βασιλικής
- Λαγκάρντ: Προανήγγειλε νέα αύξηση επιτοκίων τον Μάρτιο -Στόχος η μείωση του πληθωρισμού στο 2%