Η Apple θέλει να αποθηκεύσει LLMs στη μνήμη flash για να φέρει την AI σε κινητά και φορητούς υπολογιστές

Η Apple εδώ και καιρό πειραματίζεται με τα μεγάλα γλωσσικά μοντέλα (LLM) που αποτελούν την κινητήριο δύναμη των περισσότερων σημερινών εφαρμογών τεχνητής νοημοσύνης.

Τώρα, μαθαίνουμε ότι η εταιρεία επιθυμεί να θέσει τα συγκεκριμένα μεγάλα γλωσσικά μοντέλα στην υπηρεσία των χρηστών των υπηρεσιών και συσκευών της με τον καλύτερο δυνατό τρόπο ωστόσο πρόκειται για ένα αρκετά δύσκολο έργο καθώς απαιτούνται πολλοί πόροι, τόσο υπολογιστικοί όσο

και μνήμης.

Παραδοσιακά, τα LLMs απαιτούν επιταχυντές AI σε συνδυασμό με αρκετή ποσότητα DRAM για την αποθήκευση των βαρών (weights) των μοντέλων. Όμως πρόσφατα, η Apple δημοσίευσε ένα έγγραφο που αποκαλύπτει ότι η εταιρεία σκοπεύει να φέρει μεγάλα γλωσσικά μοντέλα σε συσκευές με περιορισμένη ποσότητα μνήμης. Με την αποθήκευση των LLMs σε μνήμη τύπου flash NAND, η μέθοδος περιλαμβάνει την κατασκευή ενός βασικού μοντέλου συμπερασματολογίας που εναρμονίζεται με τη συμπεριφορά της μνήμης flash καθοδηγώντας τη βελτιστοποίηση σε δύο κρίσιμους τομείς: στη μείωση του όγκου των δεδομένων που μεταφέρονται από τη μνήμη flash και την ανάγνωση δεδομένων σε μεγαλύτερα συνεχόμενα κομμάτια. Επίσης, αντί τα βάρη του μοντέλου να αποθηκεύονται στη μνήμη DRAM, η Apple θέλει τη μνήμη flash να χρησιμοποιείται για την αποθήκευση των βαρών, τα οποία στη συνέχεια μπορεί να τα τραβάει «κατά παραγγελία» στην DRAM μόνο όταν κριθεί απαραίτητο.

Στο framework της Apple που βασίζεται στη μνήμη flash παρουσιάζονται δύο βασικές τεχνικές: η μία ονομάζεται «windowing» και η άλλη «row-column bundling». Οι δύο συγκεκριμένες μέθοδοι επιτρέπουν στο σύνολο τους την εκτέλεση μοντέλων έως και διπλάσιου μεγέθους από το μέγεθος της διαθέσιμης DRAM, με 4-5x και 20-25x αύξηση της ταχύτητας εξαγωγής συμπερασμάτων (inference) σε σύγκριση με τις προσεγγίσεις εγγενούς εκφόρτωσης σε επεξεργαστή και κάρτα γραφικών αντίστοιχα.

Ενσωματώνοντας sparsity awareness, context-adaptive loading και hardware-oriented σχεδιασμό ανοίγει ο δρόμος για την πρακτική εφαρμογή της συμπερασματολογίας των μεγάλων γλωσσικών μοντέλων σε συσκευές με περιορισμένη μνήμη όπως είναι τα SoCs με 8, 16 ή 32 GB διαθέσιμης μνήμης DRAM. Ειδικά με τις τιμές της DRAM να ξεπερνούν κατά πολύ τις τιμές NAND Flash, ορισμένες συσκευές με περιορισμένη μνήμη, όπως είναι τα smartphones, θα μπορούσαν εύκολα να αποθηκεύσουν LLMs με πολλά δισεκατομμύρια παραμέτρους, ακόμη και αν η διαθέσιμη DRAM δεν επαρκεί για τη συγκεκριμένη δουλειά. Αν θέλετε να εμβαθύνετε περισσότερο στην τεχνολογία που προτείνει η Apple μπορείτε να διαβάσετε το σχετικό έγγραφο εδώ. 


Διαβάστε ολόκληρο το άρθρο

Keywords
Τυχαία Θέματα