H Google επικαιροποίησε το Universal Speech Model

Το Universal Speech Model (USM) της Google αποτελεί ένα σημαντικό πρώτο βήμα προς τη δημιουργία Τεχνητής Νοημοσύνης, η οποία θα μπορεί να κατανοεί και να μεταφράζει 1.000 γλώσσες. Η εταιρεία, την προηγούμενη βδομάδα, μοιράστηκε λεπτομέρειες για το Universal Speech Model Τεχνητής Νοημοσύνης, το οποίο σχεδιάστηκε για να κατανοεί εκατοντάδες ομιλούμενες γλώσσες.

Το μοντέλο είναι εκπαιδευμένο με 12 εκατ. ώρες ομιλίας και 28 δισ. προτάσεις

κειμένου σε περισσότερες από 300 γλώσσες. Η ομάδα έπρεπε να αντιμετωπίσει δύο προκλήσεις στην αυτόματη αναγνώριση ομιλίας (ASR). Πρώτον, την έλλειψη επεκτασιμότητας με συμβατικές προσεγγίσεις εποπτευόμενης μάθησης.

Δεύτερον, τα μοντέλα πρέπει να βελτιώνονται αποδοτικά, διευρύνοντας τη γλωσσική κάλυψη και ποιότητα, κάτι που απαιτεί ο αλγόριθμος να είναι ευέλικτος, αποτελεσματικός και γενικεύσιμος. Οι πρώτες δοκιμές του μοντέλου σχεδιάστηκαν για να δημιουργούν υπότιτλους σε βίντεο του YouTube και μπορούν να εκτελέσουν αυτόματη αναγνώριση ομιλίας σε 100 γλώσσες.

Μερικές γλώσσες ομιλούνται από λιγότερα από 20 εκατ. άτομα, γεγονός που καθιστά δύσκολη την εύρεση δεδομένων εκπαίδευσης.

(Πηγή: MediaPost)

Keywords
Τυχαία Θέματα