Elon Musk susține că toate datele umane pentru antrenarea inteligenței artificiale au fost deja "epuizate".
Companiile de inteligență artificială au rămas fără date pentru antrenarea modelelor lor și au „epuizat” suma cunoștințelor umane, a declarat Elon Musk.
Cea mai bogată persoană din lume a sugerat că firmele de tehnologie vor trebui să recurgă la „date sintetice” – sau materiale create de modele de inteligență artificială – pentru a construi și a perfecționa noi sisteme, un proces care are deja loc în contextul acestei tehnologii în plină dezvoltare.
„Suma cumulativă a cunoștințelor umane a fost epuizată în procesul de antrenare a inteligenței artificiale. Acest lucru s-a întâmplat, practic, anul trecut,” a declarat Elon Musk, care și-a lansat propria afacere în domeniul inteligenței artificiale, xAI, în 2023.
Modele de inteligență artificială, precum GPT-4, care alimentează chatbot-ul ChatGPT, sunt „antrenate” folosind o gamă vastă de date preluate de pe internet. Acest proces le permite să identifice tipare în informațiile respective și să prezică, de exemplu, cuvintele care urmează într-o propoziție.
Vorbind într-un interviu transmis în direct pe platforma sa de socializare, X, Musk a afirmat că „singura modalitate” de a contracara lipsa de material sursă pentru antrenarea noilor modele este trecerea la date sintetice create de inteligența artificială.
Referindu-se la epuizarea bazelor de date, Musk a declarat: „Singura modalitate de a suplimenta acest lucru este utilizarea datelor sintetice, unde ... inteligența artificială va scrie, de exemplu, un eseu sau va concepe o teză, apoi își va evalua singură munca și ... va trece prin acest proces de auto-învățare.” Practic, tehnologia va începe în curând să învețe din propriile concluzii și descoperiri, depășind bagajul de informații preluat de la oameni. Astfel, avansul tehnologic și științific ar putea accelera la niște culmi care acum sunt foarte greu de estimat, modelând decisiv viitorul umanității. Oamenii ar putea scurta zeci de ani de cercetare prin intermediul AI-ului ce evaluează date sintetice.
Meta, compania care deține Facebook și Instagram, a utilizat date sintetice pentru a perfecționa cel mai mare model AI al său, Llama, în timp ce Microsoft a folosit conținut generat de AI pentru modelul său Phi-4. De asemenea, Google și OpenAI, compania din spatele ChatGPT, au integrat date sintetice în activitatea lor de dezvoltare a inteligenței artificiale.
Cu toate acestea, Musk a avertizat că tendința modelelor de AI de a genera „halucinații” – un termen folosit pentru a descrie răspunsuri inexacte sau fără sens – reprezintă un pericol pentru procesul de utilizare a datelor sintetice.
În interviul transmis în direct cu Mark Penn, președintele grupului de publicitate Stagwell, Musk a declarat că halucinațiile au făcut ca procesul de utilizare a materialului artificial să fie „provocator”, deoarece „cum poți ști dacă ... a halucinat răspunsul sau dacă este un răspuns real?”.
Andrew Duncan, directorul diviziei de inteligență artificială fundamentală de la Institutul Alan Turing din Marea Britanie, a declarat că observațiile lui Musk se potrivesc cu un studiu academic recent, care estimează că datele disponibile public pentru modelele de AI ar putea fi epuizate până în 2026. El a adăugat că o dependență excesivă de date sintetice ar putea duce la „colapsul modelului”, un termen care se referă la deteriorarea calității rezultatelor generate de modele.
„Când începi să alimentezi un model cu materiale sintetice, începi să obții randamente în scădere,” a explicat Duncan, subliniind riscul ca rezultatele să fie părtinitoare și lipsite de creativitate.
Duncan a mai menționat că dezvoltarea conținutului generat de AI în online ar putea duce la includerea acestor materiale în seturile de date utilizate pentru antrenarea modelelor.
Datele de înaltă calitate și controlul asupra acestora reprezintă unul dintre punctele de dispută în era expansiunii AI. OpenAI a recunoscut anul trecut că ar fi imposibil să creeze instrumente precum ChatGPT fără acces la materiale protejate de drepturi de autor, în timp ce industriile creative și editorii cer despăgubiri pentru utilizarea conținutului lor în procesul de antrenare a modelelor, confrom The Guardian.
Fiți la curent cu ultimele noutăți. Urmăriți DCNews și pe Google News
de Anca Murgoci
de Anca Murgoci