Kutatók szerint az OpenAI fizetős könyveken képezte ki a GPT-4o-t
Egy mesterséges intelligenciát vizsgáló nonprofit szervezet, az AI Disclosures Project azt vizsgálta mennyire legálisan megszerzett adathalmazból tanította az OpenAI legújabb modelljét, a GPT-4o-t.
A szervezet tanulmányát író kutatók az O'Reilly Media 34, szerzői jogvédelem alatt álló, de általuk legálisan használt adathalmaz segítségével vizsgálták az OpenAI nyelvi modelljeit. A GPT-4o (AUROC-pontszám 82 százalék) az OpenAI korábbi GPT-3.5 Turbo modelljéhez (AUROC-pontszám 64 százalék) képest nagyon is felismeri a fizetős O'Reilly könyvek tartalmát, míg a GPT-3.5 Turbo jobban teljesít a nyilvánosan hozzáférhető O'Reilly könyvminták esetében.
A jelentés szerint ezek az eredmények rávilágítanak arra, hogy sürgősen növelni kell a vállalatok átláthatóságát. Ez mindenképp szükséges, ahhoz, hogy megfelelően szabályozott hivatalos keretek között működhessenek az MI-cégek.
Bár az jelentés szerint ezek a bizonyítékok az OpenAI-ra és az O'Reilly Media könyveire vonatkoznak, valószínűleg rendszerszintű problémáról van szó. Tekintettel arra, hogy az AI-modellek képzésére és naprakészségéhez jó minőségű, fizetős adatokra van szükség, erre a piacnak is fel kell készülnie.
Ha nem foglalkoznak vele, a szellemi tulajdonjogok mostani figyelmen kívül hagyása végső soron maguknak az MI fejlesztőinek is rossz, még akkor is, ha ők esetleg megengedettnek tekintik a felhasználást. A szervezet szerint olyan fenntartható rendszereket kell kialakítani, amelyekből mind az alkotók, mind a fejlesztők profitálhatnak.