Root NationJaunumiIT laikrakstsIBM izveidoja Project CodeNet datu kopu: 14 miljoni kodu paraugu iemācīs AI programmēt

IBM izveidoja Project CodeNet datu kopu: 14 miljoni kodu paraugu iemācīs AI programmēt

-

Vienība IBM Mākslīgā intelekta (AI) pētījumā tika piedāvāta datu kopa ar 14 miljoniem paraugu, lai izstrādātu mašīnmācīšanās modeļus, kas var palīdzēt programmēšanas uzdevumos. Datu kopa ar nosaukumu Projekts CodeNet, savu nosaukumu aizguvis no ImageNet — slavenās attēlu krātuves, kas radīja revolūciju datora redzēšanā un dziļās mācībās.

Programmētāji atklāj jaunas problēmas un pēta dažādus risinājumus, izmantojot daudzus apzinātas un zemapziņas domāšanas mehānismus. Lielākajai daļai mašīnmācīšanās algoritmu ir nepieciešami precīzi definēti uzdevumi un liels daudzums anotētu datu, lai izstrādātu modeļus, kas var atrisināt tās pašas problēmas.

IBM projekts CodeNet
Project CodeNet ir milzīga datu kopa ar ~ 14 miljoniem kodu piemēru, kas izkaisīti desmitiem programmēšanas valodu.

Ir ieguldīts daudz pūļu, lai izveidotu datu kopas un etalonus, lai ekspertu kopiena izstrādātu un novērtētu AI for-code sistēmas. Taču, ņemot vērā programmatūras izstrādes radošo un beztermiņa raksturu, ir ļoti grūti izveidot perfektu datu kopu programmēšanai. Izmantojot Project CodeNet, IBM pētnieki mēģināja izveidot daudzfunkcionālu datu kopu, ko var izmantot, lai apmācītu mašīnmācības modeļus dažādu uzdevumu veikšanai. CodeNet veidotāji to raksturo kā "ļoti liela mēroga, daudzveidīgu un augstas kvalitātes datu kopu, lai paātrinātu algoritmiskos sasniegumus AI kodam."

Datu kopā ir 14 miljoni piemēru 500 miljoniem koda rindiņu, kas rakstītas 55 dažādās programmēšanas valodās. Kodu paraugi tika iegūti no gandrīz 4000 iesniegtajiem uzdevumiem, kas ievietoti AIZU un AtCoder tiešsaistes kodēšanas platformās. Kodu piemēri ietver gan pareizas, gan nepareizas atbildes uz dotajiem uzdevumiem.

Interesanti arī:

Viena no CodeNet galvenajām iezīmēm ir piemēriem pievienoto anotāciju daudzums. Katram no datu kopā iekļautajiem kodēšanas uzdevumiem ir teksta apraksts, kā arī CPU laika un atmiņas ierobežojumi. Katrs iesniegtais kods satur duci informācijas, tostarp valodu, iesniegšanas datumu, lielumu, izpildes laiku, pieņemšanu un kļūdu veidus. IBM pētnieki arī pielika daudz pūļu, lai nodrošinātu, ka datu kopa ir līdzsvarota starp dažādiem parametriem, tostarp programmēšanas valodu, pieņemamību un kļūdu veidiem.

IBM projekts CodeNet

CodeNet nav vienīgā datu kopa mašīnmācīšanās modeļu apmācībai programmēšanas uzdevumos. Bet ir vairākas īpašības, kas to atšķir. Pirmais ir datu kopas milzīgais lielums, tostarp paraugu skaits un valodu daudzveidība. Bet varbūt svarīgāki ir metadati, kas tiek piegādāti kopā ar koda paraugiem. CodeNet pievienotās bagātīgās anotācijas padara to piemērotu dažādiem uzdevumu kopumiem, atšķirībā no citām kodēšanas datu kopām, kas specializējas konkrētos programmēšanas uzdevumos.

Ir vairāki CodeNet izmantošanas veidi. Viens no tiem ir valodas tulkošana. Tā kā katrs datu kopas kodēšanas uzdevums satur dažādu programmēšanas valodu attēlojumus, datu zinātnieki var to izmantot, lai izveidotu mašīnmācīšanās modeļus, kas tulko kodu no vienas valodas uz citu. Tas var būt ērti organizācijām, kas vēlas pārnest veco kodu uz jaunām valodām un padarīt tos pieejamus jaunām programmētāju paaudzēm.

Lasi arī:

Pierakstīties
Paziņot par
viesis

2 komentāri
Jaunākās
Vecākie Vispopulārākais
Iegultās atsauksmes
Skatīt visus komentārus
Viktors
Viktors
pirms 2 gadiem

Tradīcijām un iedzimtībai jāsaspēlējas ar atšķirīgu domāšanu, ar jaunāko paaudžu neironu algoritmiem un problēmu izvirzīšanas ML metodēm, savstarpēji pilnveidojot viena otru.

Aasd
Aasd
pirms 2 gadiem

Ar laiku programmētāju līmenis vēl vairāk pazemināsies (salīdzinot ar tagadējo). Tas ir, "sūdu valodā" varēs rakstīt slīpu, greizu kodu. Un tad iekārta tiks optimizēta, un jūs galu galā varēsit iegūt profesionāla montētāja programmētāja optimizēto kodu (vai pat labāku).