Ընդհանուր տվյալներ
Այս նախագծի նպատակն է մշակել ծրագրավորման լեզու մոլեկուլների համար, ինչպես նաև ընդլայնել մոլեկուլային մոդելավորման սահմանները՝ օգտագործելով խոշոր լեզվական մոդելներ (LLM), հիմնվելով «Meta»-ի «Galactica»-ի և մեր «BARTSmiles»-ի նման մոդելների հաջողությունների վրա, օգտագործելով հանրային հասանելի տվյալների աղբյուրները, ինչպիսին է, օրինակ, «PubChem»-ը: Մոդելը պետք է ի վիճակի լինի ոչ միայն կանխատեսելու տրված մոլեկուլների տարբեր հատկություններ, այլև գեներացնելու ցանկալի հատկություններով մոլեկուլների բազմազան խմբեր:
Նախագծի շրջանակում կուսումնասիրվի, թե ինչպես կարելի է առավելագույնի հասցնել լեզվականի մոդելի կողմից ստացված գիտելիքները առկա ուսուցման տվյալներից և թե ինչպես արդյունավետ կերպով կիրառել ստացած գիտելիքները յուրաքանչյուր առանձին խնդրի համար: Ի վերջո, մոդելը կկարողանա ընկալել նաև սպիտակուցային հաջորդականություններ, ինչը հնարավորություն կտա բարելավելու մոլեկուլների և սպիտակուցների փոխազդեցությունների մոդելավորման որակը: