Լեզվական մոդելներ մոլեկուլների գեներացման համար

Ծրագրի սկիզբ՝

01-05-2024

Ծրագրի ավարտ՝

01-04-2027

Ծրագրի ղեկավար՝

Հրանտ Հարությունի Խաչատրյան

Ընդհանուր տվյալներ

Ծրագրի կոդ՝

24FP-1A058

Բյուջե՝

54000000

AMD

Այս նախագծի նպատակն է մշակել ծրագրավորման լեզու մոլեկուլների համար, ինչպես նաև ընդլայնել մոլեկուլային մոդելավորման սահմանները՝ օգտագործելով խոշոր լեզվական մոդելներ (LLM), հիմնվելով «Meta»-ի «Galactica»-ի և մեր «BARTSmiles»-ի նման մոդելների հաջողությունների վրա, օգտագործելով հանրային հասանելի տվյալների աղբյուրները, ինչպիսին է, օրինակ, «PubChem»-ը: Մոդելը պետք է ի վիճակի լինի ոչ միայն կանխատեսելու տրված մոլեկուլների տարբեր հատկություններ, այլև գեներացնելու ցանկալի հատկություններով մոլեկուլների բազմազան խմբեր:

Նախագծի շրջանակում կուսումնասիրվի, թե ինչպես կարելի է առավելագույնի հասցնել լեզվականի մոդելի կողմից ստացված գիտելիքները առկա ուսուցման տվյալներից և թե ինչպես արդյունավետ կերպով կիրառել ստացած գիտելիքները յուրաքանչյուր առանձին խնդրի համար: Ի վերջո, մոդելը կկարողանա ընկալել նաև սպիտակուցային հաջորդականություններ, ինչը հնարավորություն կտա բարելավելու մոլեկուլների և սպիտակուցների փոխազդեցությունների մոդելավորման որակը: