Общая информация
Целью этого проекта является разработка «языка программирования» для молекул. Мы стремимся расширить границы молекулярного моделирования с использованием моделей больших языковых моделей (LLM), опираясь на успех таких моделей, как Meta’s Galactica и наш BARTSmiles, используя общедоступные источники данных, такие как PubChem. Модель должна быть способна не только предсказывать различные свойства данных молекул, но и генерировать разнообразные наборы молекул с желаемыми свойствами. Мы изучим способы максимизировать знания, полученные LLM из обучающих данных, и эффективно извлекать полученные знания для каждого приложения. В конечном итоге модель сможет обрабатывать также белковые последовательности, чтобы улучшить моделирование взаимодействий между молекулами и белками.