Общая информация
В этой работе мы стремимся сосредоточиться на разработке и предварительном обучении базовых моделей зрения и моделей зрение-язык, адаптированных для приложений в области воздушной робототехники. Наша основная цель — создать надежную модель, способную понимать и интерпретировать аэрофотоснимки, в частности для задач, связанных с воздушной робототехникой. Это включает, но не ограничивается, навигацией дронов через единый запрос и сенсорные данные, а также обнаружением изменений, охватывающим важные задачи по сохранению окружающей среды и надзору. Традиционно обучение моделей компьютерного зрения для обработки аэрофотоснимков требует значительных усилий на ручную разметку. В ответ на эту проблему наш подход направлен на снижение нагрузки на разметку с помощью использования передовых методов предварительного обучения.