[DeepSchool] Курс CV Rocket [Андрей Шадриков, Дмитрий Раков, Дмитрий Чудаков]

Robot · Четверг в 15:10

Погрузитесь в продвинутый Computer Vision: от сложностей и корнер-кейсов в «обычных» задачах до мультимодальных моделей и дизайна CV-систем

Курс подойдёт CV-инженерам всех грейдов:

Junior - узнаете теорию и закрепите на практике
Middle - систематизируете знания и закроете пробелы
Senior - подсмотрите на практики других команд

Программа:

Лекция каждую неделю.
После каждой темы — домашнее задание с фидбеком от лектора.
Раз в 4−5 недель — Q&A-сессия для разбора вопросов и перерыв на каникулы.

01. Подготовка данных
Разберём основные источники открытых данных: научимся находить и курировать датасеты. Обсудим инструменты для inhouse-разметки и формирование ТЗ, а также внедрение авторазметки
Основные темы:
Data-Centric AI — новый фокус в машинном обучении
Где все берут данные? Как собирать данные из интернета: веб-скрапинг
Разметка данных и инструменты для аннотации (Label Studio, CVAT)
Когда данных нет — создаём сами: синтетические данные и диффузионные модели

02. Получение качественных данных
Научимся не просто собирать данные, а проектировать процесс их получения и поддерживать качество на всех этапах — от сбора до инференса
Основные темы:
Активное обучение для эффективного использования разметки
Оценка и улучшение качества разметки: перекрёстная проверка, foundation-модели
Мониторинг данных в продакшене и обнаружение сдвигов распределения
Как проектировать сбор данных под задачу: сенсоры, триггеры, хранение

03. Секреты успешных архитектур
Разберём устройство современных нейросетей: от свёрточных блоков до трансформеров и адаптивных голов
Основные темы:
Адаптация больших моделей: LoRA, ControlNet, IP-Adapter
Эволюция архитектур: от ResNet к EfficientNet и Vision Transformers
Почему BatchNorm не всегда работает и какие есть альтернативы
Структура нейросети: feature extractor, neck, head

04. Обучение метрики и быстрый векторный поиск
Научимся обучать модели, которые создают осмысленные векторные представления, и эффективно искать по ним в больших базах
Основные темы:
Оценка качества: Precision@K, Recall@K, Closed vs Open set
Быстрый поиск: FAISS, Navigable Small Worlds, хэширование
Angular Loss и ArcFace для улучшения качества эмбеддингов
Metric Learning: обучение расстояний через contrastive и triplet loss

05. Мультимодальные модели
Познакомимся с моделями, объединяющими зрение и язык: от CLIP до современных VLM и retrieval-систем
Основные темы:
Выбор размерности эмбеддингов: Matryoshka Representation Learning
Как обучать мультимодальные модели на парах «изображение–текст»
Принцип работы CLIP и его модификаций (SigLIP, BLIP)

06. Детекция объектов
Разберём эволюцию детекторов: от якорных моделей до трансформеров и openset-подходов
Основные темы:
Openset-детекция с помощью foundation-моделей (Florence, GLEE)
DETR и гибридные архитектуры на основе трансформеров
Anchor-free подходы: CenterNet, YOLO11
One-stage vs two-stage детекторы: SSD, RetinaNet, Faster R-CNN

07. Сегментация
Изучим методы сегментации: от классических U-Net до современных foundation-моделей и работы с высоким разрешением
Основные темы:
Foundation-модели: Segment Anything (SAM) и промптинг
Работа с high-res изображениями и проблемными масками
Архитектуры: U-Net, Mask R-CNN, Mask2Former
Типы сегментации: семантическая, instance, panoptic

08. Optical Character Recognition (OCR)
Разберём современные подходы к распознаванию текста: от классических пайплайнов до мультимодальных VLM
Основные темы:
Выбор стратегии OCR в зависимости от задачи и данных
Современные VLM для OCR: PaliGemma, Qwen-VL, DocVLM
OCR-пайплайн: детекция + распознавание (FAST, CRNN, CTC)

09. Поиск ошибок и интерпретируемость моделей
Научимся отлаживать обучение, находить аномалии и понимать, почему модель принимает те или иные решения
Основные темы:
Интерпретация через attention, Grad-CAM, LIME, ProtoNets
Мониторинг активаций и выходов модели в продакшене
Поиск аномалий: Normalizing Flows, contrastive подходы
Диагностика проблем обучения: NaN, переобучение, плато

10. Self-supervised Learning
Освоим методы обучения без разметки: от pretext-задач до современных SSL-алгоритмов вроде BYOL
Основные темы:
Практические рекомендации: аугментации, batch size, linear evaluation
BYOL: архитектура, EMA, projector/predictor
Pretext-задачи: восстановление, контекст, инвариантность
Зачем нужен SSL и когда он лучше transfer learning

11. Работа с видео
Изучим особенности видеоданных и архитектуры для их обработки: от 3D-CNN до VideoMAE и трансформеров
Основные темы:
Fusion-стратегии для учёта времени
Foundation-модели для видео и их дообучение
Архитектуры: 3D CNN, R(2+1)D, ViViT, VideoMAE
Структура видео: кодеки, FPS, битрейт, I/P-кадры

12. Задачи на видео
Погрузимся в прикладные задачи: трекинг, action recognition и multimodal-анализ
Основные темы:
Трекинг: SORT, Kalman Filter, матчинг, Re-ID
Метрики качества: HOTA, DetA, AssA
Action Recognition: от кадров до позы и аудио

13. Дизайн ML-систем
Научимся проектировать ML-решения как продукты: от формулировки проблемы до выбора метрик и гипотез
Основные темы:
Построение дерева гипотез и метрик для принятия решений
Функциональные и нефункциональные требования к системе
Различие между проектом и продуктом в ML