Аналитик-исследователь/ Data Scientist в команду нейросетевой оптимизации

Автономная технология

Москва
Продолжительность рабочего дня может меняться
Гибкий график
Офис

Navio — разработчик технологии автономного вождения, совместимой с различными видами транспорта: от легковых автомобилей до грузовиков.

Navio объединяет культуру автопроизводителей и ИТ-компаний. Каждый день мы работаем над тем, чтобы доставка грузов стала быстрее и эффективнее, а городской транспорт — безопаснее и комфортнее.

Ключевое направление работы Navio — создание универсальной автономной технологии, включающей ПО и аппаратные решения, научные исследования, уникальный процесс тестирования и экосистему сервисов для обработки данных и управления автономным флотом автомобилей.

О команде:

Мы создаем технологии автономного вождения. У нас накоплены петабайты данных с проездов, которые нужно превратить в полезный датасет для обучения.

Твоя задача — не просто сидеть в Jupyter, а провести анализ и реализовать пайплайны для тегирования сложных дорожных ситуаций.

Чем предстоит заниматься:

Разработка пайплайнов и эвристик: разработка пайплайнов с использованием методов математической статистики, Машинное обучение/нейросетевые модели, компьютерное зрение, большие языковые модели/визуальные языковые модели и программирования (Python, SQL) для тегирования данных;
Пайплайны обработки данных: оборачивание разработанных алгоритмов обработки в воспроизводимые пайплайны для массовой обработки исторических и новых данных (Dagster);
Работа с данными: организация эффективного чтения/записи результатов в S3, версионирование экспериментов и датасетов через ClearML.

Что мы ждем от кандидата:

Python & Машинное обучение & Компьютерное зрение:
- отличное знание Python, PyTorch;
- база по компьютерному зрению (детектирование, сегментация, трекинг объектов).
Работа с данными:
- опыт обработки больших объёмов данных: pandas, numpy, Scikit-learn, XGBoost, SQL или аналоги;
- опыт использования библиотек визуализации (Matplotlib, Seaborn);
- умение работать с Docker.
Инструментарий:
- опыт работы с системами трекинга экспериментов (ClearML / MLFlow);
- опыт работы с оркестраторами: Dagster;
- JupyterHub, как среда для прототипирования.

Будет плюсом:

Машинное обучение: понимание архитектур трансформеров и опыт работы с большими языковыми моделями/визуальными языковыми моделями (CLIP, LLaVA, GPT-4V API или open-source аналоги);
Опыт в автономном вождении: понимание сенсорики (лидар, радар, камера) и специфики данных (rosbag, pcap и т.д.);
Инженерия данных: опыт работы с Spark для препроцессинга данных, ClickHouse/Metabase для поиска и записи данных.