Когда Microsoft выпустила Kinect, первую широко доступную камеру глубины, художники и создатели быстро устремились к ней, узнав, как получить доступ к данным глубины камеры и способности захватывать движения человека. Результатом стало множество новых проектов, в которых использовался интерфейс, не требующий экрана, кнопок или мыши.
После первоначального успеха экспериментов с Kinect сообществом производителей зашло в тупик, поскольку многие инструменты с открытым исходным кодом, окружающие устройство, перестали разрабатываться или были внедрены в запатентованные технологии, такие как iPhone или Hololens от Microsoft.
Выпуск Luxonis Oak-D (сокращение от «OpenCV AI Kit») может стать преемником Kinect, который нужен сообществу производителей, чтобы снова создавать роботов, интерфейсы и предметы искусства, которые могут легко интерпретировать свое окружение. Камера, основанная на инструментах с открытым исходным кодом, таких как OpenCV, использует многие достижения в области компьютерного зрения с момента выпуска Kinect, позволяя пользователю интегрировать различные модели машинного обучения, которые не только помогают разработчикам определять позы и местоположение, но и идентифицировать типы объектов. объекты, эмоции и другие задачи компьютерного зрения.

Офсетные линзы
Oak-D состоит из трех камер: две предназначены для стереовидения, которые помогают определять точное местоположение объектов в трехмерном пространстве, и третья, обеспечивающая цветное изображение 4K. В отличие от других камер глубины, которые могут использовать структурированный свет (проецирование сетки на объект, чтобы увидеть, как он деформируется) или время полета (измерение времени, которое требуется свету, чтобы пройти к объекту и от него), Oak-D работает во многом так же, как наша. мозг делает это, измеряя разницу между расстоянием от наших глаз.
Компьютерное зрение
Что делает Oak-D действительно гибким инструментом, так это чип Intel MyriadX, который синтезирует эти изображения и обеспечивает обработку выводов машинного обучения. Помимо глубины, MyriadX позволяет Oak-D распознавать объекты, выражения лица или любую модель машинного обучения, которую выбирает пользователь. Это также означает, что, хотя вам все равно понадобится компьютер для управления камерой, MyriadX сможет справиться с большей частью тяжелой работы. Вместо настольного компьютера с высокопроизводительной видеокартой вы можете запустить его с помощью Raspberry Pi.
Тестируем
Я пробовал Oak-D на ноутбуке Mac и Raspberry Pi 3. За исключением некоторых незначительных различий в установке, процесс разработки на разных устройствах относительно схож. Обе системы работали примерно с одинаковой частотой кадров в секунду, чего и следовало ожидать, учитывая, что большую часть обработки выполняет чип MyriadX. Гибкость использования нескольких систем для разработки упрощает рабочий процесс: вы можете создавать и настраивать свой код на ноутбуке или настольном компьютере и переходить на одноплатный компьютер, такой как Pi, когда вы будете готовы к развертыванию. Luxonis предоставляет пошаговые инструкции по началу работы на Mac, Pi, других системах Linux, а также на компьютерах с Windows.
-
Изображение -
Изображение -
Изображение -
Изображение -
Изображение -
Изображение
Разработка Oak-D осуществляется с помощью Python и библиотеки интерфейса Luxonis DepthAI. Python - язык, который выбирают многие разработчики машинного обучения, что упрощает интеграцию существующих инструментов и моделей машинного обучения в ваш проект. Если вы новичок в разработке Python, вам может потребоваться некоторое время, чтобы привыкнуть к использованию виртуальных сред и управлению пакетами, но синтаксис довольно прост. Также было бы полезно иметь некоторое представление о том, как работают и разрабатываются модели машинного обучения, но вы можете начать с опробования различных моделей, подготовленных Luxonis для Oak-D. Некоторое знакомство с командной строкой Linux также будет полезно для настройки среды Python и работы с камерой.
Вынос
Документация Luxonis к камере проста, но немного неорганизована. Как только я нашел их Python API, я смог легко приступить к работе и изучить различные функции. Их демонстрационный проект DepthAI достаточно гибок, чтобы вы могли опробовать большинство функций камеры и множество моделей машинного обучения для различных задач без написания кода. Однако вам придется проанализировать некоторые модификаторы командной строки, чтобы в полной мере воспользоваться преимуществами этого сценария. Чтобы сделать любой проект по-настоящему своим, вам нужно погрузиться в код Python, настроить параметры и, в конечном итоге, написать свои собственные сценарии.
Демонстрационные проекты Luxonis предоставляют ряд моделей машинного обучения для тестирования камеры, но вы также можете получить больше благодаря проекту OpenVINO и его зоопарку открытых моделей. OpenVINO помогает оптимизировать модели для эффективной работы на чипе MyriadX. Мне удалось запустить распознавание лиц, распознавание эмоций, распознавание объектов, а также несколько моделей распознавания поз человека, все из которых оказались довольно точными. Когда я двигался быстрее, была задержка в распознавании поз примерно на секунду.
Как и у всех моделей компьютерного зрения, у них могут быть свои «слепые зоны». Оригинальный Kinect не очень хорошо распознавал людей с разными типами телосложения, и многие модели машинного обучения показали предвзятость в отношении людей разных рас и оттенков кожи. Oak-D не решает эту проблему, но, позволяя вам решать, что будет работать на устройстве, у вас будет больше шансов изменить это, чем на более закрытых устройствах.
Благодаря такой гибкости вам также придется приложить больше усилий, чтобы заставить устройство выполнять ваши приказы. Тем, кто новичок в Python, командной строке или машинном обучении, может потребоваться немного больше времени, чтобы приступить к работе. Но если вы готовы к испытаниям, это устройство - мощный и гибкий способ увидеть мир вокруг вас.

Цена: $299
Размеры: 4,25″×2,25″x1,25″
Тактовая частота: процессор 1,43 ГГц, графический процессор 921 МГц
Процессор: визуальный процессор Intel Myriad X, 700 МГц
Камеры
- 2 датчика OV9282, 1280 x 720 пикселей, фиксированный фокус 19,6 см-бесконечность
- 1 Датчик IMX378 4K, видео 60 Гц, 4056 x 3040 пикселей, автофокус 8 см - бесконечность
Память: 2 ГБ 64-битный LPDDR4
Вход: USB-C
Входное напряжение: 5 В, 3 А