Избранное

Итак, есть новая модель искусственного интеллекта, которая может выполнять автономное вождение от начала до конца, генерируя команды на естественном языке для контроллера низкого уровня, что в основном означает, что она может управлять автомобилем, разговаривая с ним.

Эта система может понимать и следовать любым инструкциям, которые вы ей даете, таким как поворот налево на следующем перекрестке, парковка возле синего здания или избегание пешеходов. Она также может отвечать на любые вопросы о своих действиях, например, почему вы замедлились? Какая здесь предельная скорость? Или насколько мы далеко от нашего пункта назначения? Звучит невероятно, верно? Ну, эта система называется Drive GPT-4, и она является первой в своем роде, использующей многомодальную модель большого языка для автономного вождения от начала до конца.

Drive GPT-4 - это в основном система, которая объединяет компьютерное зрение и обработку естественного языка для создания интерпретируемого и интерактивного автономного водителя. Она использует многомодальную модель большого языка в качестве своего "мозга", что означает, что она также может обрабатывать и анализировать не текстовые данные, такие как изображения и видео в режиме реального времени. Это крайне важно для автомобилей с автономным управлением, поскольку им необходимо визуально понимать все вокруг себя, чтобы ездить безопасно.

Например, автомобилю необходимо распознавать дорожные знаки, разметку полос движения, состояние дорог и другие транспортные средства или объекты вокруг него.Кроме того, важно, чтобы автомобиль имел четкую коммуникацию с пассажирами и другими водителями на дороге. Он должен быть способен объяснить свои действия, давать обратную связь и отвечать на любые вопросы естественным и понятным образом. Как же Drive GPT-4 достигает этой многомодальной возможности? Она использует визуальный кодировщик и модель большого языка в качестве основных компонентов, которые связаны механизмом внимания, позволяющим им обмениваться информацией в обоих направлениях. Это означает, что модель большого языка может обращаться к визуальным особенностям входного изображения или видеокадра, а визуальный кодировщик может обращаться к текстовым особенностям входного текста.

Таким образом, система может научиться выравнивать визуальные и текстовые модальности и выполнять многомодальные задачи. Для изучения того, как Drive GPT-4 выполняет свои функции, исследователи использовали несколько метрик и наборов данных. Они сравнили Drive GPT-4 с традиционными методами и другими моделями большого языка для понимания видео в задачах, таких как распознавание действий, обнаружение действий и предвидение действий. Они также протестировали Drive GPT-4 на симуляторе реального вождения и на реальном автомобиле.

Результаты были впечатляющими. Drive GPT-4 превзошел все остальные методы по большинству метрик и наборов данных. Он также показал высокую устойчивость и способность к обобщению в различных условиях и сценариях вождения. Он мог следовать сложным инструкциям, таким как выбор второго выезда на кольцевой дороге, слияние в левую полосу после обгона грузовика и езда вдоль побережья до тех пор, пока вы не увидите маяк.

Отвечайте на различные вопросы, такие как "Как называется этот мост?", "Сколько машин перед нами?" и "Какая сегодня погода?". Цель здесь - иметь автомобиль, который понимает вас и взаимодействует с вами естественным образом, делая автономное вождение доступным и безопасным. GPT-4 показал способность водить автомобиль самостоятельно, используя только естественный язык для взаимодействия. Это делает опыт автономного вождения более понятным и приятным.

Автор: Ольга Муравьева

Комментарии