x, y, z

Искусственный интеллект научили избегать безвыходных ситуаций

# 29 Ноя 2017 15:58:28
forany.xyz

Искусственный интеллект научили избегать безвыходных ситуаций

Исследователи разработали новый метод обучения алгоритмов, который позволяет наблюдателю реже сбрасывать систему к изначальному состоянию. Для этого они предложили дополнять алгоритмы планировщиком, который анализирует опасность последующих действий, и, в случае, если они могут привести к необратимым последствиям, возвращает систему в исходное состояние, сообщается в работе, опубликованной на arXiv.org.

Машинное обучение позволило в последние годы совершить огромный прогресс во многих областях, например, в создании беспилотных автомобилей. Алгоритмам необходимы большие наборы тренировочных данных и множество попыток, в которых он обучается выполнению задач в разных условиях. Такой подход позволяет получать в результате более эффективные алгоритмы, чем те, чью поведение запрограммировано «вручную», но помимо большого времени обучения это имеет еще один недостаток — нередко алгоритм во время очередной попытки приходит в необратимое состояние, и разработчик должен сбросить его и среду к исходному состоянию.

Группа под руководством Сергея Левина (Sergey Levine) из Google Brain и Калифорнийского университета в Беркли предложила научить алгоритмы самостоятельно решать проблему перезапуска после неуспешного выполнения задачи и минимизировать количество сбросов к исходному состоянию. Основа метода состоит в том, что алгоритм учится не только правильно выполнять поставленную задачу, но и возвращаться из текущего состояния в исходное.

Для этого исследователи предлагают программировать алгоритм таким образом, чтобы его поведение обуславливалось двумя компонентами: планировщиком, отвечающим непосредственно за поставленную задачу, и планировщиком, который определяет, сможет ли алгоритм пройти цепочку действий в обратную сторону. Действие первого планировщика рассматривается как безопасное только в случае, если после него систему можно вернуть в исходное состояние. Если действие ведет к необратимым последствиям, второй планировщик прекращает его. Если же система все же вошла в необратимое состояние, алгоритм может совершить полную перезагрузку окружения и окажется в исходной позиции.


Разработчики продемонстрировали концепцию с помощью простого двуногого агента, передвигающегося по горизонтальной поверхности. На видео можно увидеть два алгоритма: с предложенной системой планирования (справа) и без нее (слева). Можно увидеть, что первый алгоритм замечает яму перед ним и не падает в нее. Также за счет того, что он обучается возврату в исходную позицию, алгоритм самостоятельно возвращается в исходную позицию без необходимости вмешательства наблюдателя.
*Имя:
Заголовок:
[TeX-help] [ted]
  • formulas >

*Вычислите
Captcha
Отправляя данные, вы соглашаетесь с Правилами сайта.