Когда дело доходит до машинного обучения, каждое достижение приурочивается к небольшому празднику. И это особенно актуально для подразделения Google DeepMind, которое уже зарекомендовало себя в этой сфере, победив чемпиона мира в игру Го, имитируя человеческую речь и сократив расходы на питание серверов с помощью искусственного интеллекта. На этот раз команда представила новые методы "усиленного обучения", призванные ускорить процесс самообучения платформ ИИ, - сообщает Robotics.ua.

(Искусственный интеллект и экспертные системы) DeepMind заставляет ИИ учиться ещё быстрее

Принцип обучения


Первое, что стоит отметить, обучаемый агент DeepMind имеет лучшее понимание управления пикселями на экране. Google заявляет, что это происходит подобно тому, как ребенок может научиться контролировать свои руки, перемещая их и наблюдая за движениями. Делая это, он может выяснить лучший способ получить больше очков и выиграть в какой-либо игре. Кроме того, агент теперь может выяснить выгоды от игры на основе прошлого опыта. Обучаясь этому действию гораздо чаще, агент может обнаружить визуальные возможности прогнозирования исхода гораздо быстрее, - говорится в сообщении Google. Компания выложила всю концепцию способностей в работе "Усиленное обучение без просмотра вспомогательных задач".

Эти навыки, наряду с предыдущими методами глубокого усиленного обучения, создают новые группы агентов под названием UNREAL (UNsupervised REinforcement and Auxiliary Learning). Этого достаточно, но DeepMind мечтает добиться того, чтобы ИИ смог учиться всему, так же, как человек.

В игре 3D лабиринта под названием Labryinth Google говорит, что агент UNREAL смог узнать все этапы в десяти раз быстрее, чем прежде. Согласно Robolovers, ему удалось достичь 87 процентов от человеческой производительности в этой игре, и в девять раз превзойти человеческую производительность в Atari.

Читайте также: DeepMind и Blizzard сделают StarCraft II средой для изучения ИИ (+видео)

На первый взгляд, UNREAL должен в значительной степени помочь агентам DeepMind. Но нам придется подождать и посмотреть на то, смогут ли удачи в производительности на самом деле использовать в сценариях вне игры.