Лoндoнскaя кoмпaния DeepMind, дoчeрнee прeдприятиe Alphabet, сoздaлa систeму oбучeния MuZero, кoтoрaя пoбeждaeт в шaxмaтax и другиx игрax дaжe бeз знaния прaвил.
Oб этoм сooбщaeт Укринфoрм сo ссылкой держи Spectrum.
Издание отмечает, почему система тренируется действие после действием и "наблюдает" после наградами, которые она получает истечении (года) этого. Например, в шахматах — сие поставить мат, а в Pac Man — проглотить желтую точку. Следом она меняет методы зрелище, чтобы как можно эффективнее почерпнуть вознаграждение, то есть улучшает близкие навыки.
Этот вид обучения порядком наблюдения подходит для любого искусственного интеллекта, какой сталкивается со сложными проблемами. За вычетом абстрактных игр в реальном мире их как и достаточно.
Томас Хуберт, Вотан из соавторов статьи в Nature, сообщил, подобно как исследователи развивают систему обучения, воеже она могла сжать размер видео. Середь других планов применения — самоуправляемые аппаратура и дизайн белков, что довольно следующим шагом после технологии сборки белков (которую как-то освоила дочерняя программа AlphaFold). Целью может жить(-быть разработка фармацевтического препарата сверху основе белка, который приходится действовать на вирус либо рецептор на поверхности клетки.
Колода DeepMind получила славу по причине AlphaGo — системе обучения, победившей в игре Го чрез (год) тренировок в миллионах игр уровня мастера. В 2018 году у них своя свад выпустила AlphaZero, которая научилась одержать победу в игре в шахматы и Го не принимая во внимание тренировки на мастер-играх и советов. Прерогатива MuZero среди других систем в фолиант, что ей даже безлюдный (=малолюдный) нужно показывать правила, затем чтобы она победила в игре.