AlphaZero (AlphaZero)

AlphaZero — нейронная сеть, разработанная компанией DeepMind, которая использует обобщённый подход AlphaGo Zero. 5 декабря 2017 года коллектив DeepMind выпустил препринт программы AlphaZero, которая после тренировки в течение 24 часов смогла победить чемпионов мира среди программ по играм в шахматы, сёги и го (Stockfish, Elmo и трехдневный вариант AlphaGo Zero соответственно^[1]). Таким образом, в настоящее время искусственный интеллект AlphaZero является сильнейшей из всех программ для игр в сёгу и го. В шахматы силу AlphaZero нельзя оценить на данный момент, по причине нехватки партий, они не игрались с 2017 года.

Отличия от AlphaGo Zero

AlphaZero (AZ) — это более обобщенный вариант алгоритма AlphaGo Zero (AGZ), который, кроме го, умеет также играть в сёги и шахматы. Различия между AZ и AGZ заключаются в том, что:

AGZ имеет жёстко заданные правила для установленного поиска гиперпараметров.
Нейронные сети обновляются постоянно.
Го (в отличие от шахмат) симметрична относительно определённых отражений и поворотов; AGZ был запрограммирован так, чтобы воспользоваться этими симметриями, AZ — нет.
Партии в шахматы и сёги (в отличие от Го) могут закончиться вничью, поэтому AZ должна учитывать возможность ничейного исхода игры.

AlphaZero против Stockfish и Elmo

В то время как традиционные программы оценивают позиции в игре по признакам на основе опыта гроссмейстеров, AlphaZero использует для оценки глубокие нейронные сети, что требует больше времени на одну позицию. AlphaZero анализирует лишь 80 000 позиций на секунду в шахматах и 40 000 в сёги, по сравнению с 70 миллионов для Stockfish и 35 миллионов для Elmo. AlphaZero компенсирует низкое количество оценок в секунду использованием поиска Монте-Карло, таким образом, сосредотачиваясь гораздо более избирательно на наиболее перспективных вариантах.

Результаты

Шахматы

В шахматных партиях AlphaZero против Stockfish 8 каждая программа имела по одной минуте времени на ход. AlphaZero имела лучшее компьютерное оборудование относительно Stockfish. Из 100 игр с нормального начального положения AlphaZero выиграл 25 партий белыми, 3 чёрными и свёл вничью оставшиеся 72.^[2]

Сёги

В ста играх в сёги против Elmo AlphaZero выиграл девяносто раз, восемь раз проиграл и две партии завершились вничью.

Го

После 8 часов самостоятельного обучения игры в го, в матчах против предыдущей версии AlphaZero, AlphaZero выиграл шестьдесят игр и проиграл сорок.

Критика

Некоторые гроссмейстеры, такие как Хикару Накамура и создатель Комодо Ларри Кауфман, подчеркнули, что силу AlphaZero не надо преувеличивать, утверждая, что результаты матча были бы другими, если бы программа имела доступ к дебютным базам (поскольку Stockfish был оптимизирован под этот сценарий)^[3]. AlphaZero победила Stockfish, лишив последнего доступа к дебютным базам и эндшпильным таблицам, играя с намного лучшим компьютерным оборудованием, чем у противника^[4]^[5]. Stockfish также была ограничена по времени принятия хода: нетипичный контроль времени, 1 минута на ход, не позволял глубоко задумываться в критических позициях. Кроме того, использовалась версия Stockfish 8, вышедшая год назад. Все четыре обстоятельства: нехватка мощности, ограничение по времени, отключение дебютной книги и использование устарелой версии внесли свой вклад в поражение Stockfish.

Сообщество программистов компьютерной игры в сёги также не полностью удовлетворено условиями матча AlphaZero — Elmo.^[6]^[7]

Статья в Science

DeepMind опубликовала в декабре 2018 г. статью в журнале Science^[8]. AlphaZero работал не на суперкомпьютере, а на 4 TPU и CPU с 44 ядрами.

Шахматы

Был использован движок Stockfish 8 на компьютерной мощности, аналогичной AlphaZero. Контроль времени — 3 часа плюс 15 секунд на ход. Из 1000 партий AlphaZero выиграл 155 партий, 6 проиграл, остальные закончились вничью. В серии игр с заданными начальными положениями AlphaZero выиграл 95 партий из 100.^[9]

Сёги

AlphaZero выиграл 98,2 % партий чёрными и 91,2 % из всех.

Реакция

Газеты вышли с заголовками, что обучение шахматам заняло только четыре часа: «это было сделано за время чуть большее, чем промежуток между завтраком и обедом»^[10]. Wired раскрутили AlphaZero как «первый искусственный интеллект, который является чемпионом многих настольных игр»^[11].

«Мне всегда было интересно, как это будет, когда высшие существа приземлятся на землю и покажут нам, как они играют в шахматы», — заявил датский гроссмейстер Питер Хейне Нильсен в интервью Би-би-си, «теперь я знаю». Норвежский гроссмейстер Йон Людвиг Хаммер охарактеризовал AlphaZero как «сумасшедшие атакующие шахматы» с глубокой позиционной игрой. Бывший чемпион мира Гарри Каспаров сказал: «это замечательное достижение, даже несмотря на то, что мы уже ожидали нечто подобное после успехов AlphaGo»^[12].

Гарри Каспаров назвал эту игру «шахматами из другого измерения», которые «потрясли [игру] до самого основания»^[13].

Примечания

↑ Silver, David; et al. (2017-12-05). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI]. {{cite arXiv}}: Явное указание et al. в: |last2= (справка)
↑ "'Superhuman' Google AI claims chess crown". BBC News. 2017-12-06. Архивировано 8 декабря 2017. Дата обращения: 7 декабря 2017.
↑ "Google's AlphaZero Destroys Stockfish In 100-Game Match". Chess.com. Архивировано 7 декабря 2020. Дата обращения: 7 декабря 2017.
↑ Knapton, Sarah (2017-12-06). "Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours" (англ.). Telegraph.co.uk. Архивировано 7 декабря 2017. Дата обращения: 6 декабря 2017.
↑ Vincent, James (2017-12-06). "DeepMind's AI became a superhuman chess player in a few hours, just for fun". The Verge. Архивировано 2 декабря 2020. Дата обращения: 6 декабря 2017.
↑ コンピュータ将棋レーティング (неопр.). Дата обращения: 13 декабря 2017. Архивировано из оригинала 8 декабря 2017 года.
↑ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (2017-12-05). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI].
↑ Silver, David^[англ.]; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis. A general reinforcement learning algorithm that masters chess, shogi, and go through self-play (англ.) // Science : journal. — 2018. — 7 December (vol. 362, no. 6419). — P. 1140—1144. — doi:10.1126/science.aar6404. Архивировано 19 декабря 2018 года.
↑ Pete (Pete). AlphaZero Crushes Stockfish In New 1,000-Game Match (амер. англ.). Chess.com. Дата обращения: 19 августа 2022. Архивировано 12 ноября 2020 года.
↑ Badshah, Nadeem (2017-12-07). "Google's DeepMind robot becomes world-beating chess grandmaster in four hours". The Times of London. Архивировано 7 декабря 2020. Дата обращения: 7 декабря 2017.
↑ "Alphabet's Latest AI Show Pony Has More Than One Trick". WIRED. 2017-12-06. Архивировано 7 декабря 2020. Дата обращения: 7 декабря 2017.
↑ Gibbs, Samuel (2017-12-07). "AlphaZero AI beats champion chess program after teaching itself in four hours". The Guardian. Архивировано 7 декабря 2020. Дата обращения: 8 декабря 2017.
↑ Киссинджер, Шмидт, Хоттенлокер, 2022, с. 14.

Литература

Генри Киссинджер, Эрик Шмидт, Дэниэл Хоттенлокер. Искусственный разум и новая эра человечества. — М.: Альпина ПРО, 2022. — 200 с. — ISBN 978-5-907534-65-0..

[preprint-1] Silver, David; et al. (2017-12-05). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI]. {{cite arXiv}}: Явное указание et al. в: |last2= (справка)

[bbc-2] "'Superhuman' Google AI claims chess crown". BBC News. 2017-12-06. Архивировано 8 декабря 2017. Дата обращения: 7 декабря 2017.

[chess.com-3] "Google's AlphaZero Destroys Stockfish In 100-Game Match". Chess.com. Архивировано 7 декабря 2020. Дата обращения: 7 декабря 2017.

[telegraph-4] Knapton, Sarah (2017-12-06). "Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours" (англ.). Telegraph.co.uk. Архивировано 7 декабря 2017. Дата обращения: 6 декабря 2017.

[5] Vincent, James (2017-12-06). "DeepMind's AI became a superhuman chess player in a few hours, just for fun". The Verge. Архивировано 2 декабря 2020. Дата обращения: 6 декабря 2017.

[6] コンピュータ将棋レーティング (неопр.). Дата обращения: 13 декабря 2017. Архивировано из оригинала 8 декабря 2017 года.

[prepr-7] Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (2017-12-05). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI].

[Science20181207-8] Silver, David^[англ.]; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis. A general reinforcement learning algorithm that masters chess, shogi, and go through self-play (англ.) // Science : journal. — 2018. — 7 December (vol. 362, no. 6419). — P. 1140—1144. — doi:10.1126/science.aar6404. Архивировано 19 декабря 2018 года.

[9] Pete (Pete). AlphaZero Crushes Stockfish In New 1,000-Game Match (амер. англ.). Chess.com. Дата обращения: 19 августа 2022. Архивировано 12 ноября 2020 года.

[tol-10] Badshah, Nadeem (2017-12-07). "Google's DeepMind robot becomes world-beating chess grandmaster in four hours". The Times of London. Архивировано 7 декабря 2020. Дата обращения: 7 декабря 2017.

[11] "Alphabet's Latest AI Show Pony Has More Than One Trick". WIRED. 2017-12-06. Архивировано 7 декабря 2020. Дата обращения: 7 декабря 2017.

[12] Gibbs, Samuel (2017-12-07). "AlphaZero AI beats champion chess program after teaching itself in four hours". The Guardian. Архивировано 7 декабря 2020. Дата обращения: 8 декабря 2017.

[_c48b078c6c78c098-13] Киссинджер, Шмидт, Хоттенлокер, 2022, с. 14.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

Шахматы
Основные статьи	История Правила Дебюты Стратегия Тактика Эндшпиль Чемпионаты мира Турниры Компьютеры Варианты Заочные шахматы ФИДЕ Олимпиады Композиция Рейтинги Турниры
Шахматный инвентарь	Шахматный бланк Шахматная доска Шахматный стол Шахматные фигуры Шахматные часы
Правила шахмат	Рокировка Шах Мат Ничья Правило 50 ходов Пат Взятие на проходе Превращение пешки Контроль времени
Словарь терминов	Батарея Зевок Шахматная нотация Portable Game Notation Фианкеттирование Гамбит Пешка Отсталая Пешечная цепь Изолированная Открытая линия Форпост Шахматная школа Гипермодернизм Темп Промежуточный ход
Шахматная тактика	Комбинация Завлечение Отвлечение Бешеная фигура Вскрытое нападение Двойной шах Вилка Перекрытие Перегрузка Связка Жертва Линейный удар Мельница Рентген
Шахматная стратегия	Дебют Миттельшпиль Эндшпиль Искусственная рокировка Компенсация Размен Качество Инициатива Пешечный штурм Пешечная структура
Дебюты	Открытые дебюты Полуоткрытые дебюты Закрытые дебюты Полузакрытые дебюты Фланговые дебюты Неправильное начало
Эндшпиль	Король и пешка против короля Разноцветные слоны Ферзь против пешки Крепость Оппозиция Треугольник Цугцванг Шахматный этюд Эндшпильные таблицы Налимова
Шахматные сайты	Chess.com Шахматная планета Chessbomb.com Chess Assistant Playchess.com Lichess Chess24.com
Шахматные программы	Stockfish Rybka AlphaZero Fritz Deep Blue Komodo Houdini Schredder Каисса Cray Blitz Chess Titans Chessmaster Leela Chess Zero