Спички для… «кибера»

Спички для... «кибера»

Вспомните, как вы обучались играться в какую-либо игру — шашки, шахматы, домино… Сначала удачи были очень скромными: вас все время обыгрывал более умелый партнер. Но неспешно, разбирая финал партий, обнаруживая собственные неточности, вы набирались опыта, запоминали все больше выигрышных комбинаций и оказывали соперникам все большее сопротивление. Словом, играясь, вы обучались.

Вот этим — обучением игре — и заинтересовались ученые-кибернетики. Показалось довольно много автомобилей. Сперва играющих по какой-то определенной схеме, а позже и самообучающихся, совершенствующих собственную тактику от партии к партии.

Пара лет назад американец А. Сэмюэль создал машину для игры в шашки. Она имела возможность запоминать сыгранные партии и, учитывая накопленный опыт, изменять собственную стратегию. Сначала Сэмюэль легко побеждал у собственного «соперника».

Но позже обстановка изменилась на противоположную. Более того, в матче из десяти партий машина сумела победить чемпиона штата Коннектикут, причем не проиграла ни разу. Ученый М. Гарднер внес предложение кроме того запрограммировать машину так, дабы они длительно и ожесточенно сражалась против… самой себя. Быстродействие электронной автомобили разрешило бы ей в маленькое время купить опыт, на большом растоянии превосходящий опыт любого игрока-человека.

Заманчиво было бы иметь дома такую машину и в свободное время «сгонять» с ней пара партий. Хоть машина и обучается в ходе игры, мы так как также обучаемся, и еще неизвестно — кто кого. Где лишь юному технику раздобыть современную ЭВМ!

Но для опытов с самообучающимися играющими автомобилями не обязательно иметь в своем распоряжении современную ЭВМ.

Возможно воспользоваться и более несложными устройствами и выстроить несложную самообучающуюся машину из… спичечных коробков. Эту уникальную идею внес предложение в первой половине 60-ых годов XX века американский ученый Дональд Мичи, выстроивший из 300 спичечных коробков самообучающуюся машину для игры в крестики-нолики. Мы предлагаем выстроить более несложную спичечную ЭВМ, обучающуюся игре Баше.

Рис. 1. Схемы игровых позиций.

Как мы знаем, в данной игре оба соперника берут попеременно камешки из кучи, содержащей сначала (в нашем случае) 8 камешков. При каждом ходе игрок может забрать один, два либо три камешка (но не более!). Побеждает тот, кто заберёт последний камень.

Дабы выстроить машину, талантливую обучиться игре Баше, необходимо всего 7 безлюдных разноцветных бусинок и 18 спичечных коробков — достаточно иметь бусинки трех цветов. На каждом коробке изображается одна из схем, продемонстрированных на рисунке 1. Эти схемы соответствуют разным позициям, каковые смогут появиться на протяжении игры перед очередным ходом автомобили, причем затевать игру неизменно обязан человек.

В верхней части каждой схемы кружком обведено число, показывающее, сколько камешков остается в куче, — назовем это число состоянием автомобили. Стрелками на схеме обозначены варианты ходов автомобили в данной обстановке. Рядом с каждой стрелкой записано число камешков, каковые берет «своим» ходом машина, а острие стрелки показывает, сколько камешков останется затем.

В нижней части каждой схемы римскими цифрами от I до IV указывается, перед каким ответным ходом автомобили вероятно происхождение данной позиции. Так, первые две схемы изображают обстановку, которая может появиться лишь по окончании первого хода человека; третья схеме соответствует позиции, которая вероятна как по окончании первого, так и по окончании второго хода и т. д.

В коробок необходимо положить бусинки — на каждую стрелку определенный цвет. Затем отечественная машина готова к игре.

Рис. 2. Так выглядит передняя панель автомата.

Процесс обучения происходит следующим образом.

Сделав первый движение, выберите тот из коробков с цифрами I либо I—II, на котором изображена появившаяся позиция. Встряхните коробок и, закрыв глаза, вытащите из него наугад одну бусинку. После этого посмотрите, какого именно цвета эта бусинка, и сделайте за машину ответный движение, забрав указанное соответствующей стрелкой число камешков из кучи.

Сейчас опять ваш движение. Сделав его, повторите ту же самую процедуру с одним изкоробков, обозначенных цифрами I—II, II— III, II—III—IV. Так направляться продолжать, пока партия не закончится. В случае если победит машина, положите все вынутые бусинки на место и играйтесь опять. В случае если же машина проиграет, то «накажите» ее, забрав из коробка ту бусинку, которая воображала последний движение автомобили. Все остальные бусинки положите на место и продолжайте курс обучения — играйтесь опять.

В случае если на протяжении игры очередной коробок окажется безлюдным, то это значит, что все предстоящие ходы автомобили ведут ее к проигрышу и она сдается. В этом случае нужно ее «наказать», забрав бусинку из прошлого коробка. В ходе игры ваш соперник скоро накапливает опыт и обучается.

Совокупность наказаний выстроена так, дабы свести к минимуму нужное для обучения время, но последнее значительно зависит от мастерства партнера автомобили: чем лучше он играется, тем стремительнее «вырастит» хорошего «соперника».

Расчет говорит о том, что чтобы прочно усвоить метод победы, спичечной ЭВМ необходимо потерпеть поражение не более чем в 12 партиях игры. Наряду с этим из всех коробков вынимаются бусинки, соответствующие ходам, приводящим машину к поражению.

Так что во всяком турнире, состоящем более чем из 24 партий, неспециализированный счет будет в пользу автомобили. не сильный игрока машина может победить и при меньшем количестве сыгранных партий, но обеспечивать ее совершенное обучение мы наряду с этим не можем.

Но, само собой разумеется, спичечный «автомат» занимателен лишь как первый опыт. Вторым этапом должна быть постройка электромагнитной совокупности с подобным процессом обучения.

На лицевой панели для того чтобы играющего автомата (рис.

2) расположены в ряд 8 лампочек, снабженных выключателями, кнопка «Движение автомата», кнопка «Приз», кнопка «Наказание», кнопка «Сброс», табло «Вы победили», табло «Вы проиграли» и сетевой выключатель.

Оба играющих (один из них автомат) попеременно выключают произвольное число памп, но не меньше одной и не более трех за один движение. Лампочки должны выключаться последовательно, друг за другом, начиная с Л1. «Перескакивать» через них не разрешается.

Победившим считается тот, кто своим очередным ходом отключит последнюю лампочку.

По окончании каждого собственного хода человек обязан нажимать на кнопку «Движение автомата». Начинает игру неизменно человек.

При выигрыша автомата человек обязан надавить на кнопку «Приз», при проигрыша — на кнопку «Наказание».

По окончании того как будет надавлена кнопка «тумблеры» и Сброс возвращены в исходное положение, автомат готов к следующей партии.

Принципиальная схема самообучающегося играющего автомата приведена на рисунке 3. блоки модели и Основные узлы: блок программы игры I, блок памяти II, блок ламп накаливания III и блок питания IV.

Разглядывая блок программы игры, возможно найти привычные нам спичечные коробки, составленные из электромагнитных реле.

Реле Р1 и Р2 образуют «коробок», играющий в позиции 7; РЗ и Р4 — в позиции 6; Р5 — в позиции 5; Р6, Р7, Р8 — в позиции 4; Р9, Р10, Р11 — в позиции 3; Р12, Р13 — в позиции 2; Р14 — в позиции 1.

Срабатывание репе Р1, РЗ, Р5, Р6, Р9, Р12, Р14 свидетельствует, что автомат забрал один предмет (выключается одна лампочка); Р4, Р7, Р10, Р13 — два предмета (две лампочки); Р2, Р8, Р11 — три предмета (три лампочки).

Не смотря на то, что в спичечном «автомате» количество предметов, каковые он берет очередным ходом, выявляется случайным образом (мы с закрытыми глазами выбираем бусинку), в машине для упрощения схемы введен последовательный перебор стратегий. Это значит, что в любой позиции автомат берет сначала один предмет.

В случае если стратегия была проигранной, она отбрасывается, и в следующей партии в той же позиции автомат заберёт уже два предмета и т. п. К примеру, в позиции 2 (осталось 2 предмета и движение автомата) автомат заберёт один предмет, проиграет, будет «наказан» и в последующих партиях в обязательном порядке погасит 2 лампочки, осуществляя тем самым выигрышную стратегию. Тут, как и в спичечном автомате, отключение неверных стратегий начинается с последнего хода, приведшего к проигрышу автомата.

Проиграв, машина «наказывается» нажатием кнопки «Наказание» (КН2), и последний движение, приведший к проигрышу, отбрасывается, заменяясь вторым ходом.

Рис. 3. Электрическая схема.

Совершив несложный анализ игры Баше для 8 предметов, мы видим, что выигрышная стратегия содержится в том, дабы своим очередным ходом Дополнить число предметов до четырех. К примеру, человек забрал первым ходом один предмет — машина обязана забрать три предмета, человек вторым ходом берет два предмета, машина — оставшиеся два предмета и побеждает.

Из этого же мы видим, что в позиции 4 машина не имеет оптимальных стратегий игры, потому, что при любом ее ходе человек, играясь верно, побеждает. По окончании того как отечественный автомат переберет все варианты в данной позиции, он «осознает», что она ему весьма невыгодна.

Значит, он обязан играться так, дабы человек не имел возможности привести игру к позиции 4. Для этого автомат сам приводит игру к позиции 4, дабы создать «сопернику» проигрышную обстановку: в позиции 7 автомат начинает брать три предмета, в позиции 6 — два.

Отключение репе, осуществляющих проигрышные стратегии автомата, производится блоком памяти II. Реле блока памяти «запоминают» проигрышные стратегии и собственными контактами отключают их, включая одновременно следующую по порядку стратегию игры.

Так осуществляется последовательный перебор стратегий.

Разглядим сейчас конкретный пример. Допустим, человек первым ходом взяп один предмет — отключил тумблер В1, пампа ЛІ погасла.

По окончании нажатия на кнопку «Движение автомата» (КНІ) срабатывает репе Р1, делается на самопитание, контакт Р1/3 отключает пампу Л2 — автомат берет один предмет. Человек вторым ходом опять берет один предмет, отключает тумблер В3, лампа Л3 меркнет. Нажатие на кнопку КН1 приводит к срабатыванию реле Р5, оно делается на самопитание, и контакт Р5/2 отключает лампу Л4 (автомат берет один предмет). Допустим, человек берет два предмета, выключает тумблеры В5 и В6, пампы ЛЗ и Л6 меркнут.

По окончании нажатия на кнопку КН1 срабатывает репе Р12, делается на самопитание, и контакт Р12/3 отключает пампу Л7 (автомат берет один предмет). Как видите, автомат во всех состояниях берет своим ходом по одному предмету. Человек берет последний предмет —-отключает тумблер В8, пампа Л8 меркнет — и побеждает. Наряду с этим загорается лампа Л9, подсвечивающая табпо «Вы победили». Потому, что автомат проиграл, он «наказывается» нажатием кнопки КН2.

Наряду с этим замыкается цепь питания репе Р12 (контакт Р12/2 подводит питание к реле Р12′, так как в данной партии игры репе Р12 сработало), оно делается на самопитание и контактом Р12’/2 отключает репе Р12, а вместе с ним и проигрышную стратегию, и подключает репе Р13. Это значит, что в следующей партии игры в позиции 2 автомат заберёт несколько, а два предмета и победит. Затем необходимо надавить на кнопку «Сброс» (КН4).

Цепь питания всех репе блока игры размыкается, и сработавшие в данной партии репе блока игры возвратятся в исходное положение.

Подобным образом происходит отключение проигрышных стратегий в позиции 3 (репе блока памяти Р9′ и Р10′ отключают репе Р9 и Р10) и в позиции 4 (репе Р6′, Р7′, Р8′ отключают репе Р6,

Р7, Р8).

В то время, когда автомат в позиции 4 перепробует все три стратегии игры — брать один, два и три предмета, — он контактом Р8 1/3 отключает собственные прошлые стратегии (брать один предмет в позиции 7 и брать один предмет в позиции 6) и включает стратегии — брать три предмета в позиции 7 и брать два предмета в позиции 6, следуя которым он сам будет приводить человека к проигрышной позиции 4.

На схеме это выглядит так: отключаются репе Р1 и Р3, а подключаются Р2 и Р4.

Так, проиграв 6 партий (отсоединяются репе Р6, Р7, Р8, Р9, Р10, Р12, Р1 и Р3), автомат «обучается» играться точно.

Лампа Л10 подсвечивает табло «Вы проиграли», оно включается контактами Р11 /4, Р13/З, Р14/3.

В модели применены пампы накаливания 3,3 в на 0,28 а. Электронные репе — РС-13, РЭС-9 либо другого типа, с достаточным числом контактных групп. Силовой трансформатор собран из пластин Ш32, пакет — 33 мм.

Первичная обмотка складывается из 1220 витков провода ПЭЛ-0,5, вторичная — из 150 витков провода ПЭЛ-0,5. Обмотка III — 20 витков провода ПЭЛ-0,5. Мостик выпрямителя образуют диоды Д226Б.

Тумблеры типа ТВ2-1.

В случае если все монтажные соединения выполнены правильно, играющий автомат начинает трудиться сразу же по окончании включения его в сеть.

Б. ИГОШЕВ, Д. КОМСКИЙ, г. Свердловск

Виктор Цой — Пачка Сигарет


Темы которые будут Вам интересны:

Читайте также: