shkolageo.ru 1 2 ... 4 5

ДРЕССИРОВКА СОБАК

С ПОМОЩЬЮ ПОЛОЖИТЕЛЬНОГО ПОДКРЕПЛЕНИЯ
(кликер-тренинг)


Карен Прайор


Об учительнице:
Карен Прайор (Karen Pryor:karen@clickertraining.com) - ученый с мировым именем в двух областях - биология морских млекопитающих и поведенческая физиология. В 1960-х годах при работе с дельфинами она разработала современные несиловые методы дрессировки животных. Она автор множества научных статей и монографий и семи книг.
У Карен трое детей и семь внуков. Она живет в Бостоне с двумя кликер-тренированными собаками и кликер-тренированным котом.


Уважаемый коллега,

добро пожаловать в кликер-тренинг. Кликер-тренинг - это не трюк и не особый метод дрессировки. На сленге дрессировщиков собак кликер-тренинг означает систему дрессировки с использованием положительного подкрепления. Данная система основывается на оперантном научении - системе научных принципов, описывающих такое развитие поведения, при котором животное "воздействует" на окружающую среду, а не наоборот.

Теория оперантного научения базируется на том, как животное изучает окружающий мир; поэтому ее принципы можно использовать в любых условиях. Возможности их в дрессировке собак просто потрясающие. Так, дрессировщики - приверженцы кликер-тренинга разрабатывают варианты применения данного метода в дрессировке полицейских патрульных собак; со служебными и караульными собаками; со щенками, даже до того, как их отнимут от суки; при подготовке собак к соревнованиям по послушанию и аджилити; в охоте, полевых испытаниях и работе по следу; в породных рингах; в классах "хороших манер" для владельцев собак; а также дома.

Кликер-тренинг на самом деле не зависит ни от щелкающего прибора (кликера), ни от лакомства. Кликер-тренинг зависит от подкрепления - всего, что любит собака (игрушки, ласка и т.д.), и своевременности такого подкрепления, что, в свою очередь, обеспечивает передачу информации между дрессировщиком и животным. Мы начинаем с кликера и лакомства, так как они являются отличными приспособлениями для дрессировки, как с точки зрения человека, так и с точки зрения собаки. Вы вместе с вашей собакой будете учиться новому способу взаимодействия.


При помощи кликер-тренинга вы можете научить вашу собаку всему, что она должна знать. После того, как собака научится понимать, какого действия вы от нее хотите и как и когда его нужно выполнить, вы можете заменить щелчки словом, а лакомство - лаской; слово и ласка у вас всегда с собой.

Если вы не будете добавлять новые правила выполнения того или иного навыка, собака, единожды обученная ему с помощью кликера, будет выполнять его в течение всей своей жизни. Когда собака получит несколько навыков, вам больше не понадобиться щелкать или хвалить ее за каждый из них; вы можете поощрять весь репертуар одним щелчком. В конечном итоге вы обнаружите, что вам приходится доставать кликер только для того, чтобы отточить реакцию собаки или научить ее чему-нибудь новому, или просто повеселиться: кликер-тренинг - это развлечение для вас обоих.

 

СОБАКА и ДЕЛЬФИН

(лекция первая)

Собаки, дельфины и дрессировка

Если вам приходилось видеть шоу дрессированных дельфинов в океанариумах или по телевидению, вы, скорее всего, знаете, что дельфины кажутся удивительно обучаемыми животными. По команде они демонстрируют точное выполнение разнообразных номеров, включая великолепные акробатические трюки и общение с другими дельфинами и людьми-пловцами. Аудитория восхищается тем, с каким желанием дельфины отзываются на команды, и насколько они, должно быть, умны; разве не было бы прекрасно, если бы собаки также замечательно отзывались на команды?

Но, как известно нам, дрессировщикам дельфинов, правда заключается в том, что дельфины - не гении, также как и их дрессировщики. Скорость, точность и явное удовольствие от работы, которое видят зрители, целиком и полностью обусловлены теми принципами, которыми мы руководствуемся при дрессировке дельфинов. Те же самые приемы могут использоваться и в дрессировке собак.

Исключение наказания с самого начала


Первая вещь, которую следует учитывать, говоря о дрессировке дельфинов - то, что мы работаем с животным, которое невозможно наказать. Не важно, насколько вы разозлились - даже если животное нарочно доводит вас до белого каления, например, обрызгав с ног до головы, - вы не можете ему отомстить. Вы не можете использовать поводок или хлыст, или даже кулак, потому что животное просто уплывает. Вы не можете морить дельфина голодом, пока он не начнет подчиняться. Дельфины получают необходимую им пресную воду из рыбы, которую они едят; если не давать им рыбы, очень быстро произойдет обезвоживание, животные окончательно потеряют аппетит, а затем умрут. И наконец, вы не можете даже накричать на дельфина, так как ваши крики ему безразличны.

Возможно, вы подумаете: "Держу пари, что я смог бы придумать, как наказать дельфина…". Я тоже держу пари, что вы смогли бы; но это неважно, так как дрессировщикам дельфинов это не нужно. Дрессировщики могут заставить дельфина выполнять все, что им требуется, используя только положительное подкрепление: в большинстве случаев, свистнув один-два раза в дрессировочный свисток и имея при себе ведро рыбы. Мы "формируем" каждый навык путем положительного подкрепления. Мы используем положительное подкрепление, чтобы добиться быстрой и правильной реакции на команды - чтобы достичь послушания. Мы даже можем использовать положительное подкрепление, чтобы дисциплинировать животное - чтобы держать под контролем плохое поведение, например, нападение на соседа по бассейну или отказ проплыть через ворота. Такое изощренное использование положительного подкрепления приводит к тому, что животное работает великолепно и с удовольствием.

Методы, которыми мы пользуемся при дрессировке собак, зачастую предусматривают применение силы, как для того, чтобы заставить собаку выполнить требуемые движения, так и для того, чтобы скорректировать собаку, когда она делает неизбежные ошибки. Хотя мы можем также использовать похвалу и ласку, собака обязательно испытывает смущение, страх и, возможно, даже физическую боль в процессе дрессировки. Некоторые собаки нормально переносят негативный опыт, но дельфины, будучи дикими животными, не будут терпеть подобное обращение. Если бы вам пришлось дрессировать дельфина с применением традиционных методов дрессировки собак, возможно, он и научился бы чему-нибудь, но его работа была бы ленивой, медленной и ненадежной; кроме того, он вполне возможно проявлял бы агрессию к людям. (Это не напоминает вам кого-то из ваших знакомых собак?)


С другой стороны, если дрессировать собаку так, как дрессируют дельфинов, то есть с помощью положительного подкрепления, мы получим собаку которая ведет себя как дельфин: энергичную, внимательную, точную, готовую к сотрудничеству и способную к фантастической работе. Вот как это делается.

Волшебный сигнал: условное подкрепление

Общаясь с дрессировщиками собак, я часто сталкиваюсь с тем, что они ошибочно считают, что положительное подкрепление означает только "лакомство". Это неправильно. Ключевой момент в выработке прекрасного поведения у дельфина - не лакомство. Дельфин работает не за рыбу; дельфин работает за свисток. Звук свистка - это тот самый волшебный сигнал, который вызывает то самое прекрасное поведение.

Первый шаг в дрессировке дельфина - приучить его к тому, что каждый раз, когда он слышит свисток, должна появляться рыба. Когда животное поймет, что свисток означает "Сейчас будет рыба", дрессировщик может использовать свисток, чтобы выделить то действие, которое ему нравится, а затем постепенно сформировать или развить что-то более сложное, например, реакцию на команду.

Например: предположим, что в некоторых случаях дельфин слышал свисток (и позже получил рыбу), когда он выпрыгивал в воздух. Вскоре он может начать прыгать каждый раз, когда видит дрессировщика. Потом ему дадут возможность понять, что прыжки "срабатывают" только тогда, когда у дрессировщика поднята рука. Таким образом, поднятая рука становится "зеленым светом" к прыжку, как и должно быть.

Дрессировщик может постепенно добавлять другие условия - "срабатывают" только прыжки, направленные от него к зрителям; превышающие 120 см (4 фута); прыжки в течение трех секунд после поднятия руки. В результате нескольких занятий дрессировщик обучил дельфина "раскланиваться" точно и по команде; дельфин, в свою очередь, тоже обучил дрессировщика: "Все, что я должен сделать - это выполнить определенный прыжок, когда он поднимет руку, и он немедленно свистнет и даст мне рыбу за каждый прыжок!"


Помните, что свисток не используется для подачи команды. Он не подает дельфину сигнал к началу какого-либо действия - эту функцию выполняют жесты. Свисток сообщает дельфину, во время или в конце действия, что дрессировщику оно нравится, и что дельфин заслужил рыбу. (Тем не менее, вы не обязательно должны ограничиваться лакомством; вы также можете связать условное подкрепление с лаской, игрушкой, или возможностью еще поработать).

Теперь свисток стал условным подкреплением. Говоря языком психологов, лакомство, ласка или другое удовольствие - это безусловное подкрепление - что-то, чего животному хочется даже без специального обучения; свисток, то есть условное подкрепление - это то, чего животному хочется в результате обучения. (Иногда лакомство называют "первичным", а сигнал - "вторичным" подкреплением. Я стараюсь не употреблять эти термины, так как, по моему опыту, зачастую заставляют люди считают, что так как свисток - "вторичное подкрепление", он должен следовать после лакомства. Естественно, это лишает его всякого смысла с точки зрения собаки и делает его бесполезным в дрессировке.)

Почему условное подкрепление так важно

Что получится, если вы попытаетесь научить дельфина по команде выполнять простой прыжок по направлению от вас, не используя свисток? Во-первых, вам скорее всего не удастся сделать так, чтобы животное получало рыбу, находясь в прыжке; поэтому, какой бы прыжок оно ни сделало, оно либо получит рыбу позже, либо не получит ее вообще. Поэтому оно не сможет понять, почему вы вознаградили этот прыжок, а не другой, и что вам понравилось в этом прыжке. Высота? Или, может быть, взлет и приземление? Чтобы выработать прыжок определенной высоты, продолжительности и направления, вам придется устранять неточности методом проб и ошибок, повторяя упражнение множество раз. Если вам повезет, животному (и дрессировщику!) не станет скучно до того, как оно научится выполнять упражнение правильно и надежно.

Из-за описанного недостатка информации дрессировщик, который использует лакомство и не использует условного подкрепления, предвещающего появление лакомства, получает животное, которое энергично работает (пока оно голодно), но медленно обучается. Мы видим это в собаках, которых награждали большим количеством лакомства, не давая им никаких ясных сигналов, почему; такие собаки часто кажутся активными и дружелюбными, но они ничего не знают.


Кроме того, если дрессировщик использует лакомство без условного подкрепления, животное склонно все время смотреть на дрессировщика в ожидании еды. Лошади лезут носом вам в карман, а собаки лижут ваши руки. Дельфины болтаются по учебному бассейну и не сводят глаз с ведра с рыбой. А если наш дельфин постоянно смотрит на дрессировщика, будет трудно научить его прыгать по направлению от дрессировщика к зрителям.

В то же время, установив условное подкрепление, вы сможете без каких-либо затруднений поощрять действие животного, которое происходит на расстоянии от вас, или при котором животное направляется от вас. Животное, у которого хорошо выработана условная связь, будет не только искать еду и заниматься своими делами, но в то же время внимательно прислушиваться, чтобы не пропустить волшебного сигнала, чем бы оно ни было занято: при дрессировке лошадей и собак внимание также играет огромную роль и само по себе является ценным качеством.

Благодаря высокой точности (до долей секунды), которая возможна при использовании условного подкрепления, свисток также точно сообщает животному, чего хочет дрессировщик. Это позволяет вам ясно объяснить ему, чего вы хотите, каждый раз выделяя по одному критерию. Например, дельфин усвоил одно правило ("Прыгай в этом направлении"), и вы уверены в этом, так как дельфин всегда прыгает в нужном направлении, когда вы подаете сигнал. Теперь вы можете добавить в правило еще один критерий. Вы решаете: "Я буду поощрять только наиболее высокие прыжки". Довольно скоро дельфин выучит его ("Я должен прыгать в этом направлении и на эту высоту.")

Этот постепенный процесс может показаться довольно трудным, но на практике это кратчайший путь к выработке сложных навыков. Даже с наивным дельфином, дрессировщик может выработать зрелищное и очень специфичное действие по команде, такое как описанный выше прыжок, в течение двух-трех дней, а иногда, если все идет хорошо, в течение одного десятиминутного занятия. Занимаясь дрессировкой дельфинов, мне и другим дрессировщикам иногда удавалось в течение одного занятия "поймать" действие, сформировать на его основе что-то особое, и связать его с командой.


А как насчет собак?

Вы можете легко опробовать дрессировку дельфинов на вашей собаке, используя положительное подкрепление, в течение одного десятиминутного эксперимента. Некоторые собаки боятся свистка, поэтому удобнее использовать в качестве условного подкрепления кликер, детскую игрушку, которая щелкает, когда ее сжимают; такую игрушку можно купить в детских и галантерейных магазинах, а также в некоторых магазинах импортных товаров . Вы можете использовать для подачи сигналов крышку от бутылки, карманный стэплер или автоматическую ручку.

Приготовьте кликер и несколько кусочков лакомства. Лакомство должно быть достаточно мелким, чтобы животное не объелось, получив 15 - 20 кусочков. Некоторые собаки работают за свой обычный корм, особенно незадолго до кормления, но возможно вам придется использовать что-то более интересное для них; демонстрируя этот метод с незнакомыми собаками, я обычно использую кусочки курицы. Объясните собаке значение щелчков, 4 - 5 раз щелкнув кликером и тут же дав лакомство, в разных частях комнаты или двора (чтобы у собаки не появилось смешного представления, что система срабатывает только на одном месте).

Затем щелкните кликером и дайте лакомство через несколько секунд; если вы видите, что собака волнуется и активно ищет лакомство, значит, сигнал стал условным подкреплением. Теперь вы можете выработать навык - мы называем это "формированием".

Довольно легко сформировать навык "Гоняйся за своим хвостом". Конечно, существует столько же способов добиться этого, сколько существует дрессировщиков, которые будут придумывать эти способы: вы можете поворачивать собаку за ошейник; вы можете намазать кончик хвоста кусочком бекона, чтобы собака крутилась, стремясь вылизать свой хвост. Вот способ формирования этого действия "с нуля", без подсказок.

Прекратите щелкать и ждите. Возможно, ваша собака к этому моменту будет заинтригована и взволнована; если вы не будете ничего делать, собака, вероятно, будет вертеться, а может быть даже скулить и лаять. В тот момент, когда собака случайно двинется или повернется вправо, щелкните. Дайте лакомство.


Ждите снова. Игнорируйте все, что делает собака, кроме движения вправо (не требуйте чудес; поворот головы или шаг в сторону правой передней ногой - все, что вам нужно). Если вы "поймали" действие, то есть если вы успели вовремя, после 3 - 4 подкреплений вы увидите, что ваша собака поворачивается вправо дальше и чаще.

Теперь вы обнаружите, что вам уже не нужно поощрять один шаг вправо, но вы можете поощрять повороты вправо, которые состоят из нескольких шагов, может быть на четверть круга; а переход от поворота на четверть круга в повороту на полный круг может произойти очень быстро.

Теперь как раз пора закончить первый урок; остановиться, пока вы преуспеваете - золотое правило. Уберите кликер, хорошенько приласкайте и похвалите собаку, и попробуйте снова на следующий день, начиная с одного шага, затем переходите к повороту на четверть круга, затем больше; вы будете продвигаться быстрее, чем в первый раз.

После того, как вы выработаете поворот на один круг, следующим шагом будет выработка поворота на два круга, а затем последует очень важный шаг - переход к вариабельному подкреплению, то есть вознаграждению собаки иногда за половину круга, иногда за два круга, или за один, или за три полных круга, или за один с четвертью; это заставляет собаку все время стараться угадать. Щелчок должен иногда следовать после одного поворота, а иногда - после двух; собака не будет знать, когда она услышит щелчок, поэтому она будет крутиться, быстрее и быстрее; таким образом вы начнете вырабатывать забавную погоню за собственным хвостом.

Конечно, это глупая шутка, не очень приличествующая серьезной собаке; есть другие навыки, которые вы можете использовать для тренировки, например, касание какого-либо предмета носом (дрессировщики морских львов учат своих животных тыкаться носом в сжатый кулак; затем, держа кулак на земле, в воздухе или над стойкой, они могут заставить морского льва двигаться туда, куда они хотят, не применяя силу). Цель эксперимента - не научить собаку выполнять трюк, а показать вам, как пользоваться условным подкреплением при формировании навыка, а также продемонстрировать эффективность данного вида подкрепления.


Почему нужен кликер? Почему нельзя использовать в качестве условного подкрепления только голос и слова "Хороший мальчик"? Основная причина - то, что вы не можете произнести слово, даже "Хороший мальчик" с точностью до долей секунды, но можете легко достичь столь высокой точности с помощью кликера. Немного потренировавшись, вы можете подкрепить с помощью кликера малейшие движения например, шаг одной лапой вправо, в тот момент, когда они происходят; поощрение голосом неизбежно будет довольно расплывчатым, так как оно занимает больше времени.
Вторая трудность при использовании слова - то, что мы разговариваем в присутствии собак и даже с ними, не подкрепляя свои слова. Собаке будет сложно выделить значимые слова из потока звуков, которые мы издаем; в то же время, кликер не похож на другие звуки в комнате, и его значение будет абсолютно ясно. На самом деле, вы увидите разницу в том, как собака, у которой установлено условное подкрепление, реагирует на кликер (абсолютное внимание, оживление, волнение) по сравнению с тем, как она реагирует на "Хорошая собака!" (Что? А… Улыбнулись, вильнули хвостом.)

Использование условного подкрепления в реальных условиях

Естественно, я слышала, как многие дрессировщики собак говорят, что кликер годится только для обучения собаки трюкам и больше ни для чего - так, его не удастся использовать в дрессировке по курсу послушания. Конечно, нет, да это и не нужно; кликер ценен при выработке нового навыка или при совершенствовании отдельных аспектов того или иного навыка; нет необходимости в выделении навыка, которому собака уже обучена. Но даже при работе с опытной собакой - чемпионом по рабочим качествам, условное подкрепление может быть полезным дрессировочным инструментом. Один из участников соревнований рассказал мне, что он научил свою суку добермана понимать щелчки, а затем использовал их для того, чтобы научить ее смотреть ему в лицо, а не в сторону, во время работы. "Было похоже, что она на самом деле благодарна за информацию: для нее исчезла неясность," - сказал он. Конечно, как только собака поняла, что от нее хотят, в ринге она делала все правильно без щелчков.


Тем не менее, не следует думать, что люди никогда не используют условное подкрепление в ринге: все, что нужно дрессировщику - это установить сигнал, о котором знает собака, но которого не замечают другие. Я знаю одного увлеченного дрессировщика по послушанию, который использует едва слышное шмыганье носом в качестве условного подкрепления. Я видела спортсмена, который говорил своей собаке "Отлично!" (что проявлялось в счастливом выражении на морде собаки), всего лишь прикасаясь одним пальцем к ее голове.

Одна моя знакомая спортсменка научила свою собаку, Рекса, что лакомство называется "Билли". Теперь, участвуя в соревнованиях по послушанию, она может подкрепить особенно хорошую работу - например, хороший подзыв - тем, что кажется командой: "Билли, рядом!". Никто не интересуется, почему в ринге она называет собаку другой кличкой.
Когда действие выучено, использование условного подкрепления позволяет вам не только отсрочить получение лакомства без потерь в качестве работы, но и в целом давать меньше лакомства; вам не придется волноваться, что собака объестся до того, как работа будет закончена. Один пример: на выставках собак я часто замечаю, как хэндлеры постоянно приманивают собаку или кормят ее, чтобы получить красивую стойку или настороженный взгляд. Каждый раз, когда я вижу, как собака постоянно получает лакомство, я осознаю, что эти люди не понимают условного подкрепления! Насколько более эффективно было бы "сформировать" стойку, отработать команду, а затем подкреплять действия собаки щелчком, когда она встает в нужную стойку и удерживает ее в течение значительного времени - а лакомство давать позже, вне ринга или когда эксперт двинется дальше.

Положительной чертой условного подкрепления является то, что оно работает - передает информацию и влияет на поведение животного - в любых ситуациях, в которых реальное подкрепление либо нежелательно, либо невозможно. Подумайте, например, как полезно было бы простое условное подкрепление при выборке по запаху, работе по следу, выработке выдержки в посадке и укладке, в том числе и в отсутствие владельца, обнаружении и вспугивании птиц, а также при любой другой работе, которая требует, чтобы собака находилась на расстоянии от вас.

Контроль неправильного поведения с помощью положительного подкрепления

Утверждение о том, что плохое поведение можно контролировать с помощью положительного подкрепления, а не "коррекции", может показаться неразумным, но у дрессировщиков дельфинов есть много способов такого контроля. Вот несколько примеров:


следующая страница >>