Как пользоваться подкреплением


Подкрепление - обязательное условие любого научения и обучения. Главное правило: "Что подкрепляем - то и получаем".

Как пользоваться подкреплением

Принципы использования подкрепления положительного и отрицательного одинаковы.

  • Моментальность или опережение действия

То есть в идеале подкреплять нужно не действия, а уже момент принятия решения об этих действиях и затем само действие. Так шанс, что нежелательное поведение вообще осуществится предельно мал. Однако давать подкрепление сильно заранее - тоже не стоит, и так, как предугадать действия не всегда возможно - то лучше подкрепление использовать «здесь и сейчас», то есть в момент, как нужное действие совершилось. Для этого дрессировщики животных часто используют кликер, который заменяет подкрепление моментальным звуком (щелчком).

  • Чем подкрепление меньше - тем лучше

Подкрепление - всегда маленькое: фраза, слово, взгляд. Большое подкрепление отвлекает от работы, и может быть получено только в честь какого-то выдающегося события. Чем меньше подкрепление - тем лучше.

Опять же, применительно к лошадям. Учимся поднимать ногу вот уже месяц. И наконец, лошадь поднимает и удерживает ногу на весу в течении 5 секунд! Все, супер! Лошадь получает яблоко и окончание занятия, ее чистят, к ней много внимания, ее все любят - одним словом много положительных подкреплений. Но. Это только единственный раз, тот самый, когда она поняла, что делать. В следующее занятие в ответ на поднятую ногу лошадь получит обычную похвалу: щелчок кликера или лакомство и «Хорошо!»

  • Чем труднее работа - тем больше подкрепление

Подкрепление разное для каждого действия. Чем труднее действие - тем больше подкрепление. Здесь еще важно осознание самого обучаемого: для кого-то написать статью - это так, фигня, а для кого-то трудная задача. Соответственно соизмерять подкрепление нужно не только со своим представлением о трудности работы, но и с ожиданием обучаемого.'

Для одной лошади - подвиг быть рядом с человеком и не бегать от него, а для другой - это естественная норма. Поощрять таких лошадей стоит по-разному: одну сильно и много, а вторую - слегка и достаточно равнодушно.

  • Сформированный навык - это норма.

А значит ни о каком подкреплении речи уже не идет. Единственное, чтобы поддержать нужный навык иногда полезно поощрять спонтанно за выполненное действие. '

Вернемся к лошадям. Учимся останавливаться по команде человека. Первая остановка - это хорошо, это здорово, это похвала. Через два дня лошадь делает это моментально сама. За это больше не хвалим - это норма. Не бежать впереди человека - норма. Теперь хвалим редко, спонтанно, например 1 раз за занятие, только для того, чтобы поддерживать навык.

Для отправки нажмите Ctrl+Enter, осталось символов для ввода: 1000

Комментарий принят на модерацию

Развитие темы

Самые популярные материалы