心理学者BFスキナーによる行動主義・オペラント条件づけの実験。行動が強化・弱化されるとは?

スキナーによるオペラント条件付け

オペラント条件付けとは、行動に対する報酬と罰を通して発生する学習の手法のことです。

オペラント条件付けを用いて、個人は特定の行動と結果を関連付けているのです。(スキナー、1938)

1920年代までに、ジョン・B・ワトソンは心理学の分野から離れました。そして他の行動主義者たちが影響力を持ち始め、古典的条件付けではない新たな学習の形式を提案しました。

おそらくこれらの中で最も重要な人物はバラス・フレデリック・スキナーでしょう。一般的にはB.F.スキナーとして知られています。

スキナーの考え方はワトソン(1913)ほどの極端さはありませんでした。スキナーは観察可能な行動の研究をした方が、内面の心の動きよりも生産性が高いと考えていました。

スキナーの研究は、古典的条件付けはシンプルすぎて複雑な人間の行動を完全には説明できていないという視点が元となっています。

行動を理解する最善の方法とは、動作の原因とその結果を見ることだと彼は考えていました。彼はこの取り組みをオペラント条件付けと呼んだのです。

中性作用・強化因子・弱化因子

スキナーはオペラント条件付けの父としてみなされていますが、彼の研究はソーンダイク(1898)の「効果の法則」に基づいています。

エドワード・ソーンダイクの効果の法則。パブロフの犬にも影響を与えた心理学者

この原則によると、喜ばしい結果を導く行動は繰り返されやすく、喜ばしくない結果を導く行動は繰り返されにくいとされています。

スキナーは効果の法則に新たな用語を導入しました。それが「強化」です。

強化される行動は繰り返される(増強)傾向にあり、強化されない行動は消去または除去される(衰弱)傾向にあります。

スキナー(1948)はソーンダイクのパズルボックスに似た「スキナーボックス」の中に動物を入れる実験を行ってオペラント条件付けを研究しました。

スキナーは行動につながる3つのタイプの反応または作用を見つけ出しました。

  • 中性作用: 行動が繰り返される確率を増減する環境からの反応
  • 強化因子: 行動が繰り返される確率を増加させる環境からの反応。強化因子は正でもあり負でもある。
  • 弱化因子: 行動が繰り返される確率を減少させる環境からの反応。弱化因子は行動を弱化する。

自分の行動がどのように強化因子や弱化因子の影響を受けているか、誰でも思い当たるでしょう。

おそらく幼いころに色々な行動をやってみてその結果から学んだのではないでしょうか。

たとえば、もしあなたが若い時に学校で喫煙しようとして、前から仲間に入りたいと思っていたグループに入るという最高の結果となったら、正の強化(報酬)がされその行動を繰り返すでしょう。

もし、最終的に見つかって処罰を受け停学になれば、あなたは親からも確実に罰を受けるでしょう。そしてその結果今はもう喫煙していないということになるでしょう。

このように人の行動を繰り返されるように条件付けされる行為を強化、逆のことを弱化と名付けたのです。

正の強化

スキナーボックスに空腹なネズミを入れてポジティブ強化がどのように働くかをスキナーは示しました。

その箱にはレバーが横に備え付けてあり、ネズミが動き回るとレバーが落ちる仕組みになっていました。

そうするとすぐにエサのお皿がレバーの横の容器の中にに落ちてくるるようになっていました。

箱に何度か入れられた後、ネズミはすぐに習得しレバーに直行したのです。レバーを押すと食べ物が出てくるという結果によって、ネズミが何度もその行動を繰り返すことが確実になりました。

正の強化は結果が報酬を伴うという行動を強めます。

例えば宿題を仕上げるたびに5ポンドを先生がくれるなら(報酬)、今後あなたはその行動を繰り返す可能性が高いでしょう。

結果として、宿題をするという行動を強めているのです。

負の強化

不快な強化の除去もまた、行動を強めます。これは動物や人にとって「報酬」となる逆の刺激を除去するため、負の強化として知られています。

不快な経験を止めたり除去するため、負の強化は行動を強めます。

たとえば、もしあなたが宿題を仕上げなければあなたは先生の5ポンドを支払います。

あなたは支払いを避けるため宿題を完成させるでしょう。結果的にあなたは宿題を仕上げるという行動を強めているのです。

スキナーボックスにネズミを入れ、不快感を与える電流を与えることで負の強化がどのように働くかをスキナーは示しました。

ネズミが箱の中で動き回るとレバーは勝手に落ちます。そうするとすぐ、電流が止まるのです。

ネズミは何度かその箱に入れられた後すぐに学習し、レバーに直行しました。電流から逃れるという結果ががその行動を何度も繰り返すことを確実にしたのです。

実はスキナーは、電流が走る直前に電気を付けることで電流を回避することまでもネズミに教えたのです。ネズミは電気がつくとすぐにレバーを押すことを学びました。

彼らは電流が走るのをこれで止められることを知っていたからです。

この2つの学習反応は、逃避学習と回避学習として知られています。

また、余談ですが、このような強化や弱化という概念は、今日の行動分析学の基盤となっています。

【行動分析学第2回】部下が積極的に行動するようになる!?好ましい行動を増やす<好子>の活用/強化/消失

 (弱化行動)

罰は反応を増加させるよりも弱めたり排除したりするよう意図があるため、強化の反対として定義されています。それに伴う行動を減少させる嫌悪的な事象のことです。

強化と同様、反応の後にショックのような不快な刺激を直接与えるか、好ましくない行動を懲らしめるために誰かのおこずかいを抜くというような潜在的な報酬の刺激を除去するか、どちらかににより罰は機能します。

:罰と負の強化の区別は容易ではありません。

また、罰の使用には多くの問題があることが分かっています。

例えば、

  • 罰を受けた行動は忘れられたのではなく、抑えられているだけです。⇒罰がもう存在しなければ行動は復活します。
  • 攻撃性の増加を招きます⇒攻撃性が問題解決のための方法であることを示しています。
  • 好ましくない行動に一般化させる恐怖心を作り出します(学校への恐怖等)
  • 必ずしも好ましくない行動へと誘導するわけではありません⇒強化はすべき事を知らせ、罰はすべきでない事のみを知らせます。

強化のスケジュール

「スキナーボックス」に入っているネズミを想像してください。

オペラント条件付けでは、レバーが押された後すぐにエサのお皿が運ばれないことを何度か経験すると、ネズミはレバーを押すことをやめます(雇用主がお給料の支払いをやめたら働き続ける人がいますか?)

その場合、行動は消去された状態となります。

行動学者たちは強化のパターン(スケジュール)を変えることで学習と消去のスピードに異なる影響が出ることを発見しました。

ファースターとスキナー(1957)は強化を導入する様々な方法を考案しその効果を確認しました。

  1. 反応率 – ネズミがレバーを押す割合(ネズミがどのぐらい頑張ったか)
  2. 消去率 – レバーを押すことが消去した割合(ネズミがどのぐらいのスピードであきらめたか)

スキナーは、消去率が最も遅かった強化タイプ(強化なしで最も長く行動を繰り返し続ける)が変動比率の強化であることを見つけました。

消去率が最も早かった強化タイプは継続的な強化です。

(A)継続的強化

動物/人間が特定の行動が発生するたびに正の強化を受ける(レバーが押されるたびにお皿が出てきて、食べ物は運ばれない)。

  • 反応率は遅い
  • 消去率は早い

(B) 固定比率強化

行動が特定の回数の反応を生じさせた後にのみ行動が強化される。(非常にたくさんの正しい反応の後一つの強化が与えられる)

例えば、5回ごとの反応毎に強化するなど。(子供が5つの言葉を正しく書けたらお菓子を与える。)

  • 反応率は早い
  • 消去率は普通

(C) 固定間隔強化

少なくとも1回の正しい反応があれば一定の時間を空けて1つの強化が与えられる。1時間ごとに給料が与えられるようなケース。

または15分(30分、1時間等)おきにお皿が運ばれ(少なくとも1度はレバーが押されたら)、食べ物は運ばれない。

  • 反応率は普通
  • 消去率は普通

(D) 変動比率強化

予測不可能な回数の後行動が強化される。ギャンブルや釣り等のケース。

  • 反応率は早い
  • 消去率は遅い(予測不可能なため消去しにくい)

(E) 変動間隔強化

1回の正しい反応があれば、予測不能な間隔を空けて強化が与えられる。(平均5分)自営業の人がお給料を手にする回数を予測できないようなケース。

  • 反応率は早い
  • 消去率は遅い

オペラント条件づけから導かれた行動変容

行動変容とはオペラント条件付けに基づいた一連の心理療法や技術のことです(スキナー、1938,1953)

主な原則は、人の行動に関連した周りの出来事の変化から構成されています。好ましい行動の強化や好ましくない行動への無視や罰等です。

これは思うほど簡単なことではありません - 要するに、賄賂のような好ましい行動ばかり強化されます。

正の強化にはいろいろなタイプがあります。最重要な強化とは報酬が行動そのものを強める場合です。

2番目に強力な強化とは、元の強化因子に導くため何かが行動を強める場合です。

行動変容療法の例には、トークンエコノミーやシェーピングを含みます。

トークンエコノミー~トークンにより行動を変容させる~

トークンエコノミーとは、目的の行動がトークン(2番目の強化因子)によって強化され、その後報酬(1番目の強化因子)と交換されるシステムのことです。

トークンには偽硬貨やボタン、ポーカーのコインやシール等が使われます。

一方、報酬はお菓子から特典や行動まで様々な分野にわたります。例えば、小学校の先生がトークンエコノミーを使って良い行いをした生徒に報酬としてシールを与えるのです。

トークンエコノミーは、精神病患者への対応に非常に効果的であることが分かっています。

しかし患者がトークンに依存しすぎて、いったん刑務所や病院を出ると社会に適応するのが困難になることがあります。

トークンエコノミープログラムをスタッフに実施することには大きな力があります。

プログラムが仕事となると、スタッフが特定の個人を好んだり無視したりしなくなるということが大切です。

そのため、刑務所や精神病病院内などでシフトの変更があったとしても公正に一貫してトークンを与えるようスタッフを訓練をすることが必要です。

シェイピング

スキナー(1951)による更に重要な貢献は、逐次接近によるシェイピングの概念です。

スキナーは、毎回好ましい行動に有機体を近づけるためにそのような方法で報酬と罰が与えられた場合、極端に複雑な行動を生み出すためにオペラント条件付けの原則が使われることに意義を唱えたのです。

これを行うため、有機体が好ましい行動へと一方ずつ近づくごとに報酬を受け取るという条件(または偶発性)が要求されます。

スキナーによると、ほとんどの動物や人間の行動(言語を含む)はこの種の逐次接近の産物であると説明できます。

オペラント条件づけの教育への応用方法

従来の学習状況において、オペラント条件付けは学習内容よりもクラスの問題や生徒の管理に大きく利用されています。

行動を形成するシンプルな方法は、学習者の行動にフィードバックを与えることです(賛辞、同意、励まし、肯定等)。

最初に強化(称賛)が頻繁な間隔で発生し、そして行動が向上するにつれて強化の頻度が下がり最後には例外的なアウトプットのみが強化される程度になります。

このような変動比率は生徒が新しい課題を学習する高い反応率を生むのです。

例えば、授業中に生徒が質問に答えるよう促したいとき、教師は彼らが挑戦するたびに褒めるのです(その答えがあっているかどうかに関わらず)。

教師は徐々に正解の生徒だけを褒めるようにし、そのうちに並外れた回答だけが褒められるようになるのです。

遅刻や話し合いの独占のような迷惑な行為は、教師が無視をすることで除去されます(彼らへの注目を集めて強化されるよりも無視するほうがよいでしょう)

成功の知識もまた将来の学習を動機づけるのに重要です。しかし、行動が維持されるように異なるタイプの強化を与えることが大事です。

その教師が行動の仕方について考えすぎる場合には不誠実だと思われてしまうため、これは容易な仕事ではありません。

まとめ

スキナーによる鳩/ネズミの行動の古典的研究から、行動主義者の手法の主な仮説が立てられています。

  • 心理学とは科学的なやり方で研究され、科学として考えられるべきです。スキナーによるネズミの行動研究は、注意深く管理された研究室で行われました。
  • 行動主義とは、もともと観察可能な行動に関する関心のことであり、思考や感情といった内面の事象とは反対のものでした。留意すべきは、スキナーはネズミがレバーを押すことを学んだのは食べ物が欲しかったからだとは言っていないということです。彼はむしろ、ネズミが獲得した観察しやすい行動を解説することに集中したのです。
  • 人間行動に最も影響するのは私たちの周りの環境からの学習です。スキナーの研究によると、特定の行動に食べ物が伴ったため、ネズミはその行動を繰り返すことを学んだのです。(オペラント条件付け)
  • 人間の学習と他の動物の学びには少し違いがあります。そのため研究(オペラント条件付け)は人間と同じように動物についても行われます(ネズミ/鳩)。スキナーは人間が行動を学ぶ方法とネズミがレバーを押すことを学ぶ方法はほとんど同じだと提案しました。

行動主義学とその副産物は心理学的視点の最も科学的な傾向があります。

行動主義心理学の重要性は私たちが特定の方法でどのように行動を学ぶのかという点にあります。

私たちは皆、常に新たな行動やどのように現在の行動を修正するかを学んでいるのですね。

行動主義心理学とは、この学びがどのように起きているのかに焦点を当てている心理学的手法といえるでしょう

スキナー・オペラント条件づけへの評価

オペラント条件付けは学習プロセスから依存や言語習得にいたるまで幅広い分野の行動について説明しています。

授業や刑務所、精神病病院等に適している実践的な活用法(トークンエコノミー等)もあります。

しかし、オペラント条件付けは学習における遺伝や認知要素の役割を考慮に入れなかったため、人間と動物の学習プロセスの説明が不完全なものとなっています。

たとえば、コーラー(1924)は霊長類は試行錯誤して学ぶというよりも直感のひらめきで問題をよく解決しているようだということを発見しました。

また、社会学的学習理論(バンデューラ、1977)は人間は個人の経験よりも観察を通して無意識に学ぶことができることを示しています。

オペラント条件付けの研究における動物実験の利用も、外挿問題を取り上げています。

心理学者の中には、動物の構造と生理学が人間とは異なるものであり、動物は自分の経験について考えたり原因や我慢、記憶や慰めを呼び起こすことができないことを理由に動物の研究を人間に一般化することはできないと異論を唱える人もいます。

参考文献

Bandura, A. (1977). Social learning theory. Englewood Cliffs, NJ: Prentice Hall.

Ferster, C. B., & Skinner, B. F. (1957). Schedules of reinforcement.

Kohler, W. (1924). The mentality of apes. London: Routledge & Kegan Paul.

Skinner, B. F. (1938). The Behavior of organisms: An experimental analysis. New York: Appleton-Century.

 

寺谷春のプロフィールはこちら    相談もお気軽にどうぞ。   

ABOUTこの記事をかいた人

性格/思考変革コーチ。認知行動療法、行動科学、コーチング等を専門の分野としながら、エビデンスや心理学に基づき個人の性格や思考を変えていくことのプロフェッショナルです。自身が内向的な性格なこともあり、特に内向的な性格を持つ方の変革を得意にしています。 https://dialog-coach.link/profile/