強化学習とは?機械学習・ディープラーニングとの違いを解説

公開日:2022-08-09 更新日:2024-02-26 by SEデザイン編集部

目次

近年ゲームや自動運転など、さまざまな場面で強化学習を用いたシステムが利用されています。
しかし、名前は知っているけれど、具体的に強化学習とは何かわからないという方もいるでしょう。そこで今回は、強化学習の意味やアルゴリズム・種類についてわかりやすく解説します。

強化学習とは何か?わかりやすく解説

58513503_mまずは、強化学習の意味や概要、用語などについて説明して行きます。

強化学習について理解することはもちろん、似ている言葉としてよく使われる機械学習やディープラーニングとの意味の違いも理解しておきましょう。

強化学習とは?

「強化学習(Reinforcement Learning)」とは、機械学習のひとつの種類です。システムが試行錯誤を繰り返して、適切な制御方法を学習していく技術を指します。

強化学習が実際のシステムに使用されている例として、囲碁AIや将棋AIが挙げられます。囲碁や将棋のゲーム中にシステムが自ら学習し、より良い一手がないか探る仕組みが導入されていることが特徴です。

また、近年普及している掃除ロボットにも強化学習の技術が活用されています。掃除ロボットは、掃除を実行しながら多くのゴミを効率的に取れるルートを学習することで、継続的に適したルートを選択できることが強みです。

機械学習と強化学習

強化学習と似た言葉として使われる用語が「機械学習(Machine Leaning)」です。機械学習とは「AIが自動で学習する仕組み」であり、学習したデータをもとに機械が自動で識別・予測するための技術のことです。

機械学習は、おもに以下の3種類から構成されています。

  •  教師あり学習:正解データあり
  •  教師なし学習:正解データなし
  •  強化学習

ここで言う「教師」とは、人間によって与えられる「正解のデータ」を指しています。

動物をカメラで撮影すると、動物の名前が自動的に表示されるAIシステムを例として考えてみましょう。各動物の画像を正解のデータとして大量に認識させることで、機械は動物の名前を学習していきます。このような方法を「教師あり学習」と呼びます。

それに対して、正解データを与えずに学習させる方法が「教師なし学習」です。データが持つ特徴を機械が分析することで、データの識別や分類を可能にしています。

強化学習は機械学習の一種であり、機械やシステムが自ら試行錯誤しながら学習していく技術です。
先ほどの掃除ロボットの例で考えると、実際にロボットが掃除を行い、ゴミの位置などを手がかりに機械が自ら効率的な手順や進行方向を学ぶことに特徴があります。

ディープラーニングと強化学習

機械学習に飛躍的な貢献をもたらした技術が「ディープラーニング(Deep Learning)」で、さらに強化学習へと応用した方法が「深層強化学習(Deep Reinforcement Learning)」です。

ディープラーニングは機械学習の一種ではありますが、人間が介入せずにデータを分析できる点に大きな特徴があります。従来の機械学習では、分析するデータを学習するための指標である「特徴量」を、人間が抽出・調整する必要がありました。しかしディープラーニングでは、特徴量のために人間が介入する必要がないため、容易に機械学習を行うことが可能です。

強化学習のアルゴリズム

54344020_m機械が強化学習をするまでの過程には、いくつかの「アルゴリズム」が存在します。アルゴリズムとは、計算方法や手順を表すものです。


本項では、機械学習のアルゴリズムから主要な以下の3つをそれぞれ紹介します。

  • DP法(動的計画法)
  • MC法(モンテカルロ法)
  • TD法(時間差分学習法)

DP法(動的計画法)

「DP法(Dynamic Programming)」は、対象とする問題を細かく分割し、計算・処理していくことで学ぶことを表すアルゴリズムです。日本語では「動的計画法」とも呼ばれ、各計算を細かく行うことで学習を進める理論的な方法と言えます。

MC法(モンテカルロ法)

「MC法(Monte Carlo)」は、機械の行動によってどのような結果が得られるかわからない場合に使われるアルゴリズムです。何らかの行動を実際に最後まで実行させることで法則を導き出し、学習を進めていきます。緻密に計算を行うDP法とは異なり、体当たり的に実行を繰り返すことで学習するアルゴリズムとなります。

TD法(時間差分学習法)

「TD法(Temporal Difference)」は、これまで解説したDP法とMC法を組み合わせて行うアルゴリズムです。計算によって進めるDP法と、行動した経験によって学習を進めるMC法から、それぞれのメリットを活用したアルゴリズムと言えます。

TD法は「SARSA」と「Q学習(Q-Learning)」の2種類にわけられます。


SARSAは、機械が行動した結果得られた数値を元に学習していくアルゴリズムです。具体的には、TD法と「ϵ-greedy」と呼ばれる2種類の方法を使って関数の計算を行います。SARSAという名称は、学習で使われる関数で各アルファベットが使用されることから名付けられました。

Q学習とは「max関数」と呼ばれる関数によって行動を学習し、機械の制御を行うアルゴリズムです。
SARSAがϵ-greedyを用いたランダム性の高い方法であるのに対し、Q学習はmax関数を用いて、より価値の高い行動を均一にに選択していく学習手順に違いがあります。

前述したSARSAと得られる結果は同じですが、強化学習においてよく使われているため、学習者の比較的多いアルゴリズムです。

強化学習の活用事例

最後に、強化学習の実際の使い方について、以下4つの活用事例から見ていきましょう。

  • ゲームの活用事例
  • 自動車の活用事例
  • 建物の活用事例
  • IT・Web広告での活用事例

ゲームの活用事例

ゲーム開発分野では、プレイヤーが不満を持たずにプレイするために、ゲームバランスを緻密に調整する必要があります。


ゲームバランスの調整に強化学習を利用している事例が、DeNA社が提供するオセロ風のオンライン対戦ゲーム「逆転オセロニア」です。たとえば、ゲーム内で新キャラクターを登場させる時に、1人だけ強すぎてしまうとゲームバランスが崩壊してしまうでしょう。そこで、各キャラクターのスキルバランスを調整するために強化学習を活用しています。

また、DeepMind社が開発した囲碁対戦用の人工知能「AlphaGO」にも強化学習のアルゴリズムが使われています。AlphaGOが囲碁の名人に勝利した際には「機械が人間を上回った」と報道されたことで当時話題になったことを覚えているという方もいるでしょう。

自動車の活用事例

自動車の自動運転分野においても強化学習のアルゴリズムが用いられている事例があります。

日本のPrefferd Networks社では「自動車の幅に対して車道が狭く、交差点に車が密集している」といった難しいケースの運転に強化学習を利用し、自動運転システムの開発に生かしています。苦手意識を持つ人も多いバックでの運転にも強化学習が活用されていることが特徴です。

自動車業界では、自動運転を含め今後も強化学習の研究が進められていくでしょう。

建物の活用事例

高層ビルにあるエレベーターは、安全性を確保することはもちろん、乗降客の待ち時間が長くならないよう効率的に運行させるための管理が必要です。

そこで近年のエレベーターは、強化学習のシステムを導入し、過去のデータをもとに効率的な運行ルートを選択できるため、乗降客の待ち時間を短縮することに成功しています。

また、株式会社大林組と株式会社Laboro.AIが開発した建物の揺れを制御するためのAIも存在します。
2019年には、建物内に造られた橋を人が渡る際の揺れ方を分析し、自動的に揺れを抑える方法を学習する実験が行われました。この「振動抑制」と呼ばれる方法は、公共交通機関や製造機器など、幅広い場面で応用できると期待されています。

IT・Web広告での活用事例

強化学習は、インターネットを通じて目にするコンテンツのなかでも積極的に使われています。マーケティングツールを開発するナビプラス社は、Web広告の自動最適化システムに強化学習を取り入れています。

広告としての効果をより的確に高めていくため、ユーザーのクリック率などのデータを収集しています。たとえば、広告Aと広告Bではどちらのほうが効果が高かったかなどのデータを集めて強化学習に活用し、Web広告を自動的に最適化しながら利益を高めることが可能です。

また、有料動画配信サービスのNetflix社やByteDance社が運営するショート動画共有アプリTikTokでも強化学習が取り入れられています。

サービスを運営しながら流行や視聴率・離脱率などのデータを収集し、機械に学習させます。この方法によりユーザーの好みに応じたおすすめのコンテンツを表示できるようになれば、顧客満足度や利益を高めていくことができるでしょう。

まとめ

今回は、ゲームから自動運転までさまざまな分野で活用されている機械学習の技術やアルゴリズムについて解説しました。強化学習は、人間が試行錯誤しながら成長していくことと同じように、機械が稼働しながら自ら学習していく技術です。

近年は、生産性の向上や人手不足の解消といった点から、AIに対する社会的な注目度が高まってきました。現在はゲームやWeb広告など、オンラインコンテンツなどを中心に取り入れられています。今後さらに研究が進めば、強化学習はあらゆる場面で活用されることになると予想されます。

幅広い産業で強化学習を用いたAIが本格的に使われるのも、そう遠くない未来だと言えるでしょう。

AI技術はこれからさらに発展していくと予測されているので、早い段階で基本的な活用方法を取り入れておくことが大切です。SEデザインでは、IT分野におけるBtoBマーケティング&セールス支援を行っており、30年以上の実績がございます。業務の効率化や顧客へのアプローチでお困りの際は、お気軽にSEデザインへご相談ください。

SEデザインのサービス一覧を見る

関連記事

コンテンツマーケティングで、
ビジネスの効果を最大化しませんか?

もっと詳しく知りたい方

ご質問・ご相談したい方