強化学習とは

Michael Chen |コンテンツ・ストラテジスト| 2024年4月3日

この記事の内容

強化学習とは?
強化学習に関するFAQ

強化学習は機械学習（ML）の一形態で、AIモデルに、同じような状況で行動を繰り返すかどうかを支援するモデルがポジティブ、ニュートラルまたはネガティブなフィードバックに基づいて意思決定プロセスを改善していきます。強化学習は、開発者が設定された目標を追求する探索的な環境で行われるため、教師あり学習とも教師なし学習とも異なります。

強化学習では、アルゴリズムは特定の結果に焦点を当てたラベルのないデータセットと連携します。アルゴリズムがデータセットを探索するステップごとに、ポジティブ、ネガティブ、またはニュートラルなフィードバックが生成されます。このフィードバックは、学習プロセスの「強化」部分であり、蓄積されるにつれて、ポジティブ道を進むか、ネガティブな道を回避するかの意思決定をサポートします。最終的に、モデルは結果を達成するために最善の戦略を決定することができます。アルゴリズムはより大局的なゴールを第一に考えているため、このパスには、望みの結果を達成するために、より小さな否定的な結果を積み重ねる、遅延満足のプロセスが含まれている可能性があります。

このようなことに聞き覚えがあるとすれば、それは強化学習が自然な学習プロセスを模倣しているからです。賞賛と報酬、そしてネガティブ的な結果は、幼い動物が餌を狩るにせよ、人間の子供がシンボルを識別することを学ぶにせよ、世界とやりとりし、成功するために、発達中の心の境界を示し、ガイドラインを強化します。強化学習は実世界の学習と同じように機能するため、目先の結果よりも長期的な戦略が重要な、複雑でオープンエンドなシナリオに役立ちます。

ルールや制限、連携された、または動的な関係に満ちた環境において、強化学習は行動の結果に対する理解を促進することで、意思決定のモデルにニュアンスをもたらします。技術的なレベルでは、強化学習はラベル付きデータセットを利用しないため、教師あり学習よりもはるかに高い柔軟性を提供します。また、モデルは実験を通じて学習するため、適応型が生まれ、成功の全領域にわたり、より幅広い解決策を導き出します。モデルは状況に適応することが可能です。

強化学習とは

強化学習とは、モデルがポジティブ、ニュートラル、ネガティブな強化に基づいて意思決定プロセスを改善することです。これは、いくつかの状況で機械学習モデルをトレーニングするための効果的な手段です。強化学習は、よりシンプルな意思決定木を作成することではなく、成功した結果の背後にある戦略を理解することを目的とする場合に特に適しています。

たとえば、AIモデルがゲームでレベルクリアに成功すると、ボーナスポイントやレベルアップなどのリワードが与えられることがあります。一方、ニュートラル強化とは、リワードもペナルティも与えられない状況を指し、通常、モデルの行動が全体的なゴールや目的に大きな影響を与えない場合に使用されます。ネガティブ強化では、モデルが望ましくないパフォーマンスを行ったり、望ましい結果を達成できなかったりした場合にペナルティを課します。たとえば、AIがゲームで不正な手を打ったり失敗した場合、減点やレベルダウンなどのペナルティが与えられます。

強化学習に最適なユースケースは次のとおりです。

ゲーム:最も初期のコンピュータ・チェスの対戦相手は、一連のif/thenルールに基づいて構築されていました。強化学習では、モデルはより広範で有機的な状況、選択、結果の取り込みを受け、より高度なCPUの対戦相手を生み出す複雑な意思決定プロセスを作り出します。
生成AI:強化学習は、生成AIモデルのML基盤の一部になる可能性があります。モデルが画像、テキスト、音声のいずれを生成する場合でも、強化学習は、プロンプトと出力の精度を決定し改善するための、試行錯誤のアプローチを実現します。
マーケティング:すべてのマーケティング・エンゲージメントは、強化学習のチャンスです。顧客がページを開いたか、クリックしたか、そのままページを見続けたか、あるいは開かなかったかによって、ポジティブとネガティブの両方の強化が提供され、それがモデルにフィードバックされることで、より正確なカスタマー・プロファイルが作成されます。
レコメンデーション・エンジン:推奨モデルは、提案ごとに受けたエンゲージメントを通じてポジティブ強化を取得します。これは、カスタマー・プロファイルのより正確なモデルを構築するパターンにつながります。
自動運転車:制御されたシミュレートされた環境で学習することで、自動運転車モデルは状況が複雑になる場合に対する理解を深めることができます。運転は、接近、速度、天候、危険などの要素によって、瞬時に多くの意思決定が行われるため、強化学習により、モデルの意思決定を改善するためのさまざまな対応が可能になります。

こうした場合すべてにおいて、トレーニングの初期段階は、世界を理解し始めた幼児のようなものです。モデルが本番段階に到達する頃には、そのモデルは通常正確な意思決定を行いながら、その正確さのレベルを改善するために継続的な学習ができ、適切な環境とリソースがあれば、チェスのようなゲームをプレイしたり、常に顧客の興味を引く推奨事項を提供したりするなど、そのトピックを極めることさえできる、成熟した、または大人になったと考えることができます。

AIは、CIOがデータを分析してクラウド支出を最適化したり、アーキテクトにコードの調整を提案してエグレスを最小限に抑えたりするのに役立ちます。人工知能のパワーを今すぐ活用して、人材、セキュリティ、その他の課題に対処する方法をご確認ください。

eBookを読む

強化学習に関するFAQ

I強化学習はMLとAIのどちらでしょうか。

強化学習は、ポジティブ、ニュートラル、ネガティブのフィードバックに基づいて意思決定するシステムをトレーニングするために使用することができる機械学習技術です。強化学習を使用するMLモデルは、特定の条件や状況に対する人間の反応をシミュレーションするために設計された、大規模な人工知能モデルの一部になる可能性があります。

強化学習の3つの主な種類を教えてください。

強化学習の3つの主な種類は以下の通りです。

モデルベース:モデルが成功への最適な道筋を構築するためにパラメータを決定する際に、モデルが自由に探索できる環境が作られます。
ポリシーベース:モデルがどの最も高いレベルの成功を達成するポリシーを決定する前に、潜在的な戦略（ポリシー）、アクション（価値）、結果の関係が調査されます。
価値ベース:モデルが最も高いレベルの成功を達成する価値を決定する前に、特定のアクション（価値）に関連する現在の環境が調査されます。

教師あり学習と強化学習の違いを教えてください。

教師あり学習は、ラベル付きデータセットを使用してモデルをトレーニングし、期待された結果を正確に達成できるようにします。強化学習は、より探索的なアプローチを使用しており、モデルが望ましい結果を満たすまで、さまざまな戦略や選択肢を探索できるオープンな環境を提供します。