### Actor
在強化學習中,Actor(行動者)是智能體的策略模型,它用於生成在特定狀態下應該執行的行動。Actor 的主要任務是決定在給定狀態下應該選擇哪個行動,以最大化總體的長期獎勵。
Actor 在強化學習中有不同的用途和形式:
1. **Policy-Based Methods**: 在策略基方法中,Actor 是策略模型,用於生成行動。策略可以是確定性的(即對於每個狀態,只生成一個特定的行動)或是隨機的(即生成一個行動的機率分布)。通過優化策略,可以直接學習最優的行動。
2. **Policy Gradient Methods**: 在這種方法中,Actor 使用策略梯度來更新策略,以使得長期累積的獎勵最大化。策略梯度方法根據獎勵信號調整策略參數,從而改進行動選擇。
3. **Actor-Critic Methods**: 在這種方法中,Actor 與 Critic(評價家)結合在一起。Actor 負責生成行動,而 Critic 提供對狀態或行動價值的估計。Actor 根據 Critic 提供的價值信號來調整策略,以最大化長期獎勵。
4. **Deterministic Policy Gradient (DPG)**: 在這種方法中,Actor 學習生成確定性策略,並且通過對行動的梯度進行更新。DPG 通常在連續行動空間中工作。
Actor 在強化學習中是策略模型,它決定在給定狀態下應該執行的行動。Actor 的訓練目標是根據獎勵信號來改進策略,以最大化長期獎勵。不同的方法和技術可以用於訓練 Actor,以使其在不同情境下做出適當的行動選擇。
### Critic
在強化學習中,Critic(評價家)是一種用於估計行動的價值或質量的模型。Critic 的主要任務是評價一個狀態或行動的好壞,通常以某種形式的價值函數來表示。這有助於決定哪些行動在特定情境下更有可能產生高獎勵,從而指導智能體的決策。
在強化學習中,Critic 可以有不同的形式和用途:
1. **Value-Based Methods**: 在值基方法中,Critic 用於估計每個狀態的價值。這有助於智能體選擇在哪個狀態採取行動,以最大化長期累積的獎勵。最著名的方法是 Q-learning 和 Deep Q-Networks(DQN)。
2. **Advantage Estimation**: 在某些算法中,Critic 用於估計行動的優勢值,這是指相對於平均值的獎勵差異。這有助於衡量一個行動相對於其他行動的好壞。
3. **Policy Gradient Methods**: 在這種方法中,Critic 用於計算行動的分數或分數梯度,以指導策略(Policy)的更新。Critic 提供了對行動價值的估計,從而幫助優化策略以最大化期望獎勵。
4. **Actor-Critic Methods**: 這是結合策略和評價家的方法。Critic 提供對狀態或行動價值的估計,而 Actor 則用於生成行動。這種方法可以使得學習更加穩定和高效。
Critic 在強化學習中扮演著評價和指導的角色,它的主要功能是對狀態或行動的價值進行估計,以幫助智能體做出更好的決策,從而獲得更高的長期獎勵。
### On-Policy vs Off-Policy
在強化學習中,On-Policy 和 Off-Policy 是兩種不同的學習方法,用於訓練智能體的策略。
**On-Policy 學習**:
On-Policy 學習方法基於當前正在使用的策略來收集數據,並且這些數據被用於更新該策略。換句話說,智能體使用自己的策略來探索環境,收集數據,然後使用這些數據來改進同一個策略。
典型的 On-Policy 方法包括:
- Policy Gradient Methods
- A3C(Asynchronous Advantage Actor-Critic)
- TRPO(Trust Region Policy Optimization)
**Off-Policy 學習**:
Off-Policy 學習方法使用不同的策略生成數據,然後將這些數據用於更新目標策略。換句話說,智能體使用一個策略(稱為行動策略)來探索環境,但收集的數據卻用於改進另一個策略(稱為目標策略)。
典型的 Off-Policy 方法包括:
- Q-Learning
- DDPG(Deep Deterministic Policy Gradient)
- SAC(Soft Actor-Critic)
- TD3(Twin Delayed Deep Deterministic Policy Gradient)
**比較**:
- **On-Policy 學習**通常較為穩定,但收斂速度可能相對較慢,因為它必須依賴正在使用的策略來生成數據,而這策略可能還不夠好。
- **Off-Policy 學習**通常具有更快的收斂速度,因為它可以利用更多不同策略生成的數據,但它可能更容易受到數據不穩定性的影響。
選擇使用 On-Policy 還是 Off-Policy 取決於問題的性質、資源的可用性和算法的效果。有時候甚至可以將這兩種方法結合起來,以獲得更好的性能。
### TODO
state -> Agent -> action
action -> Game -> state, reward, over
find a best Agent to maximize receive reward before Game Over