🕹️ Reinforce Lab 🧪

智能體 1: RR Platform v1.0.0

演算法選擇

學習方式:
Q-Table DQN

抉擇策略:
ε-greedy Softmax

超參數設置

學習率 (α): 0.5
回朔率 (γ): 0.95

探索率 (ε): 0.2

熱力值 (τ): 5.0

樂觀值 (ψ): 1

延遲量(ms): 50

價值表概況

📂 載入

狀態池化　[10×10]

動作數量　[5]

資料總數　102 / 500

經驗覆蓋　20.4%

知識同步　神經網路建立中

圖表控制

繪製資料：
價值表格（Q-Table）    價值網路（DQN）

展開狀態：
X 軸：    Y 軸：

切片位置：
跟隨當下    手動控制

維度滑桿