机读格式显示(MARC)

000 01035nam0 2200277 450

001 0000700118

005 20260617171300.0

010 __ |a 978-7-115-63154-1 |d CNY79.80

100 __ |a 20250513d2025 em y0chiy50 ea

101 0_ |a chi

102 __ |a CN |b 110000

105 __ |a ak z 000yy

106 __ |a r

200 1_ |a Joy RL |A Joy Rl |e 强化学习实践教程 |f 江季, 王琦, 杨毅远著

210 __ |a 北京 |c 人民邮电出版社 |d 2025.04

215 __ |a 160页 |c 图 (部分彩图) |d 23cm

330 __ |a 全书大部分内容基于3位作者的实践经验，涵盖马尔可夫决策过程、动态规划、免模型预测、免模型控制、深度学习基础、DQN算法、DQN算法进阶、策略梯度、Actor-Critic算法、DDPG与TD3算法、PPO算法等内容。

333 __ |a 本书适合具有一定编程基础且希望快速进入实践应用阶段的读者阅读

517 1_ |a 强化学习实践教程 |A qiang hua xue xi shi jian jiao cheng

606 0_ |a 机器学习 |A ji qi xue xi |j 教材

690 __ |a TP181 |v 5

701 _0 |a 江季 |A jiang ji |4 著

701 _0 |a 王琦 |A wang qi |4 著

701 _0 |a 杨毅远 |A yang yi yuan |4 著

801 _0 |a CN |b 江苏新华 |c 20250429

905 __ |a WXCSXY |d TP181/442