基于matlab的强化学习QLearning路径规划性能仿真
创始人
2024-01-25 14:10:00
0

目录

1.算法概述

2.仿真效果预览

3.核心MATLAB代码预览

4.完整MATLAB程序


1.算法概述

       假设我们的行为准则已经学习好了, 现在我们处于状态s1, 我在写作业, 我有两个行为 a1, a2, 分别是看电视和写作业, 根据我的经验, 在这种 s1 状态下, a2 写作业 带来的潜在奖励要比 a1 看电视高, 这里的潜在奖励我们可以用一个有关于 s 和 a 的 Q 表格代替, 在我的记忆Q表格中, Q(s1, a1)=-2 要小于 Q(s1, a2)=1, 所以我们判断要选择 a2 作为下一个行为. 现在我们的状态更新成 s2 , 我们还是有两个同样的选择, 重复上面的过程, 在行为准则Q 表中寻找 Q(s2, a1) Q(s2, a2) 的值, 并比较他们的大小, 选取较大的一个. 接着根据 a2 我们到达 s3 并在此重复上面的决策过程. Q learning 的方法也就是这样决策的. 看完决策, 我看在来研究一下这张行为准则 Q 表是通过什么样的方式更改, 提升的.

       Q-Learning​它是强化学习中的一种 values-based 算法,​是以QTable表格形式体现​,在学习中遇到的任何操作存入QTable中,根据之前的学习选择当前最优操作,也可以根据设置的e_greedy机率随机选择。​

       ​Q-Learning的QTable标签更新公式:
  

Q-Learning的计算步骤:​

​1.判断在当前位置可以有几种操作;​

​2.根据当前位置允许的操作选择一个操作;​

​3.根据选择的操作进行奖赏;​

​4.修改当前行为的本次操作权重;

2.仿真效果预览

matlab2022a仿真测试如下:

 

3.核心MATLAB代码预览

NNPolicy=zeros(prod([driver_actions Xscale Yscale]),1); 
for i=1:pathtimesiPositions = stpt;   drivers   = 0;   %开车E         = zeros(prod([driver_actions Xscale Yscale]),1);for j=1:maxiter%计算训练驾驶策略if j>=2   Choice      = ndi2lin([1 Positions(1) Positions(2)],[driver_actions Xscale Yscale]);Choice2     = ndi2lin([drivers Prestate(1) Prestate(2)],[driver_actions Xscale Yscale]);delta       = feedback + cb*max(NNPolicy(Choice:Choice+driver_actions-1))-NNPolicy(Choice2);E(Choice2) = 1;NNPolicy   = NNPolicy + ca*delta*E;E          = cb*lambda*E*~exploring;end%选择动作Choice  = ndi2lin([1 Positions(1) Positions(2)],[driver_actions Xscale Yscale]); Choice  = [Choice:Choice+driver_actions-1];                              tmps    = find(NNPolicy(Choice) == max(NNPolicy(Choice)));   %是否转向        drivers = tmps(ceil(rand * length(tmps)));   %探索策略if rand32Error(k)=mean(Itertion_times(length(Itertion_times)-32+1:length(Itertion_times))); elseError(k)=mean(Itertion_times(1:length(Itertion_times))); endk=k+1;
end
A_005

4.完整MATLAB程序

matlab源码说明_我爱C编程的博客-CSDN博客

V

相关内容

热门资讯

济南的引路留学机构好吗,济南留...   当前,我国经济社会发展进入经济新常态,“新常态”效应突出。工业园区作为推进新型工业化的重要载体,...
深圳市自主创业补贴,创业补贴办...   #深圳创业补贴是真的吗?深圳电商创业补贴      90后,他们一步步步入社会发展,普遍成为各个...
上证和创业板都什么板块,上证指...   创业板指数和上证指数      出现了明显的偏差。      可能会有大资金慢慢退出创业板。  ...
怎么大量获取贷款客户信息,哪个...         】:2020年,深圳升级创业担保贷款政策,优化贷款服务。现在办理贷款的银行增加到5家...
没钱走投无路怎样创业,个人创业...   亏400万总结的翻身经验告诉你。      很多人可能不同意,但说到关键就很有用了!不管你现在口...
创业孵化园骗局,杭州创业免费办...   广州的写字楼和600元/Station/Month!一样低      地址:广州市广百创富港文化...
吉利几何纯电动汽车出租车版,吉...   近日,Buya.com(Buycar.cn)获悉,吉利成都工厂的第5300辆吉利帝豪EV450新...
无尽噩梦1破解版下载,游戏无尽...   魔兽世界TBC怀旧服P3阶段开启后,会开启一大波穿甲装备,使得穿甲流成为非常有价值的流派。侦察兵...
嘉兴宝妈创业,嘉兴市创新创业计...   @南湖区、秀洲区、经济开发区宝大马宝:      根据《幼儿园管理条例》1《幼儿园工作规程》等相...
今日局地可达40℃以上 中央气...   中央气象台7月17日6时继续发布高温橙色预警:  预计7月17日白天,陕西关中至黄淮中西部以南大...