您的位置:402cc永利手机版 > 402cc永利手机版 > 南京师范大学博士生导师高洪俊教授来我校讲学

南京师范大学博士生导师高洪俊教授来我校讲学

2019-07-12 15:44

讲座结束后,部分教师职员和工人与学员组成讲座内容与高洪俊进行了利害的交换。

随便梯度递减方法(Stochastic gradient descend method)

那便是说怎么着求(theta)呢?贰个宽广的章程是通过梯度递减的措施,迭代的求解(theta)。

高洪俊,南师教师、博导,科学技术四处长。U.S.A.数学商酌商讨员,Stochastics and Dynamics编辑委员会委员,南师学报自然科学版副网编,甘肃省工业与应用数学学会副监护人长,山西省高校“大范围复杂系统数值模拟”注重实验室副管事人,吉林省“藏蓝工程”中国青少年年学术首领,青海省“333”工程第三等级次序作育人选,国防科工作委员会科学技术进步奖一等奖得到者.近来商量兴趣为非线性发展方程和无穷维引力系统,物理、力学和地学(吉优science)中的随机偏微分方程和无穷维随机重力学。已发布满含Adv. Math.、SIAM J. Math. Anal.、J.Differential Equations和九州科学在内的国内外重大期刊杂文160多篇。多次CEO国家基金项目,参预973类别,近日掌管国家自然科学基金入眼项目,四川省自然科学基一项,江苏省深红工程调查钻探基金一项。

多项式基(polynomials basis)

(s)的每一个维度都足以看成贰个特征。多项式基的秘籍是选拔(s)的高维多项式作为新的性状。
比如:二维的(s = (s_1, s_2)),能够选用多项式为((1, s_1, s_2, s_1s_2))或者((1, s_1, s_2, s_1s_2, s_1^2, s_2^2, s_1s_2^2, s_1^2s_2, s_1^2s_2^2))

多项式基方法的通用数学表明:
[ phi_i(s) = prod_{j=1}^d s_j^{C_{i,j}} \ where \ s = (s_1,s_2,cdots,s_d)^T \ phi_i(s) text{ - polynomials basis function} ]

报告中,高洪俊介绍了一类乘法噪声驱动的专断输运方程的强解的相干内容。对于在上空$L^q(0,T;{ mathcal C}^alpha_b({ mathbb R}^d))$ ($阿尔法>2/q$)中的漂移全面及在上空$W^{1,r}({ mathbb 途乐}^d)$中的初值,高洪俊给出了随机强解的留存独一性的印证。同一时候,高洪俊提议与在同等条件下的分明的状态反而的是,那类乘法的人身自由Brown型运动扰动足以促使方程的解适定。对于$阿尔法 1<2/q$且空间维数高于1的图景,可选用安妥的初值条件及漂移周到得到强解的官样文章性。其它,若漂移周全属于$L^q(0,T;W^{1,p}({ mathbb 福特Explorer}^d))$可获得随机强解的一体化可积性,此结果答复了Fedrizzi 和Flandoli建议的浮动周到在$L^q(0,T;L^p({ mathbb PAJERO}^d))$空间中的难题,因此有个别地松开了他们最初的结果。

线性方程的概念

[ phi(s) doteq (phi_1(s), phi_2(s), dots, phi_n(s))^T \ hat{v} doteq theta^T phi(s) doteq sum_{i=1}^n theta_i phi_i(s) ]
(phi(s)) 为特征函数
此处研究特征函数的通用化定义方法。

特意家简要介绍:

n-steps TD

请看原书,不做拗述。

(数学与新闻科学大学 范丽丽 苗山根)

半梯度下跌(Semi-gradient TD(0))

  • 算法描述

    Input: the policy (pi) to be evaluated
    Input: a differentiable function class="math inline">(hat{v} : S^ times mathbb{R^n} to mathbb{R}) such that class="math inline">(hat{v}(terminal, dot ) = 0)

    Initialize value-function weights class="math inline">(theta) arbitrarily (e.g. class="math inline">(theta = 0))
    Repeat (for each episode):
      Initialize (mathcal{S})
      Repeat (for each step of episode):
       Choose $A sim pi(dot  |S) $
       Take action (A), observe (R, S')
       (theta gets theta alpha [R gamma hat{v}(S', theta) -hat{v}(S', theta)] nabla hat{v}(S, theta))
       (S gets S')
      Until (S') is terminal

5月21日,应数学与新闻科学大学约请,南师博导高洪俊教师在数学高校南楼s103开会地点作了题为“Stochastic strong solutions for stochastic transport equations”的学术报告。大学相关标准的助教、本科生、大学生等40余名聆听了本次报告。

恍如方法的最首要

大家先看看守旧办法中留存的标题:

  • 不适用复杂的条件。主因是情景和走路太多,攻略须要大量上空来回想攻略价值。
  • 条件或许是不平静的,过去的经历不能够适用于未来的气象。要求一个通用性的办法来更新战术价值。
  • 陈设价值是贰个数值,缺乏通用性。期望有一个通用的措施来总括计策价值。

就此对类似预测方法的敞亮是,找到一个通用的方法(hat{v}(s, theta))。
数学表示
[ hat{v}(s, theta) approx v_{pi}(s) \ where \ theta text{ - a weight vector} \ theta doteq (theta_1, theta_2, ..., theta_n)^T ]

解释
类似预测方法是指求攻略的气象价值的近似值。
求计策的走动情况价值的近似值叫做近似调控方法(Control Methods)(下一章的剧情)。

蒙特卡洛

  • 算法描述

    Input: the policy (pi) to be evaluated
    Input: a differentiable function class="math inline">(hat{v} : mathcal{S} times mathbb{R^n} to mathbb{R})

    Initialize value-function weights class="math inline">(theta) arbitrarily (e.g. class="math inline">(theta = 0))
    Repeat (for each episode):
      Generate an episode (S_0, A_0, R_1 ,S_1 ,A_1, cdots ,R_t ,S_t) using class="math inline">(pi)
      For (t = 0, 1, cdots, T - 1)
       (theta gets theta alpha [G_t -hat{v}(S_t, theta)] nabla hat{v}(S_t, theta))

微小二乘法TD(Least-Squares TD)

Input: feature representation (phi(s) in mathbb{R}^n, forall s in mathcal{S}, phi(terminal) doteq 0)

$hat{A^{-1}} gets epsilon^{-1} I qquad text{An } n times n  matrix $
(hat{b} gets 0)
Repeat (for each episode):
  Initialize S; obtain corresponding class="math inline">(phi)
  Repeat (for each step of episode):
   Choose (A sim pi(dot | S))
   Take action (A), observer (R, S'); obtain corresponding (phi')
   (v gets hat{A^{-1}}^T (phi - gamma phi'))
   (hat{A^{-1}} gets hat{A^{-1}} - (hat{A^{-1}}phi) v^T / (1 v^Tphi))
   (hat{b} gets hat{b} R phi)
   (theta gets hat{A^{-1}} hat{b})
   (S gets S'; phi gets phi')
  until S' is terminal

本文由402cc永利手机版发布于402cc永利手机版,转载请注明出处:南京师范大学博士生导师高洪俊教授来我校讲学

关键词: 402cc永利手机版