YA

In me the tiger sniffes the rose.

  • 主页
  • 世界之内
  • 世界之外
  • 叶隙随笔
所有文章 友链 关于我

YA

In me the tiger sniffes the rose.

  • 主页
  • 世界之内
  • 世界之外
  • 叶隙随笔

Decision Making|人工智能、机器学习与强化学习的概述与比较

阅读数:21962次 2020-10-03
字数统计: 2.4k字   |   阅读时长≈ 10分

之前帆问我,强化学习和机器学习有什么区别,我自以为清楚,但是和她讨论到最后才发现自己对这两个概念很糊涂。当时也查过资料,但是中文资料含糊不清、不够系统,大多文章是复制粘贴,作者不求甚解。

最近在了解making decision under uncertainty的背景知识,看到一篇review,索引至作者的实验室主页,看到有一篇谈论AI、machine learning和reinforcement learning的文章,故认真学习,然后写成博客,以备不时之需。

一、Artificial Intelligence

一般来说,有三种方法企图使用计算机实现智能:

  • Rule-based logic
  • Making estimates using data from the environment
  • Making decisions that interact with the environment

1)Rule-based logic

利用逻辑推理,基于一系列前提条件,利用规则得到结论。类似于多次使用“if…else”语句进行判断、选择。

2)Making estimates using data from the environment

这个问题往往使用Machine Learning方法,而Machine Learning与统计学紧密相关,也被称为统计学习,或者更广泛地说,数据科学。Machine Learning分为两类:

  • supervised learning

使用带标签的数据训练machine learning 模型。

  • unsupervised learning

对不带标签的数据进行聚类。

3)Making decisions that interact with the environment

简单地说,making decision的方法分为以下几类:

  • Rule-based logic
  • Deterministic optimization
  • Reinforcement learning
  • Stochastic optimization

二、Making estimates using data from the environment

所谓的estimates,有三种形式(目的):

  • classification:判断input的类型。
  • inference:对input进行推断。
  • prediction:基于input,进行预测。

三种任务都基于一个共同的框架:已知输入 x,通过统计模型f(.|θ),得到相应的结果 f(x|θ)。为了得到一个效果不错的模型,需要通过最小化模型输出和实际结果的方法,训练模型。

统计模型可以分为三类:

  • Lookup table
  • Parametric models
  • Nonparametric/locally parametric

三、Making decisions that interact with the environment

making decisions的目的,可以分为两类:

  • Decisions that change the environment. 所做的决策会改变环境。
  • Decisions to exchange information. 所做的决策是为了交换信息。而该决策又可以分为两类:
    • Decisions to acquire information 所做决策是为了获取信息。(比如simulation)
    • Decisions to communicate/disseminate information. 所做的决策是为了传递信息,对环境没有任何互动。

实际上,大部分决策既会改变环境,又会交换信息。因为在大部分情况下,改变环境之后,当前的信息肯定会变化,比如说蝴蝶效应,蝴蝶扇一扇翅膀(决策),就会引起龙卷风(改变环境),龙卷风本身也是一种信息,会影响之后的决策。

为了更清晰地表述making decisions,下面将引入一些符号来表示决策过程中的重要概念。“state”,即状态,包含了所有决策所需要的信息,用St表示。St 可以是物理信息Rt 比如汽车的位置、速度,水库的水量等等;也可以是其他的信息It,比如今天的天气情况;或者是某些我们无法观察到的数量的置信 (beliefs) Bt。

什么叫置信 Bt?可以理解成先验,比如数据的均值、方差,比如参数的分布等。所以,纯粹的Decisions to acquire information,因为获得了环境信息,所以对环境的先验知识得到了丰富,因此改变的只有Bt,这是一个learning problem,只是为了学习Bt。关于学习Bt的问题,被称为“多臂老虎机” (multiarmed bandit) 问题。当然,大部分情况下,为了获取Bt而making decision之后,环境状态的Bt会随之变化,相关问题被称为 active learning problem.

还有几个概念。我们使用C(S,x)来表示cost function(或者称为contribution function )。所谓的C(S,x),是用来衡量在状态S下,决策x的好坏。making decision的目的就是选择最好的x,即使得C(S,x)最大的x。C(S,x)是用来衡量决策好坏的,这个评估直接影响决策的选择。我们使用Xπ(S)来表示决策选择函数,xt=Xπ(St)。making decision的核心就是得到最优的决策选择函数Xπ(S)。

(一)什么是reinforcement learning?

强化学习(reinforcement learning)是making decision的一个方法之一,但是这几年热度很高。所有的强化学习方法,都基于“Markov decision processes”。强化学习的核心思想是Q-learning。以下是Q-learning的公式表示:
ˆqn(sn,an)=r(sn,an)+maxa′ˉQn−1(sn+1,a′)ˉQn(sn,an)=(1−α)ˉQn−1(sn,an)+αˆqn(sn,an)


r(sn,an)是奖励函数,评估在状态sn下进行动作an的好坏。α是平滑系数,用来平衡Q(s,a)和q(s,a)对最终结果的影响程度。

Q-learning的思想,简单地说,就是在选定决策an的情况下,计算该决策对下一个状态sn+1的影响,再把这种影响计入对该决策好坏的评定。强化学习方法通过计算Q(s,a)来评估决策的好坏,最好的决策能够最大化Q(s,a)。

(二)reinforcement leanring与machine leanring的交集

换一个角度看machine learning,比如说,如果making decision的目的是为了模仿人的行为,那么人在每一个时间单位的状态s,其实就是x;在每一个状态下的行为a,其实就是y,machine learning模型的目的,就是学习如何将x映射成y,即在状态s下做出怎样的行为a。

但是这仅仅是“模仿”,所谓的making decision,目的在于将决策的performance最大化,而衡量、最大化performance的过程不需要标签y,简单地说,模仿是无法实现决策最优的。

(三)什么是stochastic optimization?

stochastic optimization描述的问题是:进行决策,并根据决策后的环境状态选择下一步决策,但是观察环境状态的行为又会影响到环境状态,从而影响决策。数学化表示,有以下情况:

  • Make decision x, see information W, stop.
  • Make decision x0, see information W1, make another decision x1, stop.
  • Sequential decisions and information: S0,x0,W1,S1,x1,W2,S2,…,WN,SN,xN where Sn is the state variable, which captures everything we need to determine xn. Note that state variables may include beliefs about unobservable parameters.
  • Infinite horizon problems, where N→∞, and where the information Wn comes from a stationary distribution.

stochastic optimization的核心问题是,寻找到一个决定xn(写作Xπ(Sn))的策略选择算法π,从而最大化cumulative reward:
$$
\max {\pi} \mathbb{E}\left(\sum{n=0}^{N} C\left(S^{n}, X^{\pi}\left(S^{n}\right)\right) \mid S^{0}\right)
或者finalreward


\max _{\pi} \mathbb{E} F\left(x^{\pi, N}, \hat{W}\right)
$$
其中$x^{\pi, N}$是指在策略搜索算法$\pi$下$N$次迭代后的策略结果集。

有一点需要注意,接下来将详细分析。整个优化过程如下:

  1. 通过策略选择算法π,选择策略xπ,N。
  2. 计算 cumulative reward 或者 final reward,评估决策好坏。
  3. 优化策略选择算法π。
  4. 重复以上操作,直到 cumulative reward 或者 final reward 最大。

需要注意的点是:已知策略选择算法π,我们该如何选择每一个策略xt,从而得到策略集xπ,N?

可以看到,stochastic optimization的核心问题是通过最大化reward,来优化策略选择算法π。而该核心问题的核心是,如何通过策略选择算法π,选择每一个策略xt,从而形成需要评估的策略集xπ,N,这个问题称为searching over policies。

searching over policies和machine learning中对统计模型的选择有些相像。具体说,machine learning基于cost function来改变模型的参数,从而达到对模型的选择。而策略选择则更加复杂,用什么评判标准来选择每一个policy,在下一节进行讨论。

(四)The classes of policies for stochastic optimization

有2种基本的策略选择方法,而这两种方法各自又可以分成2类:

  1. The policy search class: policies that have to be tuned over time to work well in terms of the performance metric (My opinion: find a function ,which determines the policy, that can make a set of policies that maximize the performance metric)
    • Policy function approximations (PFAs)
      • map state to action
    • Cost function approximations (CFAs)
      • parametrically modified optimization problems (to optimize cost function)

该类简单地说,就是选择对整体效果最好的策略,而不考虑每一个策略对整一个决策链的影响。

  1. The lookahead class: These policies work by finding the action now, given the state we are in, that maximizes the one-period reward plus an approximation of the downstream value of the state that the action takes us to. (modeling the downstream impact of a decision made now on the future.) (My opinion: find a function, which determines the policy, that can make every policy based on current state which have the best performance for the following policies. Like greedy algorithm)
    • Policies based on value function approximations (VFAs)
      • estimate the value of being in this new state, choose the decision that makes the biggest value (like Q-learning)
    • Direct lookaheads (DLAs)
      • make several actions and update them periodically

该方法的思想类似于贪婪思想,searching over policies的策略是,寻找每一个对之后决策积极影响最大的决策。

三、Reference

  • Powell, Warren B. “What is AI?” https://castlelab.princeton.edu/what-is-ai/
  • Powell, Warren B. “From Reinforcement Learning to Optimal Control: A unified framework for sequential decisions.” arXiv preprint arXiv:1912.03513 (2019).
赏

谢谢你请我吃糖果

支付宝
微信
  • 本文作者: YA
  • 本文链接: http://www.yuuuuang.com/2020/10/03/Decision-Making-人工智能、机器学习与强化学习的概述与比较/
  • 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!
  • 世界之内

扫一扫,分享到微信

书评|Normal People, Normal Love
随笔|疫情后的总结
  1. 1. 一、Artificial Intelligence
  2. 2. 二、Making estimates using data from the environment
  3. 3. 三、Making decisions that interact with the environment
    1. 3.1. (一)什么是reinforcement learning?
    2. 3.2. (二)reinforcement leanring与machine leanring的交集
    3. 3.3. (三)什么是stochastic optimization?
    4. 3.4. (四)The classes of policies for stochastic optimization
  4. 4. 三、Reference
© 2018-2025 YA
GitHub:hexo-theme-yilia-plus by Litten
本站总访问量25544次 | 本站访客数20691人
  • 所有文章
  • 友链
  • 关于我

tag:

  • 随笔
  • 年终总结
  • 世界之内
  • 世界之外
  • 叶隙集
  • 机器学习
  • 叶隙随笔
  • 图像处理
  • 数据挖掘

    缺失模块。
    1、请确保node版本大于6.2
    2、在博客根目录(注意不是yilia-plus根目录)执行以下命令:
    npm i hexo-generator-json-content --save

    3、在根目录_config.yml里添加配置:

      jsonContent:
        meta: false
        pages: false
        posts:
          title: true
          date: true
          path: true
          text: false
          raw: false
          content: false
          slug: false
          updated: false
          comments: false
          link: false
          permalink: false
          excerpt: false
          categories: false
          tags: true
    

  • 2024年终总结

    2025-04-08

    #随笔#年终总结

  • 【叶隙集】41 盘旋的白文鸟

    2025-01-12

    #随笔#叶隙集

  • 大语言模型正在伤害人机交互领域的研究

    2025-01-05

    #随笔#世界之内

  • 【叶隙集】40 台湾旅行

    2024-12-22

    #随笔#叶隙集

  • 【叶隙集】39 搬家了

    2024-09-05

    #随笔#叶隙集

  • 2023年终总结

    2024-06-27

    #随笔#年终总结

  • 【叶隙集】38 参加学术会议

    2024-05-22

    #随笔#叶隙集

  • Notes of 3D Gaussian Splatting

    2024-03-19

    #世界之内

  • 【叶隙集】37 音乐会和朋友

    2023-12-04

    #随笔#叶隙集

  • 【叶隙集】36 QE和音乐会

    2023-11-02

    #随笔#叶隙集

  • 【叶隙集】35 新室友和更积极的生活

    2023-09-11

    #随笔#叶隙随笔

  • 读书笔记|《规训与惩罚》

    2023-08-27

    #随笔#世界之外

  • 【叶隙集】34 无法参加学术会议

    2023-06-28

    #随笔#叶隙集

  • 【叶隙集】33 回国后与朋友和家人们的聚会

    2023-06-11

    #随笔#叶隙集

  • 视频压缩技术概述

    2023-04-28

    #世界之内

  • 2022年终总结

    2023-03-31

    #随笔#年终总结

  • 【叶隙集】32 平和的心态

    2022-12-27

    #随笔#叶隙集

  • 【叶隙集】31 双相情绪障碍症

    2022-12-17

    #随笔#叶隙集

  • 【学习笔记】CS5229 Advanced Computer Network

    2022-12-17

    #世界之内

  • 【叶隙集】30 下半学期太忙了!

    2022-11-25

    #随笔#叶隙集

  • 【叶隙集】29 当助教的半个学期

    2022-10-07

    #随笔#叶隙集

  • 【叶隙集】28 忙碌的第一个月

    2022-08-31

    #随笔#叶隙集

  • 【叶隙集】27 老师的职责

    2022-07-31

    #随笔#叶隙集

  • 【叶隙集】26 新加坡太难找工作了

    2022-07-23

    #随笔#叶隙集

  • 【叶隙集】25 生产工具、学习生活和阅读笔记

    2022-07-15

    #随笔#叶隙集

  • 【叶隙集】24 学习、科研、旅行和爱与关怀

    2022-06-24

    #随笔

  • 【叶隙集】23 学习与研究

    2022-04-26

    #随笔#叶隙集

  • 【学习笔记】人工智能规划与决策

    2022-04-26

    #世界之内

  • 博士申请的总结

    2022-03-31

    #随笔

  • 【叶隙集】22 新的体验和宗教

    2022-03-07

    #随笔#叶隙集

  • 2021年终总结

    2022-01-08

    #随笔#年终总结

  • 【叶隙集】21 新朋友和学术报告

    2021-10-31

    #随笔#叶隙集

  • 【叶隙集】20 音乐会与教训

    2021-10-19

    #随笔#叶隙集

  • 【叶隙集】19 六周年纪念日

    2021-10-03

    #随笔#叶隙集

  • 【叶隙集】18 疫情与疫苗

    2021-09-24

    #随笔#叶隙集

  • 摘录|联合国2021年气候问题总结报告的摘要

    2021-09-19

    #世界之外

  • 【叶隙集】17 音乐会和读书

    2021-09-08

    #随笔#叶隙集

  • 【叶隙集】16 喜欢上了游泳

    2021-09-01

    #随笔#叶隙集

  • 【叶隙集】15 课前的夜曲

    2021-08-24

    #随笔#叶隙集

  • 【叶隙集】14 平稳的学习生活

    2021-08-16

    #随笔#叶隙集

  • 【叶隙集】13 生活与朋友

    2021-07-15

    #随笔#叶隙集

  • 【叶隙集】12 毕业

    2021-06-30

    #随笔#叶隙集

  • 【叶隙集】11 毕业前的生活

    2021-06-23

    #随笔#叶隙集

  • 读书笔记|《国境以南,太阳以西》读后感

    2021-06-17

    #随笔

  • 【叶隙集】10 青甘环线旅行

    2021-06-13

    #随笔#叶隙集

  • 半监督学习|论文粗读

    2021-06-07

    #机器学习

  • 【叶隙集】9 纯粹地生活

    2021-06-06

    #随笔#叶隙集

  • 【叶隙集】8 生活的界限

    2021-05-30

    #随笔#叶隙集

  • 【叶隙集】7 隔离结束

    2021-05-21

    #随笔#叶隙集

  • 【叶隙集】6 隔离生活

    2021-05-14

    #随笔#叶隙集

  • 【叶隙集】5 新的阶段

    2021-05-08

    #随笔#叶隙集

  • 【叶隙集】4 团队管理

    2021-04-30

    #随笔#叶隙集

  • 【叶隙集】3 过低的自我评价

    2021-04-23

    #随笔#叶隙集

  • 【叶隙集】2 方向与交往

    2021-04-16

    #随笔#叶隙集

  • 【叶隙集】1 原爆点-续

    2021-04-08

    #随笔#叶隙集

  • 随笔|目的与纯粹

    2021-03-28

    #随笔

  • 随笔|白文鸟

    2021-01-20

    #随笔

  • 写在一百以后——2020年终总结

    2021-01-01

    #随笔#年终总结

  • 随笔|选择

    2020-12-25

    #随笔

  • 读书笔记|《人生的意义》总结、摘录

    2020-11-25

    #世界之外

  • 书评|Normal People, Normal Love

    2020-10-07

    #随笔

  • Decision Making|人工智能、机器学习与强化学习的概述与比较

    2020-10-03

    #世界之内

  • 随笔|疫情后的总结

    2020-09-10

    #随笔

  • 学习笔记@PRML|1 Introduction

    2020-07-31

    #世界之内

  • 随笔|面试后的回顾与思考

    2020-07-26

    #随笔

  • 数据挖掘|数据挖掘概论笔记

    2020-06-24

    #世界之内#数据挖掘

  • 续写|美女或野兽

    2020-06-18

    #随笔

  • 随笔|无常

    2020-05-31

    #随笔

  • 现象学|胡塞尔《小观念》笔记

    2020-05-13

    #世界之外

  • 随笔|我的局限性

    2020-05-13

    #随笔

  • 随笔|胡乱的记录

    2020-04-09

    #随笔

  • 随笔|疫情

    2020-02-16

    #随笔

  • 随笔|怅惘地忖度

    2020-01-29

    #随笔

  • 2019年终总结

    2019-12-08

    #随笔#年终总结

  • 机器学习|Flow-based Model学习笔记

    2019-11-06

    #世界之内#机器学习

  • 【Introduction to TensorFlow】03 卷积神经网络与复杂数据集

    2019-10-31

    #世界之内#机器学习

  • 【Introduction to TensorFlow】02 初识机器学习与计算机视觉

    2019-10-29

    #世界之内#机器学习

  • 【Introduction to TensorFlow】01 TF 快速入门

    2019-10-29

    #世界之内#机器学习

  • 【Introduction to TensorFlow】00 课程概览

    2019-10-29

    #世界之内#机器学习

  • 随笔|呓语

    2019-10-27

    #随笔

  • 周记|面纱 久别重逢

    2019-09-21

    #随笔

  • 学习笔记|拟合优化

    2019-09-15

    #世界之内

  • 周记|爱人 体验 芝诺

    2019-09-07

    #随笔

  • 摘录|造成不幸福的原因之六:嫉妒

    2019-09-06

    #世界之外

  • 随笔|虚无 纵欲

    2019-08-22

    #随笔

  • 周记|尘埃落定

    2019-06-29

    #随笔

  • 周记|本能 愉悦 基因

    2019-06-12

    #随笔

  • 周记|空荡荡

    2019-06-02

    #随笔

  • 四月裂帛——读《女儿红》

    2019-05-30

    #随笔#世界之外

  • 机器学习|主成分分析

    2019-05-10

    #世界之内#机器学习

  • 《好运设计》史铁生

    2019-05-09

    #世界之外

  • 机器学习|感知机与支持向量机

    2019-04-27

    #世界之内#机器学习

  • 周记|记忆 概念 庸俗

    2019-04-27

    #随笔

  • 机器学习|模型评估与选择

    2019-04-17

    #世界之内#机器学习

  • 机器推理|SLD Resolution

    2019-04-06

    #世界之内

  • 第五代计算机

    2019-03-31

    #世界之内

  • 学习笔记|Volume Rendering

    2019-03-31

    #世界之内#图像处理

  • 周记|三月驼云

    2019-03-28

    #随笔

  • 生成对抗网络与强化学习:文本生成的方法

    2019-03-11

    #世界之内

  • 《桨声灯影里的秦淮河》俞平伯

    2019-03-09

    #世界之外

  • 周记|雨

    2019-03-09

    #随笔

  • 《春之积雪》简媜

    2019-03-01

    #世界之外

  • 周记|逃离

    2019-02-15

    #随笔

  • 存在主义是一种人道主义

    2019-02-11

    #世界之外

  • 学习笔记|比较文学

    2019-02-09

    #世界之外

  • 尼采的美学

    2019-02-01

    #世界之外

  • 哲学涉猎

    2019-02-01

    #世界之外

  • 读书笔记|光的诗人——《如何看懂印象派》

    2019-01-28

    #随笔#世界之外

  • 叔本华的生命意志哲学

    2019-01-25

    #世界之外

  • 再也不要把他们弄丢了

    2019-01-21

    #随笔

  • 2018年终总结

    2018-12-31

    #随笔#年终总结

  • 人类的心理行为模式

    2018-12-25

    #世界之外

  • 周记|神经症人格

    2018-12-22

    #随笔

  • 【周记】旋转

    2018-11-30

    #随笔

  • 七牛云Bucket失效

    2018-11-21

    #世界之内

  • 周记|从前的日色慢

    2018-11-21

    #随笔

  • 【数理逻辑】Incompleteness Theorem

    2018-11-10

    #世界之外

  • 专业随想

    2018-11-05

    #随笔

  • 生活

    2018-11-04

    #世界之外

  • 计算机组成与体系结构

    2018-11-04

    #世界之内

  • 【强化学习】Policy Gradient

    2018-11-03

    #世界之内

  • 怀疑是否有价值——怀疑论

    2018-10-30

    #世界之外

  • 周记|Every hero and coward

    2018-10-20

    #随笔

  • Web in Java

    2018-10-11

    #世界之内

  • 周记|十月女泽

    2018-10-02

    #随笔

  • 托福备考

    2018-09-28

    #世界之内

  • 周记|裸体之舞

    2018-09-24

    #随笔

  • 周记|中秋幸福

    2018-09-18

    #随笔

  • History of artificial intelligence

    2018-09-09

    #世界之外

  • 周记|我那无趣的灵魂

    2018-09-09

    #随笔

  • Softmax Regression

    2018-09-08

    #世界之内

  • 周记|Rational

    2018-09-02

    #随笔

  • 贰 《SICP》笔记:模块化、对象和状态

    2018-08-05

    #世界之内

  • 周记|困倦

    2018-08-04

    #随笔

  • 壹 《SICP》笔记:构造数据抽象

    2018-07-31

    #世界之内

  • 周记|原爆点

    2018-07-31

    #随笔

  • 零 《SICP》笔记:构造过程抽象

    2018-07-23

    #世界之内

  • Norms or maybe more

    2018-07-09

    #世界之内

  • 事已至此

    2018-06-24

    #随笔

  • 【增强学习】AirSim搭建

    2018-06-02

    #世界之内

  • 【机器学习】BP算法

    2018-05-26

    #世界之内

  • 【康德】宏大的哲学语境

    2018-05-26

    #世界之外

  • 【康德】康德的研究领域是什么

    2018-05-11

    #世界之外

  • 【高等数学】什么是梯度(期中考试复习思考)

    2018-04-29

    #世界之内

  • 《自控力》读书笔记

    2018-04-21

    #随笔

  • 【线性代数】The Essence of Linear Algebra

    2018-04-21

    #世界之内

  • 【数据结构与算法】临时抱佛脚

    2018-03-10

    #世界之内

  • 科技革命与人类社会——《论工业社会及其未来》读后感

    2018-03-08

    #随笔

  • 《论工业社会及其未来》原文摘录

    2018-02-23

    #世界之外

  • 《如何高效学习》读后总结

    2018-02-19

    #随笔

  • 《精进》chapter-2读后总结

    2018-02-13

    #随笔

  • A Review of Brian - Inspired Computer Vision

    2018-02-11

    #世界之内

  • 最近有个女生,说对我很失望

    2017-12-07

    #随笔

  • 病入膏肓

    2017-01-29

    #随笔

  • 白文鸟

    2016-10-29

    #随笔

  • 《不能承受的生命之轻》读后感

    2016-07-13

    #随笔

  • 都五月份了

    2016-04-29

    #随笔

  • 《四月裂帛》简媜

    2014-09-29

    #世界之外

  • Wuuuudle
  • Nemo
  • Elmo (yyh)
  • highestpeak
  • Kazoo Blog
努力做一名谦逊、独立、乐于思考的学生