Intro⚓︎

约 545 个字预计阅读时间 3 分钟

理智决策(rational decision)：

“理智”：最大化实现预期（因为世界是不确定的）的目标（即结果的实际效用(utility)）
实际上，这门课讨论的是可计算的理智 (computational rationality)

对智能 (intelligence) 的不同看法：

基于技术 (skill-based) 的观点
实体 (embodiment) 观点
心理测量学 (psychometrics) 观点
与人类和睦共处 (human-compatible) 的观点

关于大脑：

大脑善于进行理智决策，但并非完美
大脑不像软件那样模块化，因此难以逆向工程
AI 在某些方面做得比大脑好
目前 AI 的规模远不如大脑（人脑有 100T 的突触，但 GPT4 只有 1.8T 的权重）

理智代理体(rational agents)：

代理体：能够感知（利用传感器(sensors)）和行动（利用制动器(actuators)）的实体
- 感知：包括认知(percepts)、环境和行动空间
- 环境的不同类型：
  - 部分可观察 (partially observable) 环境和完全可观察 (fully observable) 的环境
  - 随机 (stochastic) 环境（一次行动可能带来不同可能结果）和确定 (deterministic) 环境（一次行动带来一个确定结果）
  - 多代理体 (multi-agent) 环境
  - 静态 (static) 环境和动态 (dynamic) 环境（环境是否会因为代理体的行动而改变）
  - 已知 (known) 环境和未知 (unknown) 环境
理智代理体能够选择最大化自己（预期）效用的行动
分类：
- 反射代理体(reflex agent) -> consider how the world IS
  - 根据当前的感知（可能也考虑内存信息）来选择行动
  - 可能有一个存储当前环境状态的内存或模型
  - 不考虑当下行动的影响
- 规划代理体(planning agent) -> consider how the world WOULD BE
  - ask "what if"
  - 根据（假设的）行动后果做出决策
  - 必须有一个用于记录环境随行动的变化的模型
  - 必须为达到目标而深思熟虑
  - 最优规划 vs. 完全规划
  - 规划 vs. 重规划
理智代理体的抽象模型：
理智代理体的核心部件（同时也是这门课程的主题）：
- 搜索和规划 (search & planning)
- 概率和推断 (probability & inference)
- 监督学习 (supervised learning)
- 强化学习 (reinforcement learning)

评论区

如果大家有什么问题或想法，欢迎在下方留言~