AI人工智能 构建模块:环境和Agent
环境和智能体(Agent)是人工智能中强化学习的主要构建模块。本节将详细讨论它们:
智能体
智能体是能够通过传感器感知环境,并通过执行器对环境采取行动的任何实体。
- 人类智能体 拥有眼睛、耳朵、鼻子、舌头和皮肤等感觉器官,相当于传感器;同时拥有手、腿、嘴等器官,相当于执行器。
- 机器人智能体 使用摄像头和红外测距仪作为传感器,使用各种电机和执行器作为执行器。
- 软件智能体 将编码的位串作为其程序和行动。
智能体术语
以下术语在人工智能的强化学习中更为常用:
- 智能体的性能度量 - 这是衡量智能体成功与否的标准。
- 智能体的行为 - 这是智能体在给定任何感知序列后执行的行动。
- 感知 - 这是智能体在给定时刻的感知输入。
- 感知序列 - 这是智能体到目前为止所感知的所有历史信息。
- 智能体函数 - 这是从感知序列到行动的映射。
环境
有些程序在完全人工环境中运行,仅限于键盘输入、数据库、计算机文件系统和屏幕上的字符输出。
相比之下,一些软件智能体,如软件机器人或软机器人,存在于丰富且无限制的软机器人领域中。模拟器拥有非常详细且复杂的环境。软件智能体需要在实时环境中从一系列长的行动中进行选择。
例如,一个旨在扫描客户在线偏好并向客户展示有趣商品的软机器人,既在真实环境中工作,也在人工环境中工作。
环境的属性
环境具有多种属性,如下所述:
- 离散 / 连续 - 如果环境存在有限数量的不同、明确定义的状态,则该环境是离散的;否则是连续的。例如,国际象棋是离散环境,而驾驶是连续环境。
- 可观察 / 部分可观察 - 如果可以从感知中确定环境在每个时间点的完整状态,则该环境是可观察的;否则只是部分可观察的。
- 静态 / 动态 - 如果在智能体行动时环境不发生变化,则该环境是静态的;否则是动态的。
- 单智能体 / 多智能体 - 环境中可能包含其他智能体,这些智能体可能与该智能体相同或不同。
- 可访问 / 不可访问 - 如果智能体的感知设备可以访问环境的完整状态,则该环境对该智能体是可访问的;否则是不可访问的。
- 确定性 / 非确定性 - 如果环境的下一个状态完全由当前状态和智能体的行动决定,则该环境是确定性的;否则是非确定性的。
- 情节 / 非情节 - 在情节环境中,每个情节由智能体感知然后行动组成。其行动的质量仅取决于该情节本身。后续情节不依赖于前一情节中的行动。情节环境要简单得多,因为智能体不需要提前思考。
