codecamp

AI人工智能 构建模块:环境和Agent

环境和智能体(Agent)是人工智能中强化学习的主要构建模块。本节将详细讨论它们:

智能体

智能体是能够通过传感器感知环境,并通过执行器对环境采取行动的任何实体。

  • 人类智能体 拥有眼睛、耳朵、鼻子、舌头和皮肤等感觉器官,相当于传感器;同时拥有手、腿、嘴等器官,相当于执行器。
  • 机器人智能体 使用摄像头和红外测距仪作为传感器,使用各种电机和执行器作为执行器。
  • 软件智能体 将编码的位串作为其程序和行动。

智能体术语

以下术语在人工智能的强化学习中更为常用:

  • 智能体的性能度量 - 这是衡量智能体成功与否的标准。
  • 智能体的行为 - 这是智能体在给定任何感知序列后执行的行动。
  • 感知 - 这是智能体在给定时刻的感知输入。
  • 感知序列 - 这是智能体到目前为止所感知的所有历史信息。
  • 智能体函数 - 这是从感知序列到行动的映射。

环境

有些程序在完全人工环境中运行,仅限于键盘输入、数据库、计算机文件系统和屏幕上的字符输出。

相比之下,一些软件智能体,如软件机器人或软机器人,存在于丰富且无限制的软机器人领域中。模拟器拥有非常详细复杂的环境。软件智能体需要在实时环境中从一系列长的行动中进行选择。

例如,一个旨在扫描客户在线偏好并向客户展示有趣商品的软机器人,既在真实环境中工作,也在人工环境中工作。

环境的属性

环境具有多种属性,如下所述:

  • 离散 / 连续 - 如果环境存在有限数量的不同、明确定义的状态,则该环境是离散的;否则是连续的。例如,国际象棋是离散环境,而驾驶是连续环境。
  • 可观察 / 部分可观察 - 如果可以从感知中确定环境在每个时间点的完整状态,则该环境是可观察的;否则只是部分可观察的。
  • 静态 / 动态 - 如果在智能体行动时环境不发生变化,则该环境是静态的;否则是动态的。
  • 单智能体 / 多智能体 - 环境中可能包含其他智能体,这些智能体可能与该智能体相同或不同。
  • 可访问 / 不可访问 - 如果智能体的感知设备可以访问环境的完整状态,则该环境对该智能体是可访问的;否则是不可访问的。
  • 确定性 / 非确定性 - 如果环境的下一个状态完全由当前状态和智能体的行动决定,则该环境是确定性的;否则是非确定性的。
  • 情节 / 非情节 - 在情节环境中,每个情节由智能体感知然后行动组成。其行动的质量仅取决于该情节本身。后续情节不依赖于前一情节中的行动。情节环境要简单得多,因为智能体不需要提前思考。

AI人工智能 强化学习基础
AI人工智能 使用 Python 构建环境
温馨提示
下载编程狮App,免费阅读超1000+编程语言教程
取消
确定
目录

AI人工智能监督学习(回归)

关闭

MIP.setData({ 'pageTheme' : getCookie('pageTheme') || {'day':true, 'night':false}, 'pageFontSize' : getCookie('pageFontSize') || 20 }); MIP.watch('pageTheme', function(newValue){ setCookie('pageTheme', JSON.stringify(newValue)) }); MIP.watch('pageFontSize', function(newValue){ setCookie('pageFontSize', newValue) }); function setCookie(name, value){ var days = 1; var exp = new Date(); exp.setTime(exp.getTime() + days*24*60*60*1000); document.cookie = name + '=' + value + ';expires=' + exp.toUTCString(); } function getCookie(name){ var reg = new RegExp('(^| )' + name + '=([^;]*)(;|$)'); return document.cookie.match(reg) ? JSON.parse(document.cookie.match(reg)[2]) : null; }