| 中国 |
|
|
|
![]() |
VSE 管理软件 A.03.00.00 发行说明 > 第 5 章 应用程序专用的发行说明Global Workload Manager 发行说明 |
|
部署 SRD 时,Global Workload Manager 可对系统上可用的 CPU 进行完全控制。但是,在下列情况下必须进行手动调整:
Global Workload Manager A.03.00.00 与早于 A.02.00 的 HP Integrity VM 版本不兼容。如果要使用 gWLM A.03.00.00 管理虚拟机,HP 建议升级至 HP Integrity VM A.03.00 或更高版本。 如果未升级,则可能显示以下消息: Unable to deploy SRD name: A VM encountered with no size 或 Unable to deploy SRD 'name':guestCpuSetEntitlement (): hpvm_nonvm_cpu_set_entitlement (HPVM_NONVM, (100.000000,100.000000),FALSE) failed: (0,90) 如有可能,请升级至 HP Integrity VM A.03.00 或更高版本。 如果无法对 HP Integrity Virtual Machines A.01.20 版进行升级,则必须在 VM Host 上安装 gWLM 代理 A.02.00.00 版。 如果不能从 HP Integrity Virtual Machines A.02.00 进行升级,请安装 gWLM 代理 A.02.50.00 或使用 gWLM A.03.00.00 只管理以百分比形式指定动力保障能力的虚拟机(也就是说,不会管理以 CPU 周期形式指定动力保障能力的虚拟机)。 要获取 gWLM 代理的早期版本以及该配置的相关帮助,请通过电子邮件地址 <gwlmfeedback@rsn.hp.com> 与 HP 联系。 不能将 gWLM 与 Process Resource Manager (PRM) 或 Workload Manager (WLM) 一起使用,在同一时间管理同一系统。尝试此操作将出现一条消息,指明当前正在实际管理系统的应用程序已占用锁。要在此情况下使用 gWLM,请首先关闭占用锁的应用程序。 对于 PRM,请输入下列命令:
对于 WLM,请输入以下命令:
有关 Global Instant Capacity 和 gWLM 一起使用时的限制的信息,请访问 http://docs.hp.com/en/vse.html,并查阅白皮书“Using Global Workload Manager 3.0 with Global Instant Capacity”。 根据工作负荷的特性,gWLM 可快速地迁移 CPU 资源。在极少数情况下,此频繁迁移可潜在地产生一种争用状态,从而导致虚拟分区崩溃。同时,还可能使系统出现混乱,并生成下列一个或多个消息: No Chosen CPU on the cell-cannot proceed with NB PDC. 或 PDC_PAT_EVENT_SET_MODE(2) call returned error 如果从 SRD 中的 VM Host 迁移虚拟机,则必须先从该 SRD 删除该虚拟机,然后在新的 VM Host 上将其添加到 SRD。 在迁移虚拟机之前请先从 SRD 中删除该虚拟机。如果在未从 SRD 中删除虚拟机的情况下进行迁移,将会出现下列情况,具体取决于所使用的界面。 Global Workload Manager A.03.00.00 包含下列缺陷修复程序。 在编辑定制策略时,选择 OK 按钮会将 Metric Response 值设置为 Inverse。 如果正使用 gWLM 且拥有下列两种基于分区的 SRD 中的一种,并且已将分区中的 gWLM 代理从 gWLM A.01.x 升级到 gWLM A.03.00.00,则不能将同一组合系统中的其他分区添加到该 SRD:
在 CMS 上使用以下步骤重新建立 SRD:
为了满足 SRD 策略,Global Workload Manager 可根据需要激活 TiCAP。要避免不必要的 TiCAP 损耗,必须拥有足够数量的带有永久许可证的 CPU。如果 SRD 大于此数量,则需要消耗 TiCAP 来满足 SRD 的需要。 gWLM 一次只能在一个已部署的 SRD 中管理工作负荷。因此,如果工作负荷与 Serviceguard 程序包直接关联(通过 Workload Definition 对话框中的选择器来设置),gWLM 只能在可能运行该工作负荷的一个主机上来管理该工作负荷。 如果虚拟机与 Serviceguard 程序包关联,则该虚拟机在每个 VM Host 上表示为不同的工作负荷。 无论哪种情况,由于工作负荷与 Serviceguard 程序包关联,当前无法管理单个工作负荷。 在使用 iCAP 的 nPartition 中使用带有虚拟分区的单元本地处理器,会导致 icod_modify 命令失败。 Global Workload Manager 可允许组合系统中的多个 SRD 使用 TiCAP;它应防止这种情况的发生。 对已部署的大型 SRD 的配置进行的更改,可能需要较长的时间(几分钟)才能生效。 当迁移 CPU 时,HP 产品 System Fault Management (SFM) 和事件监视服务(尤其是 EMS 硬件监视程序)将生成某些事件或指示。根据工作负荷的特性,gWLM 可快速地迁移 CPU。随着时间的推移,此频繁迁移可产生大量事件,从而对 HP SIM CMS 的性能产生负面影响。 可以使用下列选项作为解决办法:
有关以上任何一种解决办法的详细信息,请参阅 HP SIM 文档资料(可从 http://www.hp.com/go/hpsim 获得)。 CMS 响应太慢。 在 CMS 上为 gwlm list 命令计时。如果花费的时间超过 10 秒,请执行下列步骤:
可以在使用早期版本 gWLM 的 CMS 上安装较新的 gWLM 代理。例如,可以在使用 CMS A.02.00.00.x 版的系统上安装 A.03.00.00 代理。此配置无效并将使系统不可用。 发出删除工作负荷的请求后,可能需要较长的时间(几分钟)才能完成删除操作。 在安装了 Integrity VM 的系统上安装 gWLM 代理时,发现操作将仅报告 Integrity VM 隔离专区,即使存在 pset 和 fss 组也是如此。 在使用 gWLM 命令行界面时,除非工作负荷在 SRD 中已经有一个同级受管工作负荷,否则不能将此工作负荷添加到此具有嵌套分区的 SRD 中。 在尝试从具有嵌套分区的 SRD 中删除最后一个(缺省)fss 组时,可能出现一条包含以下文本的消息: Unable to remove workload workload_name: Attempting to remove a compartment with an unachievably low Fixed policy size. Increase the Fixed policy resource amount and try again. 在监视 HP-UX 11i v1 系统上的 nPartition 中具有虚拟分区的 SRD 时,nPartition 的受监视大小可能已过时。 如果在已安装 Integrity VM A.02.00 的系统上安装 gWLM A.03.00.00,syslog 中会收到以下格式的消息: vm_fssagt[2461]: dangerous REALTIME job 2686 gwlmagent 在 gwlmagent 的位置,可能显示 parstatus、HPUXChildWrap 或 wbemexec。 系统将显示类似以下内容的消息: Information Error during shutdown. The unbinding of objects in the registry may have failed, and the workload management lock has not been released. Associated Exception com.hp.gwlm.common.JniPlatformException: prm_ctrl_rel_cfg_lock failed because vm_fssagt:8343 is the lock owner 如果系统具有 pset,则 gWLM 只将 pset 0 用于 fss 组。gWLM 只能管理分配给 pset 0 的 CPU。 Global Workload Manager 发现操作不总是报告已停止的虚拟机的当前信息。具体而言,当停止了虚拟机并更改了 vCPU 的数量后,gWLM 发现操作并不显示更改后的 vCPU 数量。而是显示虚拟机最近一次启动后的 vCPU 的数量。 作为一种客户端/服务器应用程序,gWLM 比其他类型的应用程序对主机的网络配置更为敏感。gWLM 仅支持在单个网络域内进行管理。例如,如果您的 CMS 主机具有连接到多个独立网络的多个网络接口卡,gWLM 要求将完全限定的主机名解析为可由要管理的 gWLM 代理访问的 IP 地址。 当主机同时连接到下列两项时尤其需要考虑此问题:
Global Workload Manager 会尝试检测和报告那些可能会产生意外行为的网络配置问题,但在某些情况下,进行这种检测的环境只能将问题记录到日志文件中。 gWLM 不支持主机名别名,仅支持规范的 DNS 主机名(完全限定的域名)。 可能会在 HP SIM 的 gWLM 界面中显示以下消息: Unable to build a single shared resource domain from the set of specified hosts: myhostA.mydomain.com myhostB.mydomain.com 在使用 Manage New Systems 向导或 gwlm discover 命令时可能会显示以下消息: Error during discovery of compartments. 此外,文件 /var/opt/gwlm/gwlmagent.log.0 包含以下消息: com.hp.gwlm.common.PlatformException: /usr/sbin/parstatus -w exited with a non-zero exit status. Captured stderr is: Error: Unable to get the local partition number. 此问题极有可能是由于 nPartition Provider 软件的版本太旧造成的。Global Workload Manager 使用 nPartition Provider(通常每个版本的 HP-UX 均包含此软件)提供的命令来确定系统的功能。 还可使用 /opt/vse/bin/vseassist 命令来诊断问题。 即使不使用 nPartition,也应安装最新的 nPartition 软件。 对于 HP-UX 11i v1,请使用 B.11.11.01.03.01.01 或更高版本。 对于适用于 HP 9000 服务器的 HP-UX 11i v2,请使用 B.11.23.01.03.01.01 或更高版本。 对于适用于 HP Integrity 服务器的 HP-UX 11i v2,请使用 B.11.23.01.04 或更高版本。 可从下列位置找到此 nPartition Provider:
有时,gWLM 代理和 gWLM CMS 在是否已经实际部署 SRD 的问题上有分歧。当使用 Ctrl-C 来中断 gwlm deploy 或 undeploy 命令时,会出现这种情况。如果保存 gWLM 配置(已部署该配置,然后将其保存到 gWLM 配置储备库)时出现错误,也会出现这种情况。如果部署完成而保存失败,则 gWLM 代理将此 SRD 视为已经部署,而 CMS 将其视为未部署。 系统可能会重复显示类似下列消息之一的消息:
即使可以确定在特定时间段已经部署了 SRD,仍然可能没有可用于图形化的历史数据。 当选择了预期要发生大量系统活动的时间段,而图形仅显示有限的活动时,会出现相关问题。与此类似,您可能预期在某个时间段发生很少的活动,而图形却显示大量活动。 当尝试查看实时报告时,可能会显示以下消息: Real-time data is currently loading, please wait...You might also verify that the remote node is running and SRDs have been deployed. Global Workload Manager 在命令行上或在 HP SIM 的图形界面中可能不会显示 SRD 的监视更新内容。造成这种情况的原因可能是尝试重组 SRD 时超时,这时必须重新启动该 SRD 的每个受管节点上的代理。另外的原因可能是受管节点关闭、挂起或没有运行 gwlmagent。 如果受管节点关闭或 gwlmagent 未运行,将显示以下消息: The gWLM agent process on the host is not running -- start the agent and retry. 如果受管节点挂起,或者 SRD 需要重新启动其所有代理,其现象可能包括:
如果 SRD 不能在一段持续时间内提供实时监视,请重新启动 SRD 中每个受管节点上的 gWLM 代理。 在 SRD 成员挂起的情况下,当对该 SRD 的实时监视被阻止时,其他 SRD 将继续管理资源。但由于挂起的 SRD 成员,对其他 SRD 的实时监视将可能被阻止。要恢复对其他 SRD 的监视,请执行下列操作:
gwlm monitor 命令似乎运行异常。 来自 gwlmreport 的报告基于某个报告时段,该报告时段从报告开始之日的午夜开始,到报告结束之日的午夜结束。如果报告时段开始或结束时间跨越午夜,则相应交错时段内的采样数据不会包括在该报告中。 此问题仅影响 gWLM A.02.00.00.x 代理。 策略权重有助于 gWLM 在存在剩余资源时确定资源分配。如果将在 SRD 中使用的所有策略的权重设置为同一个值,应使资源平均分配给相关联的工作负荷。但是,如果将 SRD 中的所有策略的权重设置为零,将导致全部剩余资源都分配给单个工作负荷。 在具有嵌套分区的 SRD 中,在固定值的总和小于父级隔离专区最小值时分配 Fixed 策略,可使工作负荷获得多于在 Fixed 策略中指定的资源。 此问题将影响 gWLM A.01.01.x 代理和 gWLM A.02.00.00.x 代理。 定义策略时(可选)指定的聚合率值仅影响 custom 策略。OwnBorrow 和利用率策略不受其影响。 Custom 策略使用通过 gwlmsend 命令提供的度量标准值。如果重新部署具有 custom 策略的 SRD,则会丢失该策略度量标准的最新值。在此情况下,gWLM 的分配将基于工作负荷策略中指定的最低要求。工作负荷还可以接收在满足全部策略后余下的任何 CPU 资源。 当 /var 已满时尝试运行 gwlm 命令导致核心转储。 此时可能会显示包含以下文本的消息: ...unable to create new native thread gWLM 通常不允许在单个 nPartition 或系统上同时创建多个基于虚拟分区的 SRD。但是,如果多个 gWLM 用户几乎在同一时间部署 SRD,则 gWLM 可能会无意中允许创建这样的多个 SRD。 系统将显示类似以下消息的消息: Error trying to deploy SRD, mysystem.vpar.000 to mysystem2.mydomain.com. SRD, mysystem2.fss.000 is already deployed. Only one SRD is allowed to be deployed. 在 HP-UX 11i v2 (B.11.23) 上,fss 组内的应用程序在单处理器虚拟分区、nPartition 或系统上运行时可能会挂起。 在 XML 配置文件中使用 compositePolicyDefinition 元素定义条件策略时,请使用 conditionItem 元素指定条件。对于每个 conditionItem 元素,请指定 gWLM 用于确定评估顺序的顺序值。当前,对于相同 compositePolicyDefinition 元素中的不同 conditionItem 元素,gWLM 接受相同的顺序值,但无法对其进行评估,并且不会提供提示。在这种情况下,gWLM 会生成一个错误。 如果隔离专区基于 pset 或 fss 组,则可以通过 gWLM 使用具有备用名称的应用程序记录将脚本放置在该隔离专区中。只有当文件 /etc/shells 中列出了正在使用的 shell 或解释程序时,才可执行此操作。通常,perl 不位于此文件中。因此,未正确放置 perl 脚本(以及其他任何基于未列在 /etc/shells 中的 shell 或解释程序的脚本)。 可执行文件不受此问题影响。 在下列条件下,使用 gwlmplace 命令在受管节点上放置的所有进程都将丢失:
在这些情况下,将根据适用的任何应用程序记录或用户记录放置进程。如果不存在任何记录,则将非超级用户进程放置到缺省 pset 或缺省 fss 组,将超级用户进程保留在其当时所在的位置。 当 gWLM 正在系统上管理 pset 时,该系统上的每个进程都必须在一个工作负荷下运行。gWLM 将根据您在创建或编辑工作负荷定义时指定的应用程序记录或用户记录来放置进程。如果不存在任何记录,则进程将受放置规则的制约,这些放置规则在联机帮助主题“pset / fss group tips”的“Precedence of placement techniques”部分进行了说明。 如果使用 psrset 命令在 pset 中放置进程,gWLM 可能将这些进程移动到缺省 pset 中。 由 gWLM 创建的 fss 组可能被放弃,并且无法被轻易删除。这种情况的发生可能由多种原因造成。例如,当管理基于 fss 组的 SRD 时,使用了另一个 CMS(可能是因为原来的 CMS 已停止运行)。这样将使 SRD 具有无法删除的 fss 组。 使用 HP SIM 界面,可创建与现有的 fss 组自动集成的新的 SRD。 或者,可删除 fss 组,此种情况下有多种选择。如果安装了 PRM,请输入以下命令:
如果没有安装 PRM,请使用以下步骤:
现在,fss 组即会从系统中消失,但是,fss 组的工作负荷定义仍位于 gWLM 配置储备库中。可以通过使用 HP SIM 中的 gWLM 界面来删除这些定义和 SRD 定义。选择工具 已部署 SRD 中的虚拟机的大小或分配可能显示为小于其策略最小值。 在 VM Host 上部署 SRD 时,如果超额订购了 CPU,gWLM 会将 NONVM 的当前大小显示为负值。 当尝试取消管理已启动的虚拟机时,即使此时显示以下消息,也会取消部署 SRD: The virtual machine VM_name on host hostname is on but does not have an associated gWLM policy. Please turn the virtual machine off, or apply a gWLM policy to provide the necessary resources. Global Workload Manager 的日志文件使用文件扩展名 .log.0、.log.1 和 .log.2。并使用 Java 文件锁定来确保在任何给定时间里仅一个 gWLM 进程能够更新日志文件。从 Java 1.4.2.06 开始,文件锁定功能允许创建的文件具有 .log.0.n 形式的扩展名,其中 n 为某个整数。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||