OceanBase 与并行执行相关的 Hint
PARALLEL Hint
PARALLEL
Hint 是语句级的 Hint,用来指示优化器指定并行操作可使用的并行线程的数量。此 Hint 将覆盖初始化参数 PARALLEL_DEGREE_ POLICY
的值。该 Hint 适用于语句的 SELECT
、INSERT
、MERGE
、UPDATE
和 DELETE
部分,以及表扫描的部分。如果违反了任何的并行限制,则 PARALLEL
Hint
被忽略。
以下是 PARALLEL
Hint 的语法:
/*+ PARALLEL(integer) */
注意
如果还进行了排序或分组操作,那么可以使用的线程数量是 PARALLEL
Hint 中的值的两倍。
PARALLE
Hint 中参数 integer 的值用来指定并行度。
以下示例中,指定数据库的并行度为 5:
SELECT /*+ PARALLEL(5) */ last_name
FROM employees;
USE_PX Hint
USE_PX
Hint 强制指示服务器在执行 SQL 语句时使用 PX 模式,PX 模式允许在执行语句时采用多线程方式。一般 USE_PX
Hint 和 PARALLEL
Hint 配合使用。
以下是 USE_PX
Hint 的语法:
/*+ USE_PX */
示例如下:
SELECT /*+ USE_PX PARALLEL(4)*/ e.department_id, sum(e.salary)
FROM employees e
WHERE e.department_id = 1001;
GROUP BY e.department_id;
NO_USE_PX Hint
NO_USE_PX
Hint 强制指示服务器在执行 SQL 语句时避免使用 PX 模式。
以下是 NO_USE_PX
Hint 的语法:
/*+ NO_USE_PX */
示例如下:
SELECT /*+ NO_USE_PX*/ e.department_id, sum(e.salary)
FROM employees e
WHERE e.department_id = 1001;
GROUP BY e.department_id;
PQ_DISTRIBUTE Hint
PQ_DISTRIBUTE
Hint 指示优化器怎样在程序(查询)服务器和消耗(负载)查询服务器之间分配行。您可以通过该 Hint 控制联接或负载的行分布PQ_DISTRIBUTE
Hint 的语法:
/*+ PQ_DISTRIBUTE
( [ @ queryblock ] tablespec
{ distribution | outer_distribution inner_distribution }
) */
控制负载的分配
您可以控制并行语句 INSERT ... SELECT
和并行语句 CREATE TABLE ... AS SELECT
的行分布,以此来确定如何在程序(查询)服务器和消耗(负载)服务器之间进行行分配。使用语法的上分支来指定分发方法。分布方法的值及其语义如下表所示:
分布方法 |
说明 |
---|---|
NONE |
没有分配。即将查询和负载操作组合到每个查询服务器中。所有服务器将加载所有分区。这种分配方法的缺失有助于避免在没有偏离的情况下行分配的开销。由于空段或语句中的谓词会过滤掉查询评估的所有行,因此可能会发生偏离。如果由于使用此方法而发生偏斜,则请改用
|
PARTITION |
此方法使用 |
RANDOM |
此方法以循环方式将来自程序的行分发给消耗。当输入数据高度倾斜时,使用这种分布方法。 |
RANDOM_LOCAL |
此方法将来自程序的行分布到一组服务器,这些服务器负责维护给定的一组服务器。两个或多个服务器可以加载同一分区,但是没有服务器加载所有分区。当输入数据发生偏移并且由于内存限制而无法合并查询和加载操作时,请使用此分布方法。 |
例如,在以下直接装入插入操作中,该操作的查询和负载部分被组合到每个查询服务器中:
INSERT /*+ APPEND PARALLEL(target_table, 16) PQ_DISTRIBUTE(target_table, NONE) */
INTO target_table
SELECT * FROM source_table;
在下面的示例中,创建表时优化器使用表 target_table 的分区来分配行:
CREATE /*+ PQ_DISTRIBUTE(target_table, PARTITION) */ TABLE target_table
NOLOGGING PARALLEL 16
PARTITION BY HASH (l_orderkey) PARTITIONS 512
AS SELECT * FROM source_table;
控制联接的分配
您可以通过指定两种分配方法来控制联接的分配方法,如语法中的下部分支所示,一种外部表的分布方法,一种内部表的分布方法:
-
outside_distribution
是外部表的分布方法。 -
inner_distribution
是内部表的分布方法。
分布方法的值是 HASH
、BROADCAST
、PARTITION
和 NONE
。只有下表中的 6 种分布方法组合是有效的:
分布方法 |
说明 |
---|---|
HASH, HASH |
使用联接键上的哈希函数,将每个表的行映射到消耗查询服务器。映射完成后,每个查询服务器都会在一对结果分区之间执行联接。当表的大小可比较并且联接操作是通过哈希联接或排序合并联接实现时,建议使用此分布方法。 |
BROADCAST, NONE |
外部表的所有行都广播到每个程序查询服务器。内部表行是随机分区的。当外部表与内部表相比非常小时,建议使用此分布方法。通常,当内部表大小乘以查询服务器的数量大于外部表大小时,也建议使用此分布方法。 |
NONE, BROADCAST |
内部表的所有行都广播给每个消耗查询服务器。外部表行是随机分区的。当内部表与外部表相比非常小时,建议使用此分布方法。通常,当内部表大小乘以查询服务器的数量小于外部表大小时,也建议使用此分布方法。 |
PARTITION, NONE |
外部表的行使用以内部表的分区进行映射。内部表必须在联接键上进行分区。当外部表的分区数等于或几乎等于查询服务器数的倍数时,建议使用此分布方法。例如,有 14 个分区和 15 个查询服务器。
|
NONE, PARTITION |
内部表的行使用外部表的分区进行映射。外部表必须在联接键上进行分区。当外部表的分区数等于或几乎等于查询服务器数的倍数时,建议使用此分布方法。例如,有 14 个分区和 15 个查询服务器。
|
NONE, NONE |
每个查询服务器在一对匹配的分区之间执行联接操作,每个表中都有一个。两个表必须在连接键上等分。 |
例如,给定两个使用哈希联接来联接表 r 和 s,以下查询包含使用哈希分配的 Hint:
SELECT /*+ORDERED PQ_DISTRIBUTE(s HASH, HASH) USE_HASH (s)*/ column_list
FROM r,s
WHERE r.c=s.c;
要广播外部表 r,查询语句为:
SELECT /*+ORDERED PQ_DISTRIBUTE(s BROADCAST, NONE) USE_HASH (s) */ column_list
FROM r,s
WHERE r.c=s.c;