91羞羞网站,亚洲成人中文字幕,国产1页

面試 | 不可不知的十大 Hive 調優技巧優秀實踐

Apache Hive是建立在Apache Hadoop之上的數據倉庫軟件項目，用于提供數據查詢和分析。Hive是Hadoop在HDFS上的SQL接口，它提供了類似于SQL的接口來查詢存儲在與Hadoop集成的各種數據庫和文件系統中的數據。可以說從事數據開發工作，無論是在平時的工作中，還是在面試中，Hive具有舉足輕重的地位，尤其是Hive的性能調優方面，不僅能夠在工作中提升效率而且還可以在面試中脫穎而出。在本文中，我將分享十個性能優化技術，全文如下。

1.多次INSERT單次掃描表

默認情況下，Hive會執行多次表掃描。因此，如果要在某張hive表中執行多個操作，建議使用一次掃描并使用該掃描來執行多個操作。

比如將一張表的數據多次查詢出來裝載到另外一張表中。如下面的示例，表my_table是一個分區表，分區字段為dt，如果需要在表中查詢2個特定的分區日期數據，并將記錄裝載到2個不同的表中。

INSERT INTO temp_table_20201115 SELECT * FROM my_table WHERE dt ='2020-11-15';
INSERT INTO temp_table_20201116 SELECT * FROM my_table WHERE dt ='2020-11-16';

在以上查詢中，Hive將掃描表2次，為了避免這種情況，我們可以使用下面的方式：

FROM my_table
INSERT INTO temp_table_20201115 SELECT * WHERE dt ='2020-11-15'
INSERT INTO temp_table_20201116 SELECT * WHERE dt ='2020-11-16'

這樣可以確保只對my_table表執行一次掃描，從而可以大大減少執行的時間和資源。

2.分區表

對于一張比較大的表，將其設計成分區表可以提升查詢的性能，對于一個特定分區的查詢，只會加載對應分區路徑的文件數據，因此，當用戶使用特定分區列值執行選擇查詢時，將僅針對該特定分區執行查詢，由于將針對較少的數據量進行掃描，所以可以提供更好的性能。值得注意的是，分區字段的選擇是影響查詢性能的重要因素，盡量避免層級較深的分區，這樣會造成太多的子文件夾。

現在問題來了，該使用哪些列進行分區呢?一條基本的法則是：選擇低基數屬性作為“分區鍵”，比如“地區”或“日期”等。

一些常見的分區字段可以是：

日期或者時間

比如year、month、day或者hour，當表中存在時間或者日期字段時，可以使用些字段。

地理位置

比如國家、省份、城市等

業務邏輯

比如部門、銷售區域、客戶等等

CREATE TABLE table_name (
col1 data_type,
col2 data_type)
PARTITIONED BY (partition1 data_type, partition2 data_type,….);

3.分桶表

通常，當很難在列上創建分區時，我們會使用分桶，比如某個經常被篩選的字段，如果將其作為分區字段，會造成大量的分區。在Hive中，會對分桶字段進行哈希，從而提供了中額外的數據結構，進行提升查詢效率。

與分區表類似，分桶表的組織方式是將HDFS上的文件分割成多個文件。分桶可以加快數據采樣，也可以提升join的性能(join的字段是分桶字段)，因為分桶可以確保某個key對應的數據在一個特定的桶內(文件)，所以巧妙地選擇分桶字段可以大幅度提升join的性能。通常情況下，分桶字段可以選擇經常用在過濾操作或者join操作的字段。

我們可以使用set.hive.enforce.bucketing = true啟用分桶設置。

當使用分桶表時，最好將bucketmapjoin標志設置為true，具體配置參數為：

CREATE TABLE table_name
PARTITIONED BY (partition1 data_type, partition2 data_type,….) CLUSTERED BY (column_name1, column_name2, …)
SORTED BY (column_name [ASC|DESC], …)]
INTO num_buckets BUCKETS;

4.對中間數據啟用壓縮

復雜的Hive查詢通常會轉換為一系列多階段的MapReduce作業，并且這些作業將由Hive引擎鏈接起來以完成整個查詢。因此，此處的“中間輸出”是指上一個MapReduce作業的輸出，它將用作下一個MapReduce作業的輸入數據。

壓縮可以顯著減少中間數據量，從而在內部減少了Map和Reduce之間的數據傳輸量。

我們可以使用以下屬性在中間輸出上啟用壓縮。

set hive.exec.compress.intermediate=true;
set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
set hive.intermediate.compression.type=BLOCK;

為了將最終輸出到HDFS的數據進行壓縮，可以使用以下屬性：

set hive.exec.compress.output=true;

下面是一些可以使用的壓縮編解碼器

org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.BZip2Codec
com.hadoop.compression.lzo.LzopCodec
org.apache.hadoop.io.compress.Lz4Codec
org.apache.hadoop.io.compress.SnappyCodec

5.Map端JOIN

map端join適用于當一張表很小(可以存在內存中)的情況，即可以將小表加載至內存。Hive從0.7開始支持自動轉為map端join，具體配置如下：

SET hive.auto.convert.join=true; -- hivev0.11.0之后默認true
SET hive.mapjoin.smalltable.filesize=600000000; -- 默認 25m
SET hive.auto.convert.join.noconditionaltask=true; -- 默認true，所以不需要指定map join hint
SET hive.auto.convert.join.noconditionaltask.size=10000000; -- 控制加載到內存的表的大小