ElasticSearch 常見問題

【ElasticSearch 常見問題】ElasticSearch 常見問題
1、說說 es 的一些調優手段 。僅索引層面調優手段:1.1、設計階段調優(1)根據業務增量需求,采取基于日期模板創建索引,通過 roll over API 滾動索引;(2)使用別名進行索引管理;(3)每天凌晨定時對索引做 force_merge 操作 , 以釋放空間;(4)采取冷熱分離機制,熱數據存儲到 SSD , 提高檢索效率;冷數據定期進行 shrink操作,以縮減存儲;(5)采取 curator 進行索引的生命周期管理;(6)僅針對需要分詞的字段,合理的設置分詞器;(7)Mapping 階段充分結合各個字段的屬性,是否需要檢索、是否需要存儲等 。1.2、寫入調優(1)寫入前副本數設置為 0;(2)寫入前關閉 refresh_interval 設置為-1,禁用刷新機制;(3)寫入過程中:采取 bulk 批量寫入;(4)寫入后恢復副本數和刷新間隔;(5)盡量使用自動生成的 id 。1.3、查詢調優(1)禁用 wildcard;(2)禁用批量 terms(成百上千的場景);(3)充分利用倒排索引機制,能 keyword 類型盡量 keyword;(4)數據量大時候,可以先基于時間敲定索引再檢索;(5)設置合理的路由機制 。1.4、其他調優部署調優 , 業務調優等 。2、什么是 ES 倒排索引?通俗解釋:
傳統的我們的檢索是通過文章,逐個遍歷找到對應關鍵詞的位置 。而倒排索引,是通過分詞策略,形成了詞和文章的映射關系表,這種詞典+映射表即為倒排索引 。有了倒排索引,就能實現 O(1)時間復雜度的效率檢索文章了,極大的提高了檢索效率 。

ElasticSearch 常見問題

文章插圖
學術解釋:
倒排索引,相反于一篇文章包含了哪些詞,它從詞出發,記載了這個詞在哪些文檔中出現過,由兩部分組成——詞典和倒排表 。倒排索引的底層實現是基于:FST(Finite State Transducer)數據結構 。lucene 從 4+版本后開始大量使用的數據結構是 FST 。FST 有兩個優點:(1)空間占用小 。通過對詞典中單詞前綴和后綴的重復利用,壓縮了存儲空間;(2)查詢速度快 。O(len(str))的查詢時間復雜度 。 
ElasticSearch 常見問題

文章插圖
3、ES 索引數據多了怎么辦?如何調優、部署?索引數據的規劃,應在前期做好規劃,正所謂“設計先行,編碼在后”,這樣才能有效的避免突如其來的數據激增導致集群處理能力不足引發的線上客戶檢索或者其他業務受到影響 。如何調優,正如問題 1 所說 。3.1 動態索引層面基于模板+時間+rollover api 滾動創建索引 。舉例:設計階段定義:blog 索引的模板格式為:blog_index_時間戳的形式,每天遞增數據 。這樣做的好處:不至于數據量激增導致單個索引數據量非常大 , 接近于上線 2 的32 次冪-1 , 索引存儲達到了 TB+甚至更大 。一旦單個索引很大,存儲等各種風險也隨之而來,所以要提前考慮+及早避免 。3.2 存儲層面冷熱數據分離存儲,熱數據(比如最近 3 天或者一周的數據),其余為冷數據 。對于冷數據不會再寫入新數據,可以考慮定期 force_merge 加 shrink 壓縮操作,節省存儲空間和檢索效率 。3.3 部署層面一旦之前沒有規劃,這里就屬于應急策略 。結合 ES 自身的支持動態擴展的特點,動態新增機器的方式可以緩解集群壓力 , 注意:如果之前主節點等規劃合理 , 不需要重啟集群也能完成動態新增的 。4、elasticsearch 是如何實現 master 選舉的?前置前提:(1)只有候選主節點(master:true)的節點才能成為主節點 。(2)最小主節點數(min_master_nodes)的目的是防止腦裂 。核對了一下代碼 , 核心入口為 findMaster,選擇主節點成功返回對應 Master,否則返回 null 。選舉流程大致描述如下:第一步:確認候選主節點數達標,elasticsearch.yml 設置的值 discovery.zen.minimum_master_nodes;第二步:比較,先判定是否具備 master 資格,具備候選主節點資格的優先返回;若兩節點都為候選主節點,則 id 小的值會主節點 。注意這里的 id 為 string 類型 。1 GET /_cat/nodes?v&h=ip,port,heapPercent,heapMax,id,name 2 ip port heapPercent heapMax id name5、描述一下 Elasticsearch 索引文檔的過程這里的索引文檔應該理解為文檔寫入 ES,創建索引的過程 。文檔寫入包含:單文檔寫入和批量 bulk 寫入,這里只解釋一下:單文檔寫入流程 。 
ElasticSearch 常見問題

推薦閱讀