怎樣分析ApacheDruid

這篇文章給大家介紹怎樣分析Apache Druid，內(nèi)容非常詳細(xì)，感興趣的小伙伴們可以參考借鑒，希望對(duì)大家能有所幫助。

創(chuàng)新互聯(lián)公司是一家專業(yè)提供輝南企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站設(shè)計(jì)、網(wǎng)站制作、H5響應(yīng)式網(wǎng)站、小程序制作等業(yè)務(wù)。10年已為輝南眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站設(shè)計(jì)公司優(yōu)惠進(jìn)行中。

概覽

Apache Druid 是一個(gè)高性能的實(shí)時(shí)分析型數(shù)據(jù)庫。

一個(gè)現(xiàn)代化的云原生，流原生，分析型數(shù)據(jù)庫
Druid 是為快速查詢和快速攝入數(shù)據(jù)的工作流而設(shè)計(jì)的。Druid 強(qiáng)在有強(qiáng)大的 UI，運(yùn)行時(shí)可操作查詢，和高性能并發(fā)處理。Druid 可以被視為一個(gè)滿足多樣化用戶場(chǎng)景的數(shù)據(jù)倉庫的開源替代品。
輕松與現(xiàn)有的數(shù)據(jù)管道集成
Druid 可以從消息總線流式獲取數(shù)據(jù)（如 Kafka，Amazon Kinesis），或從數(shù)據(jù)湖批量加載文件（如 HDFS，Amazon S3 和其他同類數(shù)據(jù)源）。
比傳統(tǒng)方案快 100 倍的性能
Druid 對(duì)數(shù)據(jù)攝入和數(shù)據(jù)查詢的基準(zhǔn)性能測(cè)試大大超過了傳統(tǒng)解決方案。
Druid 的架構(gòu)融合了數(shù)據(jù)倉庫，時(shí)間序列數(shù)據(jù)庫和檢索系統(tǒng)最好的特性。
解鎖新的工作流
Druid 為 Clickstream，APM(應(yīng)用性能管理系統(tǒng))，supply chain(供應(yīng)鏈)，網(wǎng)絡(luò)遙測(cè)，數(shù)字營銷和其他事件驅(qū)動(dòng)形式的場(chǎng)景解鎖了新的查詢方式和工作流。Druid 專為實(shí)時(shí)和歷史數(shù)據(jù)的快速臨時(shí)查詢而構(gòu)建。
部署在 AWS/GCP/Azure，混合云，k8s 和租用服務(wù)器上
Druid 可以部署在任何*NIX 環(huán)境中。無論是內(nèi)部環(huán)境還是云環(huán)境。部署 Druid 是非常 easy 的：通過添加或刪減服務(wù)來擴(kuò)容縮容。

使用場(chǎng)景

Apache Druid 適用于對(duì)實(shí)時(shí)數(shù)據(jù)提取，高性能查詢和高可用要求較高的場(chǎng)景。因此，Druid 通常被作為一個(gè)具有豐富 GUI 的分析系統(tǒng)，或者作為一個(gè)需要快速聚合的高并發(fā) API 的后臺(tái)。Druid 更適合面向事件數(shù)據(jù)。

比較常見的使用場(chǎng)景：

點(diǎn)擊流分析（web 和 mobile 分析）
風(fēng)控分析
網(wǎng)路遙測(cè)分析（網(wǎng)絡(luò)性能監(jiān)控）
服務(wù)器指標(biāo)存儲(chǔ)
供應(yīng)鏈分析（制造業(yè)指標(biāo)）
應(yīng)用性能指標(biāo)
商業(yè)智能/實(shí)時(shí)在線分析系統(tǒng) OLAP

下面將詳細(xì)分析這些使用場(chǎng)景：

用戶活動(dòng)和行為

Druid 經(jīng)常用在點(diǎn)擊流，訪問流，和活動(dòng)流數(shù)據(jù)上。具體場(chǎng)景包括：衡量用戶參與度，為產(chǎn)品發(fā)布追蹤 A/B 測(cè)試數(shù)據(jù)，并了解用戶使用方式。Druid 可以做到精確和近似計(jì)算用戶指標(biāo)，例如不重復(fù)計(jì)數(shù)指標(biāo)。這意味著，如日活用戶指標(biāo)可以在一秒鐘計(jì)算出近似值(平均精度 98%)，以查看總體趨勢(shì)，或精確計(jì)算以展示給利益相關(guān)者。Druid 可以用來做“漏斗分析”，去測(cè)量有多少用戶做了某種操作，而沒有做另一個(gè)操作。這對(duì)產(chǎn)品追蹤用戶注冊(cè)十分有用。

網(wǎng)絡(luò)流

Druid 常常用來收集和分析網(wǎng)絡(luò)流數(shù)據(jù)。Druid 被用于管理以任意屬性切分組合的流數(shù)據(jù)。Druid 能夠提取大量網(wǎng)絡(luò)流記錄，并且能夠在查詢時(shí)快速對(duì)數(shù)十個(gè)屬性組合和排序，這有助于網(wǎng)絡(luò)流分析。這些屬性包括一些核心屬性，如 IP 和端口號(hào)，也包括一些額外添加的強(qiáng)化屬性，如地理位置，服務(wù)，應(yīng)用，設(shè)備和 ASN。Druid 能夠處理非固定模式，這意味著你可以添加任何你想要的屬性。

數(shù)字營銷

Druid 常常用來存儲(chǔ)和查詢?cè)诰€廣告數(shù)據(jù)。這些數(shù)據(jù)通常來自廣告服務(wù)商，它對(duì)衡量和理解廣告活動(dòng)效果，點(diǎn)擊穿透率，轉(zhuǎn)換率（消耗率）等指標(biāo)至關(guān)重要。

Druid 最初就是被設(shè)計(jì)成一個(gè)面向廣告數(shù)據(jù)的強(qiáng)大的面向用戶的分析型應(yīng)用程序。在存儲(chǔ)廣告數(shù)據(jù)方面，Druid 已經(jīng)有大量生產(chǎn)實(shí)踐，全世界有大量用戶在上千臺(tái)服務(wù)器上存儲(chǔ)了 PB 級(jí)數(shù)據(jù)。

應(yīng)用性能管理

Druid 常常用于追蹤應(yīng)用程序生成的可運(yùn)營數(shù)據(jù)。和用戶活動(dòng)使用場(chǎng)景類似，這些數(shù)據(jù)可以是關(guān)于用戶怎樣和應(yīng)用程序交互的，它可以是應(yīng)用程序自身上報(bào)的指標(biāo)數(shù)據(jù)。Druid 可用于下鉆發(fā)現(xiàn)應(yīng)用程序不同組件的性能如何，定位瓶頸，和發(fā)現(xiàn)問題。

不像許多傳統(tǒng)解決方案，Druid 具有更小存儲(chǔ)容量，更小復(fù)雜度，更大數(shù)據(jù)吞吐的特點(diǎn)。它可以快速分析數(shù)以千計(jì)屬性的應(yīng)用事件，并計(jì)算復(fù)雜的加載，性能，利用率指標(biāo)。比如，基于百分之 95 查詢延遲的 API 終端。我們可以以任何臨時(shí)屬性組織和切分?jǐn)?shù)據(jù)，如以天為時(shí)間切分?jǐn)?shù)據(jù)，如以用戶畫像統(tǒng)計(jì)，如按數(shù)據(jù)中心位置統(tǒng)計(jì)。

物聯(lián)網(wǎng)和設(shè)備指標(biāo)

Driud 可以作為時(shí)間序列數(shù)據(jù)庫解決方案，來存儲(chǔ)處理服務(wù)器和設(shè)備的指標(biāo)數(shù)據(jù)。收集機(jī)器生成的實(shí)時(shí)數(shù)據(jù)，執(zhí)行快速臨時(shí)的分析，去估量性能，優(yōu)化硬件資源，和定位問題。

和許多傳統(tǒng)時(shí)間序列數(shù)據(jù)庫不同，Druid 本質(zhì)上是一個(gè)分析引擎。Druid 融合了時(shí)間序列數(shù)據(jù)庫，列式分析數(shù)據(jù)庫，和檢索系統(tǒng)的理念。它在單個(gè)系統(tǒng)中支持了基于時(shí)間分區(qū)，列式存儲(chǔ)，和搜索索引。這意味著基于時(shí)間的查詢，數(shù)字聚合，和檢索過濾查詢都會(huì)特別快。

你可以在你的指標(biāo)中包括百萬唯一維度值，并隨意按任何維度組合 group 和 filter(Druid 中的 dimension 維度類似于時(shí)間序列數(shù)據(jù)庫中的 tag)。你可以基于 tag group 和 rank，并計(jì)算大量復(fù)雜的指標(biāo)。而且你在 tag 上檢索和過濾會(huì)比傳統(tǒng)時(shí)間序列數(shù)據(jù)庫更快。

OLAP 和商業(yè)智能

Druid 經(jīng)常用于商業(yè)智能場(chǎng)景。公司部署 Druid 去加速查詢和增強(qiáng)應(yīng)用。和基于 Hadoop 的 SQL 引擎(如 Presto 或 Hive)不同，Druid 為高并發(fā)和亞秒級(jí)查詢而設(shè)計(jì)，通過 UI 強(qiáng)化交互式數(shù)據(jù)查詢。這使得 Druid 更適合做真實(shí)的可視化交互分析。

技術(shù)

Apache Druid 是一個(gè)開源的分布式數(shù)據(jù)存儲(chǔ)引擎。Druid 的核心設(shè)計(jì)融合了 OLAP/analytic databases，timeseries database，和 search systems 的理念，以創(chuàng)造一個(gè)適用廣泛用例的統(tǒng)一系統(tǒng)。Druid 將這三種系統(tǒng)的主要特性融合進(jìn) Druid 的 ingestion layer(數(shù)據(jù)攝入層)，storage format(存儲(chǔ)格式化層)，querying layer(查詢層)，和 core architecture(核心架構(gòu))中。

Druid 的主要特性包括：

列式存儲(chǔ)
Druid 單獨(dú)存儲(chǔ)并壓縮每一列數(shù)據(jù)。并且查詢時(shí)只查詢特定需要查詢的數(shù)據(jù)，支持快速 scan，ranking 和 groupBy。
原生檢索索引
Druid 為 string 值創(chuàng)建反向索引以達(dá)到數(shù)據(jù)的快速搜索和過濾。
流式和批量數(shù)據(jù)攝入
開箱即用的 Apache kafka，HDFS，AWS S3 連接器 connectors，流式處理器。
靈活的數(shù)據(jù)模式
Druid 優(yōu)雅地適應(yīng)不斷變化的數(shù)據(jù)模式和嵌套數(shù)據(jù)類型。
基于時(shí)間的優(yōu)化分區(qū)
Druid 基于時(shí)間對(duì)數(shù)據(jù)進(jìn)行智能分區(qū)。因此，Druid 基于時(shí)間的查詢將明顯快于傳統(tǒng)數(shù)據(jù)庫。
支持 SQL 語句
除了原生的基于 JSON 的查詢外，Druid 還支持基于 HTTP 和 JDBC 的 SQL。
水平擴(kuò)展能力
百萬/秒的數(shù)據(jù)攝入速率，海量數(shù)據(jù)存儲(chǔ)，亞秒級(jí)查詢。
易于運(yùn)維
可以通過添加或移除 Server 來擴(kuò)容和縮容。Druid 支持自動(dòng)重平衡，失效轉(zhuǎn)移。

數(shù)據(jù)攝入

Druid 同時(shí)支持流式和批量數(shù)據(jù)攝入。Druid 通常通過像 Kafka 這樣的消息總線（加載流式數(shù)據(jù)）或通過像 HDFS 這樣的分布式文件系統(tǒng)（加載批量數(shù)據(jù)）來連接原始數(shù)據(jù)源。

Druid 通過 Indexing 處理將原始數(shù)據(jù)以 segment 的方式存儲(chǔ)在數(shù)據(jù)節(jié)點(diǎn)，segment 是一種查詢優(yōu)化的數(shù)據(jù)結(jié)構(gòu)。

數(shù)據(jù)存儲(chǔ)

像大多數(shù)分析型數(shù)據(jù)庫一樣，Druid 采用列式存儲(chǔ)。根據(jù)不同列的數(shù)據(jù)類型（string，number 等），Druid 對(duì)其使用不同的壓縮和編碼方式。Druid 也會(huì)針對(duì)不同的列類型構(gòu)建不同類型的索引。

類似于檢索系統(tǒng)，Druid 為 string 列創(chuàng)建反向索引，以達(dá)到更快速的搜索和過濾。類似于時(shí)間序列數(shù)據(jù)庫，Druid 基于時(shí)間對(duì)數(shù)據(jù)進(jìn)行智能分區(qū)，以達(dá)到更快的基于時(shí)間的查詢。

不像大多數(shù)傳統(tǒng)系統(tǒng)，Druid 可以在數(shù)據(jù)攝入前對(duì)數(shù)據(jù)進(jìn)行預(yù)聚合。這種預(yù)聚合操作被稱之為 rollup，這樣就可以顯著的節(jié)省存儲(chǔ)成本。

查詢

Druid 支持 JSON-over-HTTP 和 SQL 兩種查詢方式。除了標(biāo)準(zhǔn)的 SQL 操作外，Druid 還支持大量的唯一性操作，利用 Druid 提供的算法套件可以快速的進(jìn)行計(jì)數(shù)，排名和分位數(shù)計(jì)算。

架構(gòu)

Druid 是微服務(wù)架構(gòu)，可以理解為一個(gè)拆解成多個(gè)服務(wù)的數(shù)據(jù)庫。Druid 的每一個(gè)核心服務(wù)(ingestion(攝入服務(wù))，querying(查詢服務(wù))，和 coordination(協(xié)調(diào)服務(wù)))都可以單獨(dú)部署或聯(lián)合部署在商業(yè)硬件上。

Druid 清晰的命名每一個(gè)服務(wù)，以確保運(yùn)維人員可以根據(jù)使用情況和負(fù)載情況很好地調(diào)整相應(yīng)服務(wù)的參數(shù)。例如，當(dāng)負(fù)載需要時(shí)，運(yùn)維人員可以給數(shù)據(jù)攝入服務(wù)更多的資源而減少數(shù)據(jù)查詢服務(wù)的資源。

Druid 可以獨(dú)立失敗而不影響其他服務(wù)的運(yùn)行。

運(yùn)維

Drui 被設(shè)計(jì)成一個(gè)健壯的系統(tǒng)，它需要 7*24 小時(shí)運(yùn)行。Druid 擁有以下特性，以確保長(zhǎng)期運(yùn)行，并保證數(shù)據(jù)不丟失。

數(shù)據(jù)副本
Druid 根據(jù)配置的副本數(shù)創(chuàng)建多個(gè)數(shù)據(jù)副本，所以單機(jī)失效不會(huì)影響 Druid 的查詢。
獨(dú)立服務(wù)
Druid 清晰的命名每一個(gè)主服務(wù)，每一個(gè)服務(wù)都可以根據(jù)使用情況做相應(yīng)的調(diào)整。服務(wù)可以獨(dú)立失敗而不影響其他服務(wù)的正常運(yùn)行。例如，如果數(shù)據(jù)攝入服務(wù)失效了，將沒有新的數(shù)據(jù)被加載進(jìn)系統(tǒng)，但是已經(jīng)存在的數(shù)據(jù)依然可以被查詢。
自動(dòng)數(shù)據(jù)備份
Druid 自動(dòng)備份所有已經(jīng) indexed 的數(shù)據(jù)到一個(gè)文件系統(tǒng)，它可以是分布式文件系統(tǒng)，如 HDFS。你可以丟失所有 Druid 集群的數(shù)據(jù)，并快速從備份數(shù)據(jù)中重新加載。
滾動(dòng)更新
通過滾動(dòng)更新，你可以在不停機(jī)的情況下更新 Druid 集群，這樣對(duì)用戶就是無感知的。所有 Druid 版本都是向后兼容。

關(guān)于怎樣分析Apache Druid就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò)，可以把它分享出去讓更多的人看到。

網(wǎng)頁標(biāo)題：怎樣分析ApacheDruid
文章URL：http://weahome.cn/article/jdpcpc.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆