Athena
- Athena查詢隔離=Work Group, 可以control per-query data usage limit.
- Athena查詢速度優(yōu)化:1. 壓縮 ?2. 列式存儲 ?3. S3和Athena同一個Region
- Athena查詢成本優(yōu)化:1.Partition by,2. 列式存儲,3.合并小文件
- Athena partition快速生成or恢復=MSCK REPAIR TABLE,Athena使用hive style partition。
- Athena查詢結(jié)果S3加密:S3-SSE, CMK-KMS and CSE-KMS
- Athena DML?timeout after 30minutes= Raise ticket in service quotas
- Athena Payload超出上限錯誤=結(jié)果上傳S3+Presigned URL
- lzo壓縮格式高速解壓比gzip讀取速度快,提高Athena查詢性能。
發(fā)展壯大離不開廣大客戶長期以來的信賴與支持,我們將始終秉承“誠信為本、服務至上”的服務理念,堅持“二合一”的優(yōu)良服務模式,真誠服務每家企業(yè),認真做好每個細節(jié),不斷完善自我,成就企業(yè),實現(xiàn)共贏。行業(yè)涉及
墻體彩繪等,在
重慶網(wǎng)站建設公司、
全網(wǎng)營銷推廣、WAP手機網(wǎng)站、VI設計、軟件開發(fā)等項目上具有豐富的設計經(jīng)驗。Glue
- AWS Glue Crawler Classification = Unknown: All the classifiers certainty=0.0
- Glue讀取大量小文件用dynamic frame file grouping功能。
- Glue讀取大量小文件報outofmemory錯誤= 'groupFiles': 'inPartition' feature.
- Glue Crawler和Athena都可以跨Region使用。
- Glue Crawler/Copy Command triggered by S3:CreateObject event = most current data
- Glue跳過特定的S3存儲層:excludeStorageClasses
- Glue scale = glue job metrics + maximum capcity job parameter
- Glue job rerun導致重復數(shù)據(jù)清理用Postactions in DynamicFrameWriter class
- Glue支持PySpark Scala dialect,不支持Hive script
- Glue Job bookmark功能避免重復處理數(shù)據(jù),只處理增量數(shù)據(jù)。
- Glue catalog update manually created table = choose table when define crawler.
- Glue跑完job自動update catalog=enable updatecatalog
- Glue Findmatch ML=match data without PK
- Glue streaming ETL 連 KDS, MSK, 不可以連KDF。
你是否還在尋找穩(wěn)定的海外服務器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機房具備T級流量清洗系統(tǒng)配攻擊溯源,準確流量調(diào)度確保服務器高可用性,企業(yè)級服務器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧
網(wǎng)站欄目:AWSDAS認證考點整理(Athena&Glue篇)-創(chuàng)新互聯(lián)
地址分享:
http://weahome.cn/article/ejdoj.html