elasticsearch吧 关注:1,522贴子:5,332
  • 1回复贴,共1

Elasticsearch对于大数据量(上亿量级)聚合如何实?

只看楼主收藏回复

Elasticsearch 提供的首个近似聚合是cardinality 度量。它提供一个字段的基数,即该字段的distinct或者unique值的数目。它是基于HLL算法的。
HLL 会先对我们的输入作哈希运算,然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。
其特点是:可配置的精度,用来控制内存的使用(更精确 = 更多内存);
小的数据集精度是非常高的;我们可以通过配置参数,来设置去重需要的固定内存使用量。
无论数千还是数十亿的唯一值,内存使用量只与你配置的精确度相关。
Elasticsearch:http://www.zhi-clouds.com/
智云盈嘉主要服务应用包括:Elastic(Elasticsearch)、ELK Stack(ES)、RPA等平台应用。


IP属地:北京1楼2022-05-05 11:23回复
    Elasticsearch功能强大!


    IP属地:北京2楼2022-05-18 22:26
    回复