Hive统计函数简介
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,Hive中的统计函数主要用于对数据进行聚合分析,帮助用户了解数据的分布、趋势等信息,本文将介绍Hive中常用的统计函数及其用法。
Hive常用统计函数
1、COUNT(列名)
计数函数,用于计算指定列的不重复行数。
```
SELECT COUNT(*) FROM table_name;
```
2、SUM(列名)
求和函数,用于计算指定列的总和。
```
SELECT SUM(column_name) FROM table_name;
```
3、AVG(列名)
平均值函数,用于计算指定列的平均值。
```
SELECT AVG(column_name) FROM table_name;
```
4、MIN(列名)
最小值函数,用于获取指定列的最小值。
```
SELECT MIN(column_name) FROM table_name;
```
5、MAX(列名)
最大值函数,用于获取指定列的最大值。
```
SELECT MAX(column_name) FROM table_name;
```
6、COUNTDISTINCT(列名)
计数去重函数,用于计算指定列的不重复行数。
```
SELECT COUNT(DISTINCT column_name) FROM table_name;
```
7、STDDEV(列名)
标准差函数,用于计算指定列的标准差。
```
SELECT STDEV(column_name) FROM table_name;
```
8、VARIANCE(列名)
方差函数,用于计算指定列的方差。
```
SELECT VARIANCE(column_name) FROM table_name;
```
9、GROUPBY子句
分组子句,用于对数据进行分组统计。
```
SELECT column1, column2, COUNT(*) FROM table_name GROUP BY column1, column2;
```
10、HAVING子句
过滤子句,用于对分组统计结果进行过滤。
```sql
SELECT column1, column2, COUNT(*) FROM table_name GROUP BY column1, column2 HAVING COUNT(*) > 1;
```
原创文章,作者:K-seo,如若转载,请注明出处:https://www.kdun.cn/ask/147633.html