Hive自定义函数-白红宇

Hive自定义函数

阅读量：4958 次

发布时间：2019-06-12

本文共 2477 字，大约阅读时间需要 8 分钟。

Hive自定义函数

1.Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。

2.当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。

3.根据用户自定义函数类别分为以下三种：

（1）UDF（User-Defined-Function）一进一出

（2）UDAF（User-Defined Aggregation Function）聚集函数，多进一出类似于：count/max/min

（3）UDTF（User-Defined Table-Generating Functions）一进多出如lateral view explore()

4.官方文档地址

　　https://cwiki.apache.org/confluence/display/Hive/HivePlugins

5.编程步骤：

（1）继承org.apache.hadoop.hive.ql.UDF

（2）需要实现evaluate函数；evaluate函数支持重载；

6.注意事项

（1）UDF必须要有返回类型，可以返回null，但是返回类型不能为void；

（2）UDF中常用Text/LongWritable等类型，不推荐使用java类型；

UDF开发实例

简单UDF示例

第一步：创建maven java 工程，导入jar包


         
              
       
        cloudera
        
       
        https://repository.cloudera.com/artifactory/cloudera-repos/
           
      
     
         
              
       
        org.apache.hadoop
               
       
        hadoop-common
               
       
        2.6.0-cdh5.14.0
           
          
              
       
        org.apache.hive
               
       
        hive-exec
               
       
        1.1.0-cdh5.14.0
           
      
     
     
          
               
        
         org.apache.maven.plugins
                
        
         maven-compiler-plugin
                
        
         3.0
                
                    
         1.8            
         
          1.8
                     
         
          UTF-8
                 
            
            
                
        
         org.apache.maven.plugins
                 
        
         maven-shade-plugin
                 
        
         2.2
                 
                     
                          
          
           package
                           
           
           
            shade
            
                           
           
            
             
             
              *:*
              
              
              
               META-INF/*.SF
               
              
               META-INF/*.DSA
               
              
               META-INF/*/RSA

第二步：开发java类继承UDF，并重载evaluate 方法

public class ItcastUDF extends UDF {    public Text evaluate(final Text s) {        if (null == s) {            return null;        }        //返回大写字母        return new Text(s.toString().toUpperCase());    }}

第三步：将我们的项目打包，并上传到hive的lib目录下

第四步：添加我们的jar包

重命名我们的jar包名称

cd /export/servers/hive-1.1.0-cdh5.14.0/libmv original-day_06_hive_udf-1.0-SNAPSHOT.jar udf.jar

hive的客户端添加我们的jar包

add jar /export/servers/hive-1.1.0-cdh5.14.0/lib/udf.jar;

第五步：设置函数与我们的自定义函数关联

create temporary function tolowercase as 'cn.itcast.udf.ItcastUDF';

第六步：使用自定义函数

select tolowercase('abc');

转载于:https://www.cnblogs.com/alexzhang92/p/11050565.html

你可能感兴趣的文章