hive sql剔除重复数据

hive sql剔除重复数据

问:sql数据库中出现重复行数据,如何删除这些重复记录?
  1. 答:一般情况下,数据库去重复有以下那么三种方法:
    第一种:
    两条记录或者多条记录的每一个字段值完全相同,这种情况去重复最简单,用关键字distinct就可以去掉。例:
    SELECT DISTINCT * FROM TABLE
    第二种:
    两条记录之间之后只有部分字段的值是有重复的,但是表存在主键或者唯一性ID。如果是这种情况的话用DISTINCT是过滤不了的,这就要用到主键id的唯一性特点及group by分组。例:
    SELECT * FROM TABLE WHERE ID IN (SELECT MAX(ID) FROM TABLE GROUP BY [去除重复的字段名列表,....])
       
    第三种:
    两条记录之间之后只有部分字段的值是有重复的,但是表不存在主键或者唯一性ID。这种情况可以使用临时表,讲数据复制到临时表并添加一个自增长的ID,在删除重复数据之后再删除临时表。例:
    //创建临时表,并将数据写入到临时表
    SELECT IDENTITY(INT1,1) AS ID,* INTO NEWTABLE(临时表) FROM TABLE
    //查询不重复的数据
    SELECT * FROM NEWTABLE WHERE ID IN (SELECT MAX(ID) FROM NEWTABLE GROUP BY [去除重复的字段名列表,....])
    //删除临时表
    DROP TABLE NEWTABLE
       
  2. 答:怕用别的方法删除出错的话,可以用 去重查询,放到另一张表中,删除后再放回去啊!
    select distinct * into A from B 去重存另一张表
    delete B-- 删除B中数据
    --放回数据
    insert into B
    select * from A
    注意:分开执行!用go分开的话,有可能删除数据,但因为语句没结果而未完全删除。
  3. 答:delete from TABLE_name t1
    where t1.rowid >
    (select min(rowid) from TABLE_name t2
    where t1.name = t2.name
    group by name
    having count(name) > 1); 肯定没问题的哈
问:Hive SQL 表中去重复
  1. 答:抱歉,来晚了。SELECT user_id, shop_id FROM goods GROUP BY user_id, shop_id;
问:hive如何去掉重复数据,显示第一条
  1. 答:去重没问题啊,distinct 就好了,显示第一条可以用row_number函数,不同版本hive的row_number有所不同,你自己查一下吧,row_number可以对同一个key从1开始编号的。
hive sql剔除重复数据
下载Doc文档

猜你喜欢