hive sql剔除重复数据
问:sql数据库中出现重复行数据,如何删除这些重复记录?
- 答:一般情况下,数据库去重复有以下那么三种方法:
第一种:
两条记录或者多条记录的每一个字段值完全相同,这种情况去重复最简单,用关键字distinct就可以去掉。例:
SELECT DISTINCT * FROM TABLE
第二种:
两条记录之间之后只有部分字段的值是有重复的,但是表存在主键或者唯一性ID。如果是这种情况的话用DISTINCT是过滤不了的,这就要用到主键id的唯一性特点及group by分组。例:
SELECT * FROM TABLE WHERE ID IN (SELECT MAX(ID) FROM TABLE GROUP BY [去除重复的字段名列表,....])
第三种:
两条记录之间之后只有部分字段的值是有重复的,但是表不存在主键或者唯一性ID。这种情况可以使用临时表,讲数据复制到临时表并添加一个自增长的ID,在删除重复数据之后再删除临时表。例:
//创建临时表,并将数据写入到临时表
SELECT IDENTITY(INT1,1) AS ID,* INTO NEWTABLE(临时表) FROM TABLE
//查询不重复的数据
SELECT * FROM NEWTABLE WHERE ID IN (SELECT MAX(ID) FROM NEWTABLE GROUP BY [去除重复的字段名列表,....])
//删除临时表
DROP TABLE NEWTABLE
- 答:怕用别的方法删除出错的话,可以用 去重查询,放到另一张表中,删除后再放回去啊!
select distinct * into A from B 去重存另一张表
delete B-- 删除B中数据
--放回数据
insert into B
select * from A
注意:分开执行!用go分开的话,有可能删除数据,但因为语句没结果而未完全删除。 - 答:delete from TABLE_name t1
where t1.rowid >
(select min(rowid) from TABLE_name t2
where t1.name = t2.name
group by name
having count(name) > 1); 肯定没问题的哈
问:Hive SQL 表中去重复
- 答:抱歉,来晚了。SELECT user_id, shop_id FROM goods GROUP BY user_id, shop_id;
问:hive如何去掉重复数据,显示第一条
- 答:去重没问题啊,distinct 就好了,显示第一条可以用row_number函数,不同版本hive的row_number有所不同,你自己查一下吧,row_number可以对同一个key从1开始编号的。
本文来源: https://www.lw00.cn/article/73b2fec2df5b73f28711e2d3.html