hive sql剔除重复数据

问：sql数据库中出现重复行数据，如何删除这些重复记录？

答：一般情况下，数据库去重复有以下那么三种方法：
第一种：
两条记录或者多条记录的每一个字段值完全相同，这种情况去重复最简单，用关键字distinct就可以去掉。例：
SELECT DISTINCT * FROM TABLE
第二种：
两条记录之间之后只有部分字段的值是有重复的，但是表存在主键或者唯一性ID。如果是这种情况的话用DISTINCT是过滤不了的，这就要用到主键id的唯一性特点及group by分组。例：
SELECT * FROM TABLE WHERE ID IN (SELECT MAX(ID) FROM TABLE GROUP BY [去除重复的字段名列表,....])

第三种：
两条记录之间之后只有部分字段的值是有重复的，但是表不存在主键或者唯一性ID。这种情况可以使用临时表，讲数据复制到临时表并添加一个自增长的ID，在删除重复数据之后再删除临时表。例：
//创建临时表，并将数据写入到临时表
SELECT IDENTITY(INT1,1) AS ID,* INTO NEWTABLE(临时表) FROM TABLE
//查询不重复的数据
SELECT * FROM NEWTABLE WHERE ID IN (SELECT MAX(ID) FROM NEWTABLE GROUP BY [去除重复的字段名列表,....])
//删除临时表
DROP TABLE NEWTABLE
答：怕用别的方法删除出错的话，可以用去重查询，放到另一张表中，删除后再放回去啊！
select distinct * into A from B 去重存另一张表
delete B-- 删除B中数据
--放回数据
insert into B
select * from A
注意：分开执行！用go分开的话，有可能删除数据，但因为语句没结果而未完全删除。
答：delete from TABLE_name t1
where t1.rowid >
(select min(rowid) from TABLE_name t2
where t1.name = t2.name
group by name
having count(name) > 1); 肯定没问题的哈

问：Hive SQL 表中去重复

答：抱歉，来晚了。SELECT user_id, shop_id FROM goods GROUP BY user_id, shop_id;

问：hive如何去掉重复数据，显示第一条

答：去重没问题啊，distinct 就好了，显示第一条可以用row_number函数，不同版本hive的row_number有所不同，你自己查一下吧，row_number可以对同一个key从1开始编号的。

本文来源: https://www.lw00.cn/article/73b2fec2df5b73f28711e2d3.html