初步介绍MySQL中的集合操作
啥是集合操作?
通常来说,将联接操作看作是表之间的水平操作,因为该操作生成的虚拟表包含两个表中的列。而我这里总结的集合操作,一般将这些操作看作是垂直操作。MySQL数据库支持两种集合操作:UNIONDISTINCT和UNIONALL。
与联接操作一样,集合操作也是对两个输入进行操作,并生成一个虚拟表。在联接操作中,一般把输入表称为左输入和右输入。集合操作的两个输入必须拥有相同的列数,若数据类型不同,MySQL数据库自动将进行隐式转换。同时,结果列的名称由左输入决定。
前期准备
准备测试表table1和table2:
createtabletable1 (aidintnotnullauto_increment, titlevarchar(20), tagvarchar(10), primarykey(aid)) engine=innodbdefaultcharset=utf8; createtabletable2 (bidintnotnullauto_increment, titlevarchar(20), tagvarchar(10), primarykey(bid)) engine=innodbdefaultcharset=utf8;
插入以下测试数据:
insertintotable1(aid,title,tag)values(1,'article1','MySQL'); insertintotable1(aid,title,tag)values(2,'article2','PHP'); insertintotable1(aid,title,tag)values(3,'article3','CPP'); insertintotable2(bid,title,tag)values(1,'article1','MySQL'); insertintotable2(bid,title,tag)values(2,'article2','CPP'); insertintotable2(bid,title,tag)values(3,'article3','C');
UNIONDISTINCT
UNIONDISTINCT组合两个输入,并应用DISTINCT过滤重复项,一般可以直接省略DISTINCT关键字,直接使用UNION。UNION的语法如下:
SELECTcolumn,...FROMtable1 UNION[ALL] SELECTcolumn,...FROMtable2 ...
在多个SELECT语句中,对应的列应该具有相同的字段属性,且第一个SELECT语句中被使用的字段名称也被用于结果的字段名称。
现在我运行以下sql语句:
(select*fromtable1)union(select*fromtable2);
将会得到以下结果:
+-----+----------+-------+ |aid|title|tag| +-----+----------+-------+ |1|article1|MySQL| |2|article2|PHP| |3|article3|CPP| |2|article2|CPP| |3|article3|C| +-----+----------+-------+
我们发现,表table1和表table2中的重复数据项:
|1|article1|MySQL|
只出现了一次,这就是UNION的作用效果。
MySQL数据库目前对UNIONDISTINCT的实现方式如下:
- 创建一张临时表,也就是虚拟表;
- 对这张临时表的列添加唯一索引;
- 将输入的数据插入临时表;
- 返回虚拟表。
因为添加了唯一索引,所以可以过滤掉集合中重复的数据项。这里重复的意思是SELECT所选的字段完全相同时,才会算作是重复的。
UNIONALL
(select*fromtable1)unionall(select*fromtable2);
你将会得到以下结果:
+-----+----------+-------+ |aid|title|tag| +-----+----------+-------+ |1|article1|MySQL| |2|article2|PHP| |3|article3|CPP| |1|article1|MySQL| |2|article2|CPP| |3|article3|C| +-----+----------+-------+
发现重复的数据并不会被筛选掉。
在使用UNIONDISTINCT的时候,由于向临时表中添加了唯一索引,插入的速度显然会因此而受到影响。如果确认进行UNION操作的两个集合中没有重复的选项,最有效的办法应该是使用UNIONALL。