MySQL的LEFT JOIN表连接的进阶学习教程
LEFTJOIN的主表
这里所说的主表是指在连接查询里MySQL以哪个表为主进行查询。比如说在LEFTJOIN查询里,一般来说左表就是主表,但这只是经验之谈,很多时候经验主义是靠不住的,为了说明问题,先来个例子,建两个演示用的表categories和posts:
CREATETABLEIFNOTEXISTS`categories`( `id`int(10)unsignedNOTNULLAUTO_INCREMENT, `name`varchar(15)NOTNULL, `created`datetimeNOTNULL, PRIMARYKEY(`id`) ); CREATETABLEIFNOTEXISTS`posts`( `id`int(10)unsignedNOTNULLAUTO_INCREMENT, `category_id`int(10)unsignedNOTNULL, `title`varchar(100)NOTNULL, `content`varchar(200)NOTNULL, `created`datetimeNOTNULL, PRIMARYKEY(`id`), KEY`category_id`(`category_id`) );
先注意一下每个表的索引情况,以后会用到,记得随便插入一点测试数据,不用太多,但怎么也得两行以上,然后执行以下SQL:
EXPLAINSELECT* FROMposts LEFTJOINcategoriesONposts.category_id=categories.id WHEREcategories.id=‘一个已经存在的ID' ORDERBYposts.createdDESC
tablekeyExtra categoriesPRIMARYUsingfilesort postscategory_idUsingwhere
在explain的结果中,第一行表示的表就是主表,所以说在此查询里categories是主表,而在我们的经验里,LEFTJOIN查询里,左表(posts表)才应该是主表,这产生一个根本的矛盾,MySQL之所以这样处理,是因为在我们的WHERE部分,查询条件是按照categories表的字段来进行筛选的,而恰恰categories表存在合适的索引,所以在查询时把categories表作为主表更有利于缩小结果集。
那explain结果中的Usingfilesort又是为什么呢?这是因为主表是categories表,从表是posts表,而我们使用从表的字段去ORDERBY,这通常不是一个好选择,最好改成主表字段,如果鉴于需求所限,无法改成主表的字段,那么可以尝试添加如下索引:
ALTERTABLE`posts`ADDINDEX(`category_id`,`created`);
再运行SQL时就不会有Usingfilesort了,这是因为主表categories在通过category_id连接从表posts时,可以进而通过索引直接得到排序后的posts结果。
主观上一旦搞错了主表,可能怎么调整索引都得不到高效的SQL,所以在写SQL时,比如说在写LEFTJOIN查询时,如果希望左表是主表,那么就要保证在WHERE语句里的查询条件尽可能多的使用左表字段,进而,一旦确定了主表,也最好只通过主表字段去ORDERBY。
LEFTJOIN查询效率分析
user表:
id|name --------- 1|libk 2|zyfon 3|daodao user_action表: user_id|action --------------- 1|jump 1|kick 1|jump 2|run 4|swim
sql:
selectid,name,actionfromuserasu leftjoinuser_actionaonu.id=a.user_id result: id|name|action -------------------------------- 1|libk|jump① 1|libk|kick② 1|libk|jump③ 2|zyfon|run④ 3|daodao|null⑤
分析:
注意到user_action中还有一个user_id=4,action=swim的纪录,但是没有在结果中出现,
而user表中的id=3,name=daodao的用户在user_action中没有相应的纪录,但是却出现在了结果集中
因为现在是leftjoin,所有的工作以left为准.
结果1,2,3,4都是既在左表又在右表的纪录,5是只在左表,不在右表的纪录
结论:
我们可以想象leftjoin是这样工作的
从左表读出一条,选出所有与on匹配的右表纪录(n条)进行连接,形成n条纪录(包括重复的行,如:结果1和结果3),
如果右边没有与on条件匹配的表,那连接的字段都是null.
然后继续读下一条。
引申:
我们可以用右表没有on匹配则显示null的规律,来找出所有在左表,不在右表的纪录,注意用来判断的那列必须声明为notnull的。
如:
selectid,name,actionfromuserasu leftjoinuser_actionaonu.id=a.user_id wherea.user_idisNULL
(注意:1.列值为null应该用isnull而不能用=NULL
2.这里a.user_id列必须声明为NOTNULL的)
result: id|name|action -------------------------- 3|daodao|NULL --------------------------------------------------------------------------------
Tips:
1.ona.c1=b.c1等同于using(c1)
2.INNERJOIN和,(逗号)在语义上是等同的
3.当MySQL在从一个表中检索信息时,你可以提示它选择了哪一个索引。
如果EXPLAIN显示MySQL使用了可能的索引列表中错误的索引,这个特性将是很有用的。
通过指定USEINDEX(key_list),你可以告诉MySQL使用可能的索引中最合适的一个索引在表中查找记录行。
可选的二选一句法IGNOREINDEX(key_list)可被用于告诉MySQL不使用特定的索引。
4.一些例子:
mysql>SELECT*FROMtable1,table2WHEREtable1.id=table2.id; mysql>SELECT*FROMtable1LEFTJOINtable2ONtable1.id=table2.id; mysql>SELECT*FROMtable1LEFTJOINtable2USING(id); mysql>SELECT*FROMtable1LEFTJOINtable2ONtable1.id=table2.id ->LEFTJOINtable3ONtable2.id=table3.id; mysql>SELECT*FROMtable1USEINDEX(key1,key2) ->WHEREkey1=1ANDkey2=2ANDkey3=3; mysql>SELECT*FROMtable1IGNOREINDEX(key3) ->WHEREkey1=1ANDkey2=2ANDkey3=3;