有没有小伙伴跟我一样在自学SQL,自学数据分析 一起学
我自学SQL在:http://xuesql.cn
6个易错难点(节约大家的时间写在最前面)
- 关于
这类奇怪算式,有没有?year % 2 = 0
-
和left join
,左连接右连接左连接右连接,绕晕有吗?right join
-
为什么要加group by
有没有?sum
-
括号里又有个SQL什么意思?a = (select x form table)
- 求每一组的第一名,难倒了有吗?
- 我把
换成like
为什么不行?有吗?=
开始
我用到自学SQL这个网站,我会把这几个问题分别解析一下,截图用到(http://xuesql.cn)
自学SQL
接下来
关于 year % 2 = 0
这类奇怪算式
先看一个简单的语句, select * from movies where
year = 1998
注意我划线的地方,
year=1998
表示用等号来判断,再看上图的结果,只筛选出1998这一条数据对吧。
现在,改成 ,select * from movies where
year % 2 = 0
一样要注意我划线的地方,观察数据,可以发现year都是偶数吧。
year % 2 = 0
不是year = 0,而是 year 除以2的余数为0 (也就是偶数)
和
left join
左右连接的区别
right join
很多人会问左连接,右连接到底有啥区别,傻傻搞不清,对吧。
很大一个原因,因为实际数据字段很多,你被搞晕了而已。
我们从最简单的两个表开始,就很好懂
表a和表b,一定记住他们的数据
image.png
问:
a join b on a.ID = b.ID
结果是什么?
先不说左右,就说join。(不理解连接无法理解左右)
结果是这样
一定要注意标红的1,3两个数据对吧,join是啥意思?a和b都有ID请留下,所有字段合到一起。(那么2,4,5,7哪去了?)
join的意思就是只要你中有我,我中有你的1,3;还不懂,看看下面
红色的是不是你中有我,我中有你。(ID的交集)
所以
join
,
left join
,
right join
,第一步是ID的选取啊,不了解这个怎么可能了解接下来的。
彻底明白了
join
, 我们再说说
left join
a lelt join b
注意,这里的left啥意思?以left为主,谁在left呢,a在left。
那以left为主又是啥意思?
还记得a里面的ID 2和4吗?
直接看结果,以left为主,就是left表的都留下(留下了2,4)
a lelt join b
a在left,就留下a的所有ID
所以!left join 是解决ID2,4无法在b中找到的问题(想想会不会有这样的情况)
a right join b
什么意思?以right为主,谁在right,b在right
所以留下哪些ID?(1,3,5,7)
如何真的理解了,则可以回答下面的问题:
a left join b
和
b right join a
一样不一样?
如果a,b都只有ID 1,3,请问
a left join b
和
a right join b
一样不一样?
为什么要加
group by
sum
看一下例子数据
SELECT * FROM movies group by
Director
;
想想看,按Director分组之后,有几条数据?
一下是不是想不出来?可以拆解为2步:
第一步:把所有在一组的圈出来
第一步
没毛病吧,咱们手工也得这么做啊。
第二步:每一组只能留下1条
问题来了,超过1条的
Brad
和
John
留下哪条呢?
下面是结果:SELECT * FROM movies group by
Director
;
第二步
仔细对比第一,第二步哦,发现留下是最后1条。
现在理解
Group By
的过程了吗?不理解这个过程怎么可能理解
sum
呢
加上count试下
select *,
count(*)
from movies group by Director;
问:第一步变吗?
第一步
第二步,count(*)怎么作用?
第二步
看到count
2
和
5
了吗,我已经红线标出了。
count什么意思?把组内的(注意看第一步)数一数,有几个就输出几。
不难理解吧(只是计数)
再加个sum
select ,count(),
sum(Length_minutes)
from movies group by Director;
第一步会变吗?不会吧
第二步,
sum(Length_minutes)
什么意思?肯定是组内的计算对吧
算什么?算 Length_minutes的和(组内每一个加起来就是sum)
第二步
手工算一算,对吗?
a = (select x form table)
括号里又有个SQL
怎么select里还套一个select,一下搞晕了对吧。
比如:找电影
产量最多
的导演,最后一部电影信息
晕不晕?
直接人工找出
产量最多
的导演名字不就行了吗?
第一个
这个不晕了吧。那为什么还要嵌套?
第二个
第二个和第一个结果是不是一样,
(select 'John Lasseter')
结果不就是 John Lasseter
所以,select的结果可以出现在另一个select的条件里(子查询)
这个不难理解,
(select 'John Lasseter')
实在太简单了!
现在看第三个:
第三个
一定要注意我画红线的地方,第二和第三的结果一摸一样对吗?只是语句长短不一样嘛。
现在可以看懂了吗?
问题是:为什么要写这么复杂?
如果表里新加了数据,
产量最多
的导演不是
John Lasseter
了? 你要重新数?
还是用这条复杂一点的SQL?(子查询只是为了解决动态数据问题)
求每一组的第一名
Group By
对吧,问题是怎么留下第一名呢?
还记得之前说的
Group By
默认留下谁吗?(最后一条)
所以:怎么把第一名放到最后一条?
先排序,保证第一名在最后,然后再分组。
我把换成
like
为什么不行
=
有人说:select * from movies where title
like 'Car %'
有数据。
怎么换成,select * from movies where title
= 'Car %'
就没数据了?
问:假设有一个title内容是 “Car %”,注意哦,它内容里就有%,请问
= 'Car %'
可以吗?用
like 'Car %'
呢?
为什么这个又可以了呢?
= 'Car %'
表示完全相同,因为内容里有 %,肯定相同啊
like 'Car %'
表示Car后面跟任何东西都可以 %当然可以啊
但是,如果Car 后面不是% 而是其他 xxx,like 和 = 效果还一样吗?
最后:
end:以上SQL可以在 http://xuesql.cn 执行看效果