數據庫表連接的簡單解釋

關係型數據庫最難的地方，就是建模（model）。

錯綜複雜的數據，需要建立模型，才能儲存在數據庫。所謂"模型"就是兩樣東西：實體（entity）+ 關係（relationship）。

實體指的是那些實際的對象，帶有自己的屬性，可以理解成一組相關屬性的容器。關係就是實體之間的聯繫，通常可以分成"一對一"、"一對多"和"多對多"等類型。

在關係型數據庫裡面，每個實體有自己的一張表（table），所有屬性都是這張表的字段（field），表與表之間根據關聯字段"連接"（join）在一起。所以，表的連接是關係型數據庫的核心問題。

表的連接分成好幾種類型。

內連接（inner join）

外連接（outer join）

左連接（left join）

右連接（right join）

全連接（full join）

以前，很多文章採用維恩圖（兩個圓的集合運算），解釋不同連接的差異。

上週，我讀到一篇文章，認為還有比維恩圖更好的解釋方式。我發現確實如此，換一個角度解釋，更容易懂。

所謂"連接"，就是兩張表根據關聯字段，組合成一個數據集。問題是，兩張表的關聯字段的值往往是不一致的，如果關聯字段不匹配，怎麼處理？比如，表 A 包含張三和李四，表 B 包含李四和王五，匹配的只有李四這一條記錄。

很容易看出，一共有四種處理方法。

只返回兩張表匹配的記錄，這叫內連接（inner join）。

返回匹配的記錄，以及表 A 多餘的記錄，這叫左連接（left join）。

返回匹配的記錄，以及表 B 多餘的記錄，這叫右連接（right join）。

返回匹配的記錄，以及表 A 和表 B 各自的多餘記錄，這叫全連接（full join）。

下圖就是四種連接的圖示。我覺得，這張圖比維恩圖更易懂，也更準確。

上圖中，表 A 的記錄是 123，表 B 的記錄是 ABC，顏色表示匹配關係。返回結果中，如果另一張表沒有匹配的記錄，則用 null 填充。

這四種連接，又可以分成兩大類：內連接（inner join）表示只包含匹配的記錄，外連接（outer join）表示還包含不匹配的記錄。所以，左連接、右連接、全連接都屬於外連接。

這四種連接的 SQL 語句如下。


SELECT * FROM A  
INNER JOIN B ON A.book_id=B.book_id;

SELECT * FROM A  
LEFT JOIN B ON A.book_id=B.book_id;

SELECT * FROM A  
RIGHT JOIN B ON A.book_id=B.book_id;

SELECT * FROM A  
FULL JOIN B ON A.book_id=B.book_id;

上面的 SQL 語句還可以加上where條件從句，對記錄進行篩選，比如只返回表 A 裡面不匹配表 B 的記錄。


SELECT * FROM A
LEFT JOIN B
ON A.book_id=B.book_id
WHERE B.id IS null;

另一個例子，返回表 A 或表 B 所有不匹配的記錄。


SELECT * FROM A
FULL JOIN B
ON A.book_id=B.book_id
WHERE A.id IS null OR B.id IS null;

此外，還存在一種特殊的連接，叫做"交叉連接"（cross join），指的是表 A 和表 B 不存在關聯字段，這時表 A（共有 n 條記錄）與表 B （共有 m 條記錄）連接後，會產生一張包含 n x m 條記錄的新表（見下圖）。

（完）

推薦訂閱源

阮一峰的网络日志

數據庫表連接的簡單解釋