3C科技 娛樂遊戲 美食旅遊 時尚美妝 親子育兒 生活休閒 金融理財 健康運動 寰宇綜合

Zi 字媒體

2017-07-25T20:27:27+00:00
加入好友
信息安全公益宣傳,信息安全知識啟蒙。以前接觸到的資料庫死鎖,都是批量更新時加鎖順序不一致而導致的死鎖,但是上周卻遇到了一個很難理解的死鎖。借著這個機會又重新學習了一下mysql的死鎖知識以及常見的死鎖場景。在多方調研以及和同事們的討論下終於發現了這個死鎖問題的成因,收穫頗多。雖然是後端程序員,我們不需要像DBA一樣深入地去分析與鎖相關的源碼,但是如果我們能夠掌握基本的死鎖排查方法,對我們的日常開發還是大有裨益的。死鎖起因先介紹一下資料庫和表情況,因為涉及到公司內部真是的數據,所以以下都做了模擬,不會影響具體的分析。我們採用的是5.5版本的mysql資料庫,事務隔離級別是默認的RR(Repeatable-Read),採用innodb引擎。假設存在test表:CREATE TABLE `test` ( `id` int(11) unsigned NOT NULL AUTO_INCREMENT `a` int(11) unsigned DEFAULT NULL PRIMARY KEY (`id`), UNIQUE KEY `a` (`a`)表的結構很簡單,一個主鍵id,另一個唯一索引a。表裡的數據如下:mysql> select * from test;| id | a || 1 | 1 || 2 | 2 || 4 | 4 |3 rows in set (0.00 sec)出現死鎖的操作如下:然後我們可以通過SHOW ENGINE INNODB STATUS;來查看死鎖日誌:170219 13:31:31*** (1) TRANSACTION:TRANSACTION 2A8BD ACTIVE 11 sec starting index readmysql tables in use 1 locked 1LOCK WAIT 2 lock struct(s), heap size 376 1 row lock(s)MySQL thread id 448218 OS thread handle 0x2abe5fb5d700 query id 18923238 renjun.fangcloud.net 121.41.41.92 root updatingdelete from test where a = 2*** (1) WAITING FOR THIS LOCK TO BE GRANTED:RECORD LOCKS space id 0 page no 923 n bits 80 index `a` of table `oauthdemo`.`test` trx id 2A8BD lock_mode XwaitingRecord lock heap no 3 PHYSICAL RECORD: n_fields 2; compact format; info bits 320: len 4; hex 00000002; asc ;;1: len 4; hex 00000002; asc ;;*** (2) TRANSACTION:TRANSACTION 2A8BC ACTIVE 18 sec inserting4 lock struct(s), heap size 1248 3 row lock(s), undo log entries 2MySQL thread id 448217 OS thread handle 0x2abe5fd65700 query id 18923239 renjun.fangcloud.net 121.41.41.92 root updateinsert into test (ida) values (102)*** (2) HOLDS THE LOCK(S):RECORD LOCKS space id 0 page no 923 n bits 80 index `a` of table `oauthdemo`.`test` trx id 2A8BC lock_mode X locks rec but not gap*** (2) WAITING FOR THIS LOCK TO BE GRANTED:RECORD LOCKS space id 0 page no 923 n bits 80 index `a` of table `oauthdemo`.`test` trx id 2A8BC lock mode S waiting*** WE ROLL BACK TRANSACTION (1)分析閱讀死鎖日誌遇到死鎖,第一步就是閱讀死鎖日誌。死鎖日誌通常分為兩部分,上半部分說明了事務1在等待什麼鎖:170219 13:31:31從日誌里我們可以看到事務1當前正在執行delete from test where a = 2,該條語句正在申請索引a的X鎖,所以提示lock_mode X waiting。然後日誌的下半部分說明了事務2當前持有的鎖以及等待的鎖:從日誌的HOLDS THE LOCKS(S)塊中我們可以看到事務2持有索引a的X鎖,並且是記錄鎖(Record Lock)。該鎖是通過事務2在步驟2執行的delete語句申請的。由於是RR隔離模式下的基於唯一索引的等值查詢(Where a = 2),所以會申請一個記錄鎖,而非next-key鎖。從日誌的WAITING FOR THIS LOCK TO BE GRANTED塊中我們可以看到事務2正在申請S鎖,也就是共享鎖。該鎖是insert into test (id,a) values (10,2)語句申請的。insert語句在普通情況下是會申請排他鎖,也就是X鎖,但是這裡出現了S鎖。這是因為a欄位是一個唯一索引,所以insert語句會在插入前進行一次duplicate key的檢查,為了使這次檢查成功,需要申請S鎖防止其他事務對a欄位進行修改。那麼為什麼該S鎖會失敗呢?這是對同一個欄位的鎖的申請是需要排隊的。S鎖前面還有一個未申請成功的X鎖,所以S鎖必須等待,所以形成了循環等待,死鎖出現了。通過閱讀死鎖日誌,我們可以清楚地知道兩個事務形成了怎樣的循環等待,再加以分析,就可以逆向推斷出循環等待的成因,也就是死鎖形成的原因。死鎖形成流程圖為了讓大家更好地理解死鎖形成的原因,我們再通過表格的形式闡述死鎖形成的流程:拓展在排查死鎖的過程中,有個同事還發現了上述場景會產生另一種死鎖,該場景無法通過手工復現,只有高併發場景下才有可能復現。該死鎖對應的日誌這裡就不貼出了,與上一個死鎖的核心差別是事務2等待的鎖從S鎖換成了X鎖,也就是lock_mode X locks gap before rec insert intention waiting。我們還是通過表格來詳細說明該死鎖產生的流程:總結排查死鎖時,首先需要根據死鎖日誌分析循環等待的場景,然後根據當前各個事務執行的SQL分析出加鎖類型以及順序,逆向推斷出如何形成循環等待,這樣就能找到死鎖產生的原因了。▼ 閱讀原文,查看更多精彩文章。

本文由yidianzixun提供 原文連結

寫了 5860316篇文章,獲得 23313次喜歡
精彩推薦