從0實現(xiàn)基于Linux socket聊天室-多線程服務器一個很隱晦的錯誤-2

01/26 10:24 作者：一口Linux

578

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

根據(jù) 《0 基于socket和pthread實現(xiàn)多線程服務器模型》所述，server創(chuàng)建子線程的時候用的是以下代碼：

pconnsocke?=?(int?*)?malloc(sizeof(int));
*pconnsocke?=?new_fd;

ret?=?pthread_create(&tid,?NULL,?rec_func,?(void?*)?pconnsocke);
if?(ret?<?0)
{
perror("pthread_create?err");
return?-1;
}

為什么必須要malloc一塊內(nèi)存專門存放這個新的套接字呢？

要講清楚這個問題的原因需要一些背景知識：

Linux創(chuàng)建一個新進程時，新進程會創(chuàng)建一個主線程；
每個用戶進程有自己的地址空間，系統(tǒng)為每個用戶進程創(chuàng)建一個task_struct來描述該進程，實際上task_struct 和地址空間映射表一起用來，表示一個進程；
Linux里同樣用task_struct來描述一個線程，線程和進程都參與統(tǒng)一的調(diào)度；
進程內(nèi)的不同線程執(zhí)行是同一程序的不同部分，各個線程并行執(zhí)行，受操作系統(tǒng)異步調(diào)度；
由于進程的地址空間是私有的，因此在進程間上下文切換時，系統(tǒng)開銷比較大；
在同一個進程中創(chuàng)建的線程共享該進程的地址空間。

明白這些基礎(chǔ)知識后，下面我來看下，當進程創(chuàng)建一個子線程的時候，傳遞的參數(shù)情況：

直接傳遞棧中內(nèi)存地址

我們首先分析下如果創(chuàng)建子線程傳遞的是局部變量new_fd的地址這種情況。

由上圖所示：

創(chuàng)建一個線程，如果我們按照圖中傳遞參數(shù)方法，那么new_fd是在棧中的，創(chuàng)建子線程的時候我們把new_fd地址傳遞給了thread1，線程回調(diào)參數(shù)arg的地址是new_fd地址。
因為主函數(shù)會一直循環(huán)不退出，所以new_fd一直存在棧中。用這種方法的確可以把new_fd的值3傳遞到子線程的局部變量fd，這樣子線程就可以使用這個fd與客戶端通信。
但是因為我們設計的是并發(fā)服務器模型，我們沒有辦法預測客戶端什么時候會連接我們的服務器，假設遇到一個極端情況，在同一時刻，多個客戶端同時連接服務器，那么主線程是要同時創(chuàng)建多個子線程的。

如上圖所示，所有新建的的thread回調(diào)函數(shù)的參數(shù)arg存放的都是new_fd的地址。如果客戶端連接的時候時間間隔比較大，是沒有問題的，但是在一些極端的情況下還是有可能出現(xiàn)由于高并發(fā)引起的錯誤。

我們來捋一下極端的調(diào)用時序：

第一步：

如上圖所示：

第二步：

如上圖所示：

5T3時刻，主線程server接受了客戶端的連接，accept函數(shù)會創(chuàng)建新的套接字5，同時創(chuàng)建子線程thread2，此時OS調(diào)度的thread2；
T4時刻，thread2通過arg得到new_fd了的值5,并存入fd；
T5時刻，時間片到了，調(diào)度thread1，thread1通過arg去讀取new_fd，此時棧中new_fd的值已經(jīng)修5覆蓋了；
所以出現(xiàn)了2個線程同時使用同一個fd的情況發(fā)生。

這種情況的發(fā)生，雖然概率很低，但是并不代表不發(fā)生，該bug就是一口君在解決實際項目中遇到過的。

如果采用傳遞堆的地址的方式，我們看下圖：

T1時刻，當客戶端1連接服務器的時候，服務器的accept函數(shù)會創(chuàng)建新的套接字4，在堆中申請一塊內(nèi)存，用指針pconnsocke指向該內(nèi)存，同時將4保存到堆中；
T2時刻，創(chuàng)建了子線程thread1，同時子線程回調(diào)函數(shù)參數(shù)arg指向了堆中pconnsocke指向的內(nèi)存。
假設，正在此時，又有一個客戶端要連接服務器，而且thread1頁已經(jīng)用盡了時間片，那么主線程server會被調(diào)度到。
T3時刻，主線程server接受了客戶端的連接，accept函數(shù)會創(chuàng)建新的套接字5，在堆中申請一塊內(nèi)存，用指針pconnsocke指向該內(nèi)存，同時將5保存到堆中，然后創(chuàng)建子線程thread2；
T4時刻，thread2通過arg指向了堆中pconnsocke指向的內(nèi)存，此處值為5,并存入fd；
T5時刻，時間片到了，調(diào)度thread1，thread1通過arg去讀取fd，此時堆中數(shù)據(jù)位5；
就不會出現(xiàn)了2個線程同時使用同一個fd的情況發(fā)生。

這個知識點有點隱蔽，希望讀者在使用的時候多加小心。下一章，我們要講解如何利用我們現(xiàn)有的代碼實現(xiàn)登錄注冊的功能。

版權(quán)聲明：與非網(wǎng)經(jīng)原作者授權(quán)轉(zhuǎn)載，版權(quán)屬于原作者。文章觀點僅代表作者本人，不代表與非網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有侵權(quán)或者其他問題，請聯(lián)系本站作侵刪。侵權(quán)投訴

人工客服
（售后/吐槽/合作/交友）