相信大家在寫C++的時(shí)候一定會(huì)經(jīng)常討論到「左值」「右值」「將亡值」等等的概念,在筆者的其他系列文章中也反復(fù)提及這幾個(gè)概念,再加上一些「右值引用」「移動(dòng)語義」等等這些概念的出現(xiàn),說一點(diǎn)都不暈?zāi)且欢ㄊ球_人的。
合山ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場景,ssl證書未來市場廣闊!成為創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:13518219792(備注:SSL證書合作)期待與您的合作!如果你對C++值類型的區(qū)分和具體概念還不了解的話,重磅推薦先來讀一下我的偶像——三帥妹妹的一篇文章《c++ value categories》。
很多人都在吐槽C++,為什么要設(shè)計(jì)的這樣復(fù)雜?就一個(gè)程序語言,還能搞出這么多值類別來?(話說可能自然語言都不見得有這么復(fù)雜吧……),那么這篇我們就來詳細(xì)研究一下,為什么要專門定義這樣的值類型,以及在這個(gè)過程中筆者自己的思考。
一些吐槽不得不吐槽一下,筆者認(rèn)為,C++之所以復(fù)雜,C語言是原罪。因?yàn)镃++一開始設(shè)計(jì)的目的,就是為給C來進(jìn)行語法擴(kuò)充的。因此,C++的設(shè)計(jì)方式和其他語言會(huì)有一些不同。
一般設(shè)計(jì)一門程序語言,應(yīng)該是先設(shè)計(jì)一套語言體系,我希望這個(gè)語言提供哪些語法、哪些功能。之后再去根據(jù)這套理論體系來設(shè)計(jì)編譯器,也就是說對于每一種語法如何解析,如何進(jìn)行匯編。
但C++是不同的,因?yàn)樵谠O(shè)計(jì)C++的語言體系的時(shí)候,就已經(jīng)有完整的C語言了。因此,C++的語言體系建立其實(shí)是在C的語言體系、編譯器實(shí)現(xiàn)以及標(biāo)準(zhǔn)庫等這些之上,又重新建立的。所以說C++從設(shè)計(jì)之初,就決定了它沒辦法甩開C的缺陷。很多問題都是為了解決一個(gè)問題又不得不引入另一個(gè)問題,不斷「找補(bǔ)」導(dǎo)致的。今天要細(xì)說的C++值類別(Value Category)就是其中非常有代表性的一個(gè)。
所以要想解釋清為什么會(huì)有這些概念,我們就要從C語言開始,去猜測和體會(huì)C++設(shè)計(jì)者的初衷,遇到的問題以及「找補(bǔ)」的手段,這樣才能真正理解這些概念是如何誕生的。
正式開始解釋 從C語言開始講起在C語言當(dāng)中其實(shí)并沒有什么「左右值」之類的概念,單從值的角度來說C語言僅僅在意的是「可變量」和「不可變量」。但C更關(guān)心的是,數(shù)據(jù)存在哪里,首先是內(nèi)存還是寄存器?為了區(qū)分「內(nèi)存變量」還是「寄存器變量」,從而誕生了register
和auto
關(guān)鍵字(用register
修飾的要放在寄存器中,auto
修飾的由編譯器來決定放在哪里,沒有修飾符的要放在內(nèi)存中)。
之后,即便是內(nèi)存也要再繼續(xù)細(xì)致劃分,C把內(nèi)存劃分為4大區(qū)域,分別是全局區(qū)、靜態(tài)區(qū)、堆區(qū)和棧區(qū)。而「棧區(qū)」主要依賴于函數(shù)(我覺得這個(gè)地方翻譯成「存儲(chǔ)過程」可能更合適),在C語言的視角來看,每一個(gè)程序就是一個(gè)過程(主函數(shù)),而這個(gè)過程執(zhí)行的途中,會(huì)有很多子過程(其他函數(shù)),一個(gè)程序就是若干過程嵌套拼接和組合的結(jié)果。這其實(shí)也就是C語言「面向過程」的原因,因?yàn)樗褪沁@樣來設(shè)計(jì)的。從C語言衍生出的C++、OC、Go等其實(shí)都沒有逃過這個(gè)設(shè)計(jì)框架。以O(shè)C為例,別看OC是面向?qū)ο蟮模匀豢梢赃^程式開發(fā),它的程序入口也是主函數(shù),這個(gè)切入點(diǎn)來看它還是面相過程的,只是在執(zhí)行這個(gè)過程中,衍生出了面向?qū)ο蟮牟僮?。(這里就不詳細(xì)展開了。)
那么以C語言的視角來看,一個(gè)函數(shù)其實(shí)就是一個(gè)過程,所以這個(gè)過程應(yīng)該就需要相對獨(dú)立的數(shù)據(jù)區(qū)域,僅僅在這個(gè)過程中生效,當(dāng)過程結(jié)束,那這些數(shù)據(jù)也就不需要了。這就是函數(shù)的棧區(qū)的目的,我們管在棧區(qū)中的變量稱作「局部變量」。
雖然棧區(qū)把不同過程之間的數(shù)據(jù)隔離開了,但是我們在過程的執(zhí)行之間肯定是要有一些數(shù)據(jù)傳遞的,體現(xiàn)在C語法上就是函數(shù)的參數(shù)和返回值。正常來說,一個(gè)函數(shù)的調(diào)用過程是:
在早期版本的C語言(C89)中,每個(gè)函數(shù)中需要的局部變量都是要在函數(shù)頭定義全的,也就是說函數(shù)體中是不能再單獨(dú)定義變量的,主要就是為了讓編譯器能夠劃分好內(nèi)存空間給每一個(gè)局部變量。但后來在C99標(biāo)準(zhǔn)里這個(gè)要求被放開了,但本質(zhì)上來說原理是沒有變的,編譯器會(huì)根據(jù)局部變量定義的順序來進(jìn)行空間的分配。
要理解這一點(diǎn),我們直接從匯編代碼上來看是最直觀的。首先給出一個(gè)用于驗(yàn)證的C代碼:
void Demo() {int a = 0;
long b = 1;
short c = 2;
}
將其轉(zhuǎn)換為AMD64匯編是這樣的:
Demo:
push rbp
mov rbp, rsp
mov DWORD PTR [rbp-4], 0
mov QWORD PTR [rbp-16], 1
mov WORD PTR [rbp-18], 2
nop
pop rbp
ret
rbp
寄存器中存放的就是棧底的地址,我們可以看到,rbp-4
的位置放了變量a
,因?yàn)?code>a是int
類型的,所以占用4個(gè)字節(jié),也就是從[rbp]
到[rbp-4]
的位置都是變量a
(這里注意里面是減法哈,按照小端序的話低字節(jié)是高位),然后按照我們定義變量的順序來排布的(中間預(yù)留4字節(jié)是為了字節(jié)對齊)。
那如果函數(shù)有參數(shù)呢?會(huì)放在哪里?比如:
void Demo(int in1, char in2) {int a = 0;
long b = 1;
short c = 2;
}
會(huì)轉(zhuǎn)換為:
Demo:
push rbp
mov rbp, rsp
mov DWORD PTR [rbp-36], edi
mov eax, esi
mov BYTE PTR [rbp-40], al
mov DWORD PTR [rbp-4], 0
mov QWORD PTR [rbp-16], 1
mov WORD PTR [rbp-18], 2
nop
pop rbp
ret
可以看出來,函數(shù)參數(shù)也是作為一種局部變量來使用的,我們可以看到這里處理參數(shù)都是直接處理內(nèi)存的,也就是說在函數(shù)調(diào)用的時(shí)候,就是直接把拿著實(shí)參的值,在函數(shù)的棧區(qū)創(chuàng)建了一個(gè)局部變量。所以函數(shù)參數(shù)在函數(shù)內(nèi)部也是作為局部變量來對待的。
那如果函數(shù)有返回值呢?請看下面實(shí)例:
int Demo() {return 5;
}
會(huì)轉(zhuǎn)義為:
Demo:
push rbp
mov rbp, rsp
mov eax, 5
pop rbp
ret
也就是說,返回值會(huì)直接寫入寄存器,這樣外部如果需要使用函數(shù)返回值的話,就直接從寄存器中取就好了。
所以,上面的例子主要是想表明,C語言的設(shè)計(jì)對于編譯器來說是相當(dāng)友好的,從某種程度上來說,就是在給匯編語法做一個(gè)語法糖。數(shù)據(jù)的傳遞都是按照硬件的處理邏輯來布局的。請大家先記住這個(gè)函數(shù)之間傳值的方式,參數(shù)就是普通的局部變量;返回的時(shí)候是把返回值放到寄存器,調(diào)用方會(huì)再從寄存器中拿。這個(gè)過程我們可以寫一個(gè)更加直觀的例子:
int Demo1(int a) {return 5;
}
void Demo2() {int a = Demo1(2);
}
匯編后是:
Demo1:
push rbp
mov rbp, rsp
mov DWORD PTR [rbp-4], edi
mov eax, 5
pop rbp
ret
Demo2:
push rbp
mov rbp, rsp
sub rsp, 16
mov edi, 2
call Demo1
mov DWORD PTR [rbp-4], eax
nop
leave
ret
這就非常說明問題了,函數(shù)傳參時(shí),因?yàn)橐呀?jīng)構(gòu)建了被調(diào)函數(shù)的棧空間,所以可以直接變量復(fù)制,但對于返回值,這是本篇的第一個(gè)重點(diǎn)??!「函數(shù)返回值是放在寄存器中傳遞出去的」。
寄存器傳遞數(shù)據(jù)固然方便,但寄存器長度是有上限的,如果需要傳遞的數(shù)據(jù)超過了寄存器的長度怎么辦?
struct Test {long a, b;
};
struct Test Demo() {struct Test t = {1, 2};
return t;
}
匯編后是:
Demo:
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-16], 1
mov QWORD PTR [rbp-8], 2
mov rax, QWORD PTR [rbp-16]
mov rdx, QWORD PTR [rbp-8]
pop rbp
ret
尷尬~~編譯器竟然用了2個(gè)寄存器來返回?cái)?shù)據(jù)……這太不給面子了,那我們就再狠一點(diǎn),搞再長一點(diǎn):
struct Test {long a, b, c;
};
struct Test Demo() {struct Test t = {1, 2, 3};
return t;
}
當(dāng)結(jié)構(gòu)體的長度再大一點(diǎn)的時(shí)候,情況就發(fā)生改變了:
Demo:
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-40], rdi
mov QWORD PTR [rbp-32], 1
mov QWORD PTR [rbp-24], 2
mov QWORD PTR [rbp-16], 3
mov rcx, QWORD PTR [rbp-40]
mov rax, QWORD PTR [rbp-32]
mov rdx, QWORD PTR [rbp-24]
mov QWORD PTR [rcx], rax
mov QWORD PTR [rcx+8], rdx
mov rax, QWORD PTR [rbp-16]
mov QWORD PTR [rcx+16], rax
mov rax, QWORD PTR [rbp-40]
pop rbp
ret
我們能看到,這里做的事情很有趣,[rbp-40]
~[rpb-16]
這24個(gè)字節(jié)是局部變量t
,函數(shù)執(zhí)行后被寫在了[rdi]
~[rdi+24]
這24個(gè)字節(jié)的空間的位置,而最后寄存器中存放的是rdi
的值(匯報(bào)指令有點(diǎn)繞,受限于AMD64匯編語法的限制,不同種類寄存器之間不能直接賦值,所以它先搞到了[rbp-40]
的內(nèi)存位置,然后又寫到了rcx
寄存器中,所以后面的[rcx+8]
其實(shí)就是[rdi+8]
,最后rax
中其實(shí)放的也是一開始的rdi
的值)。那這個(gè)rdi
寄存器的值是誰給的呢?我們加上調(diào)用代碼來觀察:
struct Test {long a, b, c;
};
struct Test Demo1() {struct Test t = {1, 2, 3};
return t;
}
void Demo2() {struct Test t = Demo1();
}
匯編成:
Demo1:
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-40], rdi
mov QWORD PTR [rbp-32], 1
mov QWORD PTR [rbp-24], 2
mov QWORD PTR [rbp-16], 3
mov rcx, QWORD PTR [rbp-40]
mov rax, QWORD PTR [rbp-32]
mov rdx, QWORD PTR [rbp-24]
mov QWORD PTR [rcx], rax
mov QWORD PTR [rcx+8], rdx
mov rax, QWORD PTR [rbp-16]
mov QWORD PTR [rcx+16], rax
mov rax, QWORD PTR [rbp-40]
pop rbp
ret
Demo2:
push rbp
mov rbp, rsp
sub rsp, 32
lea rax, [rbp-32]
mov rdi, rax
mov eax, 0
call Demo1
nop
leave
ret
也就是說,在這種場景下,調(diào)用Demo1
之前,rdi
寫的就已經(jīng)是Demo2
中t
的地址了。編譯器其實(shí)是把「返回值」變成了「出參」,直接拿著「將要接受返回值的變量地址」進(jìn)到函數(shù)里面來處理了。這是本篇的第二個(gè)重點(diǎn)?。 负瘮?shù)返回值會(huì)被轉(zhuǎn)換為出參,內(nèi)部直接操作外部??臻g」。
但假如,我們要的并不是「返回值的全部」,而是「返回值的一部分」呢?比如說:
struct Test {long a, b, c;
};
struct Test Demo1() {struct Test t = {1, 2, 3};
return t;
}
void Demo2() {long a = Demo1().a; // 只要其中的一個(gè)成員
}
那么這個(gè)時(shí)候會(huì)匯編成:
Demo1:
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-40], rdi
mov QWORD PTR [rbp-32], 1
mov QWORD PTR [rbp-24], 2
mov QWORD PTR [rbp-16], 3
mov rcx, QWORD PTR [rbp-40]
mov rax, QWORD PTR [rbp-32]
mov rdx, QWORD PTR [rbp-24]
mov QWORD PTR [rcx], rax
mov QWORD PTR [rcx+8], rdx
mov rax, QWORD PTR [rbp-16]
mov QWORD PTR [rcx+16], rax
mov rax, QWORD PTR [rbp-40]
pop rbp
ret
Demo2:
push rbp
mov rbp, rsp
sub rsp, 32
lea rax, [rbp-32]
mov rdi, rax
mov eax, 0
call Demo1
mov rax, QWORD PTR [rbp-32]
mov QWORD PTR [rbp-8], rax
nop
leave
ret
我們發(fā)現(xiàn),雖然在Demo2
中沒有剛才那樣完整的結(jié)構(gòu)體變量t
,但編譯器還是會(huì)分配一片用于保存返回值的空間,把這個(gè)空間的地址寫在rdi
中,然后拿著這個(gè)空間到Demo1
中來操作。等Demo1
函數(shù)執(zhí)行完,再根據(jù)需要,把這片空間中的數(shù)據(jù)復(fù)制給局部變量a
。
換句話說,編譯器其實(shí)是創(chuàng)建了一個(gè)匿名的結(jié)構(gòu)體變量(我們姑且叫它tmp
),所以上面的代碼其實(shí)等價(jià)于:
void Demo2() {struct Test tmp = Demo1(); // 注意這個(gè)變量其實(shí)是匿名的
int a = tmp.a;
}
小結(jié)總結(jié)上面所說,對于一個(gè)函數(shù)的返回值:
這一套體系在C語言中其實(shí)并沒有太多問題,但有了C++的拓展以后,就不一樣了。
考慮上構(gòu)造和析構(gòu)函數(shù)會(huì)怎么樣C++在C的基礎(chǔ)上,為結(jié)構(gòu)體添加了構(gòu)造函數(shù)和析構(gòu)函數(shù),為了能「屏蔽抽象內(nèi)部的細(xì)節(jié)」,將構(gòu)造和析構(gòu)函數(shù)與變量的生命周期進(jìn)行了綁定。在創(chuàng)建變量時(shí)會(huì)強(qiáng)制調(diào)用構(gòu)造函數(shù),而在變量釋放時(shí)會(huì)強(qiáng)制調(diào)用析構(gòu)函數(shù)。
如果是正常在一個(gè)代碼塊內(nèi),這件事自然是無可厚非的,我們也可以簡單來驗(yàn)證一下:
struct Test {Test() {}
~Test() {}
};
void Demo() {Test t;
}
匯編成:
Test::Test() [base object constructor]:
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-8], rdi
nop
pop rbp
ret
Test::~Test() [base object destructor]:
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-8], rdi
nop
pop rbp
ret
Demo():
push rbp
mov rbp, rsp
sub rsp, 16
lea rax, [rbp-1]
mov rdi, rax
call Test::Test() [complete object constructor]
lea rax, [rbp-1]
mov rdi, rax
call Test::~Test() [complete object destructor]
leave
ret
注意C++由于支持了函數(shù)重載,因此函數(shù)簽名里會(huì)帶上參數(shù)類型,所以這里的函數(shù)名都比C語言直接匯編出來的多一個(gè)括號。
那如果一個(gè)自定義了構(gòu)造和析構(gòu)的類型做函數(shù)返回值的話會(huì)怎么樣?比如:
struct Test {Test() {}
~Test() {}
};
Test Demo1() {Test t;
return t;
}
void Demo2() {Test t = Demo1();
}
這里我們給編譯器加上-fno-elide-constructors
參數(shù)來關(guān)閉返回值優(yōu)化,這樣能看到語言設(shè)計(jì)的本質(zhì),匯編后是:
Test::Test() [base object constructor]:
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-8], rdi
nop
pop rbp
ret
Test::~Test() [base object destructor]:
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-8], rdi
nop
pop rbp
ret
Test::Test(Test const&) [base object constructor]:
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-8], rdi
mov QWORD PTR [rbp-16], rsi
nop
pop rbp
ret
Demo1():
push rbp
mov rbp, rsp
sub rsp, 32
mov QWORD PTR [rbp-24], rdi
lea rax, [rbp-1]
mov rdi, rax ;注意這里rdi發(fā)生了改變!
call Test::Test() [complete object constructor]
lea rdx, [rbp-1]
mov rax, QWORD PTR [rbp-24]
mov rsi, rdx
mov rdi, rax
call Test::Test(Test const&) [complete object constructor]
lea rax, [rbp-1]
mov rdi, rax
call Test::~Test() [complete object destructor]
nop
mov rax, QWORD PTR [rbp-24]
leave
ret
Demo2():
push rbp
mov rbp, rsp
sub rsp, 16
lea rax, [rbp-1]
mov rdi, rax
call Demo1()
lea rax, [rbp-1]
mov rdi, rax
call Test::~Test() [complete object destructor]
leave
ret
這次代碼就非常有意思了,首先,編譯器自動(dòng)生成了一個(gè)拷貝構(gòu)造函數(shù)Test::Test(const Test &)
。接下來做的事情跟純C語言結(jié)構(gòu)體就有區(qū)別了,在Demo2
中,由于我們?nèi)匀皇怯米兞恐苯咏邮樟撕瘮?shù)返回值,所以它同樣還是直接把t
的地址,寫入了rdi
,這里行為和之前是一樣的。但是在Demo1
中,rdi
的值寫入了rbp-24
的位置,但后面調(diào)用構(gòu)造函數(shù)的時(shí)候傳入的是rbp-1
,所以說明這個(gè)位置才是Demo1
中的t
實(shí)際的位置,等待構(gòu)造函數(shù)調(diào)用完之后,又調(diào)用了一次拷貝構(gòu)造,這時(shí)傳入的才是rbp-24
,也就是外部傳進(jìn)來保存函數(shù)返回值的地址。
也就是說,由于構(gòu)造函數(shù)和析構(gòu)函數(shù)跟變量生命周期相綁定了,因此這時(shí)并不能直接把「函數(shù)返回值轉(zhuǎn)出參」了,而是先生成一個(gè)局部變量,然后通過拷貝構(gòu)造函數(shù)來構(gòu)造「返回值」,再析構(gòu)這個(gè)局部變量。所以整個(gè)過程會(huì)多一次拷貝和析構(gòu)的過程。
這么做,是為了保證對象的行為自閉環(huán),但只有當(dāng)析構(gòu)函數(shù)和拷貝構(gòu)造函數(shù)是非默認(rèn)行為的時(shí)候,這樣做才有意義,如果真的就是C類型的結(jié)構(gòu)體,那就沒這個(gè)必要了,按照原來C的方式來編譯即可。因此C++在這里強(qiáng)行定義了「平凡(trivial)」類型的概念,主要就是為了指導(dǎo)編譯器,對于平凡類型,直接按照C的方式來編譯,而對于非平凡的類型,要調(diào)用構(gòu)造和析構(gòu)函數(shù),因此必須按照新的方式來處理(剛才例子那樣的方式)。
那么這個(gè)時(shí)候再考慮一點(diǎn),如果我們還是只使用返回值的一部分呢?比如說:
struct Test {Test() {}
~Test() {}
int a;
};
Test Demo1() {Test t;
return t;
}
void Demo2() {int a = Demo1().a;
}
結(jié)果非常有趣:
Test::Test() [base object constructor]:
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-8], rdi
nop
pop rbp
ret
Test::~Test() [base object destructor]:
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-8], rdi
nop
pop rbp
ret
Test::Test(Test const&) [base object constructor]:
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-8], rdi
mov QWORD PTR [rbp-16], rsi
mov rax, QWORD PTR [rbp-8]
mov rdx, QWORD PTR [rbp-16]
mov edx, DWORD PTR [rdx]
mov DWORD PTR [rax], edx
nop
pop rbp
ret
Demo1():
push rbp
mov rbp, rsp
sub rsp, 32
mov QWORD PTR [rbp-24], rdi
lea rax, [rbp-4]
mov rdi, rax
call Test::Test() [complete object constructor]
lea rdx, [rbp-4]
mov rax, QWORD PTR [rbp-24]
mov rsi, rdx
mov rdi, rax
call Test::Test(Test const&) [complete object constructor]
lea rax, [rbp-4]
mov rdi, rax
call Test::~Test() [complete object destructor]
nop
mov rax, QWORD PTR [rbp-24]
leave
ret
Demo2():
push rbp
mov rbp, rsp
sub rsp, 16
lea rax, [rbp-8]
mov rdi, rax
call Demo1()
mov eax, DWORD PTR [rbp-8]
mov DWORD PTR [rbp-4], eax ;這里是給局部變量a賦值
lea rax, [rbp-8]
mov rdi, rax
call Test::~Test() [complete object destructor]
nop
leave
ret
這里仍然會(huì)分配一個(gè)匿名的空間用于接收返回值,然后再從這個(gè)匿名空間中取值復(fù)制給局部變量a
。從上面的代碼能看出,匿名空間在rbp-8
的位置,局部變量a
在rbp-4
的位置。但這里非常有意思的是,在給局部變量賦值后,立刻對匿名空間做了一次析構(gòu)(所以它把rbp-8
寫到了rdi
中,然后cal
了析構(gòu)函數(shù))。這是本篇的第三個(gè)重點(diǎn)?。 溉绻媚涿臻g接收函數(shù)返回值的話,在處理完函數(shù)調(diào)用語句后,匿名空間將會(huì)被析構(gòu)」。
講了這么多,總算能回到主線上來了,先來歸納一下前文出現(xiàn)的3個(gè)重點(diǎn):
其實(shí)對應(yīng)了函數(shù)返回?cái)?shù)據(jù)的3種處理方式:
C++按照這個(gè)特征來劃分了prvalue和xvalue。(注意,英語中所有以"ex"開頭的單詞,如果縮寫的話會(huì)縮寫為"x"而不是"e",就比如說"Extreme Dynamic Range"縮寫是"XDR"而不是"EDR"; “Extensible Markup Language"縮寫為"XML"而不是"EML”。)
所謂prvalue,翻譯為“純右值”,表示的就是第1種,也就是用寄存器來保存的情況,或者就是字面常量。舉例來說,1
這就是個(gè)純右值,它在匯編中就是一個(gè)單純的常數(shù)。然后就是返回值通過寄存器來進(jìn)行的這種情況。對于C/C++這種語言來說,我們可以盡情操作內(nèi)存,但沒法染指寄存器,所以在它看來,寄存器中的數(shù)就跟一個(gè)常數(shù)值一樣,只能感知到它的值而已,不能去操控,不能去改變。換一種說法,prvalue就是「沒有內(nèi)存實(shí)體」的值,常數(shù)沒有內(nèi)存實(shí)體,寄存器中的數(shù)據(jù)也沒有內(nèi)存實(shí)體。所以prvalue沒有地址。
而對于第2種的情況,「返回值」的這件事情其實(shí)是不存在的,只是語義上的概念。實(shí)際就是操作了一個(gè)調(diào)用方的??臻g。因此,這種情況就等價(jià)于普通的變量,它是一個(gè)lvalue,它是實(shí)實(shí)在在可控的,有內(nèi)存實(shí)體,程序可以操作。
對于第3種的情況,「返回值」被保存在一個(gè)匿名的內(nèi)存空間中,它在完成某一個(gè)動(dòng)作之后就失效了(非平凡析構(gòu)類型的就會(huì)調(diào)用析構(gòu)函數(shù))。比如用上一節(jié)的例子來說,從Demo1
函數(shù)的返回值(匿名空間)獲取了成員a
交給了局部變量,然后,這個(gè)匿名空間就失效了,所以調(diào)用了~Demo
析構(gòu)函數(shù)。我們把這種值稱為xvalue(將亡值),xvalue也有內(nèi)存實(shí)體。
以目前得到的信息來說,xvalue和lvalue的區(qū)別就在于生命周期。在C++中生命周期比在C中更加重要,在C中討論生命周期其實(shí)僅僅在于初始化和賦值的問題(比如說局部static變量的問題),但到了C++中,生命周期會(huì)直接決定了構(gòu)造和析構(gòu)函數(shù)的調(diào)用,因此更加重要。xvalue會(huì)在當(dāng)前語句結(jié)束時(shí)立刻析構(gòu),而lvalue會(huì)在所屬代碼塊結(jié)束時(shí)再析構(gòu)。所以針對于xvalue的情況,在C中并不明顯,反正我們是從匿名的內(nèi)存空間讀取出數(shù)據(jù)來,這件事情就結(jié)束了;但C++中就會(huì)涉及析構(gòu)函數(shù)的問題,這就是xvalue在C++中非常特殊的原因。
xvalue取址問題與C++引用對于prvalue來說,它是純「值」或「寄存器值」,因此不能取地址,這件事無可厚非。但對于xvalue來說呢?xvalue有內(nèi)存實(shí)體,但為什么也不能取地址呢?
原因就是在于,原本C語言在設(shè)計(jì)這個(gè)部分的時(shí)候,函數(shù)返回值究竟要寫到一個(gè)局部變量里,還是要寫到一個(gè)匿名的內(nèi)存空間里這件事是不能僅通過一個(gè)函數(shù)調(diào)用語句來判斷,而是要通過上下文。也就是說,struct Test t = Demo1();
的時(shí)候,t
本身的地址就是返回值地址,此時(shí)返回值是lvalue(因?yàn)?code>t就是lvalue);而如果是int ta = Demo1().a;
的時(shí)候,返回值的地址是一個(gè)匿名的空間,此時(shí)返回值就是xvalue,而這里的ta
就不再是返回值的地址。所以,如果你什么都不給,單純給一個(gè)Demo1();
,編譯器就無法判斷要選取哪一種方式,所以干脆就不支持&Demo1();
這種寫法,你得表達(dá)清楚了,我才能確定你要的是誰的地址。所以前一種情況下的&t
就是返回值所在的地址,而后一種情況的&ta
就并不是返回值所在地址了。
原本C中的這種方式倒是也合理,但是C++卻引入了「引用」的概念,希望讓「xx的引用」從「語義上」成為「xx的別名」這種感覺。但C++在實(shí)現(xiàn)引用的時(shí)候,又沒法做到真的給變量起別名,所以轉(zhuǎn)而使用指針的語法糖來實(shí)現(xiàn)引用。比如說:
int a = 5;
int &r = a;
語義上,表達(dá)的是「a
是一個(gè)變量,r
代指這個(gè)變量,對r
做任何行為就等價(jià)于對a
做同樣的行為,所以r
是a
的替身(引用)」。但實(shí)際上卻做的是「定義了一個(gè)新的變量pr
,初始化為a
的地址,對p
做任何行為就等價(jià)于對*pr
做任何行為,這是一個(gè)取地址和解指針的語法糖」。
既然本質(zhì)是指針,那么指針的解類型就是可以手動(dòng)定義的,同理,變量的引用類型也是可以手動(dòng)定義的。(本質(zhì)上就不是別名,如果是別名的話,那類型怎么能變化呢?)比如說:
int a = 5;
char &r = reinterpret_cast(a);
上面這種寫法是成立的,因?yàn)樗谋举|(zhì)就是:
int a = 5;
char *pr = reinterpret_cast(&a);
變化的僅僅是指針的解類型而已。自然沒什么問題。既然解類型可以強(qiáng)轉(zhuǎn),自然也就符合隱式轉(zhuǎn)換特性,我們知道可變指針可以隱式轉(zhuǎn)換為不可變指針,那么「可變引用」也自然可以隱式轉(zhuǎn)換為「不可變引用」,比如說:
int a = 5;
const int &r = a;
// 等價(jià)于:
const int &r = const_cast(a);
// 等價(jià)于
const int *pr = &a;
// 等價(jià)于
const int *pr = const_cast(&a);
繞來繞去本質(zhì)都是指針的行為。剛才我們說到rvalue是不能取址的,那么自然,我們就不能用一個(gè)普通的引用來接收函數(shù)返回值:
Test &r = Demo1(); // 不可以!因?yàn)樗葍r(jià)于
Test *pr = &Demo1(); // 這個(gè)不可以,所以上面的也不可以
常引用與右值(Right-hand-side Value)雖然引用本質(zhì)上就是指針的語法糖,但C++并不滿足于此,它為了讓「語義」更加接近人類的直覺,它做了這樣一件事:讓用const
修飾的引用可以綁定函數(shù)的返回值。
從語義上來說,它不希望我們程序員去區(qū)分「寄存器返回值」還是「內(nèi)存空間返回值」,既然是函數(shù)的返回值,你就可以認(rèn)為它是一個(gè)「純值」就好了?;蛘邠Q一個(gè)說法,如果你要屏蔽寄存器這一層的硬件實(shí)現(xiàn),我們就不應(yīng)該區(qū)分寄存器返回值還是內(nèi)存返回值,而是假設(shè)寄存器足夠大,那么函數(shù)返回值就一定是個(gè)「純值」。那么這個(gè)「純值」就叫做rvalue。
這就是我前面提到的「語言設(shè)計(jì)」層面,在語言設(shè)計(jì)上,函數(shù)返回值就應(yīng)當(dāng)是個(gè)rvalue,只不過在編譯器實(shí)現(xiàn)的時(shí)候,根據(jù)返回值的大小,決定它放到寄存器里還是內(nèi)存里,放寄存器里的就是prvalue,放內(nèi)存里的就是xvalue。所以prvalue和xvalue合稱rvalue,就是這么來的。
而用const
修飾的引用,它綁定普通變量的時(shí)候,語義上解釋為「一個(gè)變量的替身,并且不可變」,實(shí)際上是「含了一次const_cast
隱式轉(zhuǎn)換的指針的語法糖」。
當(dāng)它綁定函數(shù)返回值的時(shí)候,語義上解釋為「一個(gè)值的替身(當(dāng)然也是不可變的)」,實(shí)際上是代指一片內(nèi)存空間,如果函數(shù)是通過寄存器返回的,那么就把寄存器的值復(fù)制到這片空間,而如果函數(shù)是通過內(nèi)存方式返回的,那么就把這片內(nèi)存空間傳入函數(shù)中作為「類似于出參」的方式。
兩種方式都同為「一個(gè)替身,并且不可變」,因此又把const
修飾的引用叫做「常引用」。
等等!這里好像有點(diǎn)奇怪哎?!照這么說的話,常引用去接受函數(shù)返回值的情況,不是跟一個(gè)普通變量去接受返回值的情況一模一樣了嗎?對,是的,沒錯(cuò)!你的想法是對的!,下面兩行代碼其實(shí)會(huì)生成相同的匯編指令:
struct Test {long a, b, c;
};
Test Demo1() {Test t{1, 2, 3};
return t;
}
void Demo2() {const Test &t1 = Demo1();
// 匯編指令等價(jià)于
const Test t2 = Demo1();
}
他們都是劃分了一片內(nèi)存區(qū)域,然后把地址傳到函數(shù)里去使用的(也就是返回值轉(zhuǎn)出參的情況)。同理,如果返回值是通過寄存器傳遞的也是一樣:
int Demo1() {return 2;
}
void Demo2() {const int &t1 = Demo1();
// 匯編指令等價(jià)于
const int t2 = Demo1();
}
所以,上面兩個(gè)例子中,無論是t1
還是t2
,本質(zhì)都是一個(gè)普通的局部變量,它們有內(nèi)存實(shí)體,并且生命周期跟隨??臻g,因此都是lvalue。這是本文第四個(gè)重點(diǎn)??!「引用本身是lvalue」。也就是說,函數(shù)返回值是rvalue(有可能是prvalue,也有可能是xvalue),但如果你用引用來接收了,它就會(huì)變成lvalue。
這里再回過頭來看一下,剛才我們說「函數(shù)返回值是rvalue」這事好像就有一點(diǎn)問題了。從理論上來理解用一個(gè)變量或引用來接收一個(gè)rvalue這種說法是沒錯(cuò)的,但其實(shí)編譯期并不是單純根據(jù)函數(shù)返回值這一件事來決定如何處理的,而是要帶上上下文(或者說,返回值的長度以及使用返回值的方式)。所以單獨(dú)討論f()
是什么值類型并沒有意義,而是要根據(jù)上下文。我們總結(jié)如下:
1
、'a'
、5.6f
)。f().a
的形式)的這種情況,會(huì)使用臨時(shí)空間(匿名的,會(huì)在當(dāng)前語句結(jié)束后析構(gòu)),這種情況下的臨時(shí)空間是xvalue。所以,各位發(fā)現(xiàn)了嗎?C++在設(shè)計(jì)時(shí)應(yīng)當(dāng)很單純地認(rèn)為value分兩類:一類是變量,一類是值。變量它有內(nèi)存實(shí)體,可以出現(xiàn)在賦值語句的左邊,所以稱為「左值」;值沒有內(nèi)存實(shí)體,只能出現(xiàn)在賦值語句的右邊,所以稱為「右值」。
但在實(shí)現(xiàn)時(shí),卻受到了C語言特性的約束(更準(zhǔn)確來說是硬件的約束),造成我們不能把所有的右值都按照統(tǒng)一的方式來傳遞,所以才按照C語言處理返回值的方式強(qiáng)行劃分出了prvalue和xvalue,其作用就是用來指導(dǎo)析構(gòu)函數(shù)的調(diào)用,以實(shí)現(xiàn)對象系統(tǒng)的自閉環(huán)。
C語言原本就比較面相硬件,所以它的處理是對于機(jī)器來說更加合理的。而C++則希望能提供一套對程序員更加友好的「語義」,所以它在「語義」的設(shè)計(jì)上是對人更加合理的,就比如這里的常引用,其實(shí)就是想成為一個(gè)「不可變的替身」。但又必須向下兼容C的解析方式,因此做了一系列的語法糖。而語法糖背后又會(huì)觸發(fā)底層硬件不同處理方式的問題,所以又不得不為了區(qū)分,而強(qiáng)行引入奇怪的概念(比如這里的xvalue)。
原本「找補(bǔ)」到這里(劃分出了xvalue和常引用的概念后)基本已經(jīng)可以子閉環(huán)了。但C++偏偏就是非常倔強(qiáng),又“貼心”地給程序員提供了「移動(dòng)語義」,讓當(dāng)前的這個(gè)閉環(huán)瞬間被打破,然后又不得不建立一個(gè)新的理論閉環(huán)。
下一篇將講解有關(guān)移動(dòng)語義和右值引用的設(shè)計(jì)初衷和實(shí)現(xiàn)方式,這里C++的這些值類型還會(huì)有有趣的新故事。
C++為什么會(huì)有這么多難搞的值類別?(下)
你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級服務(wù)器適合批量采購,新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧