這篇文章主要介紹linux中的Awk命令怎么用,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!
成都創(chuàng)新互聯(lián)公司從2013年創(chuàng)立,公司以網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站制作、系統(tǒng)開(kāi)發(fā)、網(wǎng)絡(luò)推廣、文化傳媒、企業(yè)宣傳、平面廣告設(shè)計(jì)等為主要業(yè)務(wù),適用行業(yè)近百種。服務(wù)企業(yè)客戶數(shù)千家,涉及國(guó)內(nèi)多個(gè)省份客戶。擁有多年網(wǎng)站建設(shè)開(kāi)發(fā)經(jīng)驗(yàn)。為企業(yè)提供專業(yè)的網(wǎng)站建設(shè)、創(chuàng)意設(shè)計(jì)、宣傳推廣等服務(wù)。 通過(guò)專業(yè)的設(shè)計(jì)、獨(dú)特的風(fēng)格,為不同客戶提供各種風(fēng)格的特色服務(wù)。
Awk 是一個(gè)強(qiáng)大的工具,可以執(zhí)行某些可能由其它常見(jiàn)實(shí)用程序(包括
sort
)來(lái)完成的任務(wù)。
Awk 是個(gè)普遍存在的 Unix 命令,用于掃描和處理包含可預(yù)測(cè)模式的文本。但是,由于它具有函數(shù)功能,因此也可以合理地稱之為編程語(yǔ)言。
令人困惑的是,有不止一個(gè) awk。(或者,如果你認(rèn)為只有一個(gè),那么其它幾個(gè)就是克隆。)有 awk
(由Aho、Weinberger 和 Kernighan 編寫(xiě)的原始程序),然后有 nawk
、mawk
和 GNU 版本的 gawk
。GNU 版本的 awk 是該實(shí)用程序的一個(gè)高度可移植的自由軟件版本,具有幾個(gè)獨(dú)特的功能,因此本文是關(guān)于 GNU awk 的。
雖然它的正式名稱是 gawk
,但在 GNU+Linux 系統(tǒng)上,它的別名是 awk
,并用作該命令的默認(rèn)版本。 在其他沒(méi)有帶有 GNU awk 的系統(tǒng)上,你必須先安裝它并將其稱為 gawk
,而不是 awk
。本文互換使用術(shù)語(yǔ) awk
和 gawk
。
awk
既是命令語(yǔ)言又是編程語(yǔ)言,這使其成為一個(gè)強(qiáng)大的工具,可以處理原本留給 sort
、cut
、uniq
和其他常見(jiàn)實(shí)用程序的任務(wù)。幸運(yùn)的是,開(kāi)源中有很多冗余空間,因此,如果你面臨是否使用 awk
的問(wèn)題,答案可能是肯定的“隨便”。
awk
的靈活之美在于,如果你已經(jīng)確定使用 awk
來(lái)完成一項(xiàng)任務(wù),那么無(wú)論接下來(lái)發(fā)生什么,你都可以繼續(xù)使用 awk
。這包括對(duì)數(shù)據(jù)排序而不是按交付給你的順序的永恒需求。
在探索 awk
的排序方法之前,請(qǐng)生成要使用的樣本數(shù)據(jù)集。保持簡(jiǎn)單,這樣你就不會(huì)為極端情況和意想不到的復(fù)雜性所困擾。這是本文使用的樣本集:
Aptenodytes;forsteri;Miller,JF;1778;EmperorPygoscelis;papua;Wagler;1832;GentooEudyptula;minor;Bonaparte;1867;Little BlueSpheniscus;demersus;Brisson;1760;AfricanMegadyptes;antipodes;Milne-Edwards;1880;Yellow-eyedEudyptes;chrysocome;Viellot;1816;Sothern RockhopperTorvaldis;linux;Ewing,L;1996;Tux
這是一個(gè)很小的數(shù)據(jù)集,但它提供了多種數(shù)據(jù)類型:
屬名和種名,彼此相關(guān)但又是分開(kāi)的
姓,有時(shí)是以逗號(hào)開(kāi)頭的首字母縮寫(xiě)
代表日期的整數(shù)
任意術(shù)語(yǔ)
所有字段均以分號(hào)分隔
根據(jù)你的教育背景,你可能會(huì)認(rèn)為這是二維數(shù)組或表格,或者只是行分隔的數(shù)據(jù)集合。你如何看待它只是你的問(wèn)題,而 awk
只認(rèn)識(shí)文本。由你決定告訴 awk
你想如何解析它。
如果你只想按特定的可定義字段(例如電子表格中的“單元格”)對(duì)文本數(shù)據(jù)集進(jìn)行排序,則可以使用 sort 命令。
無(wú)論輸入的格式如何,都必須在其中找到模式才可以專注于對(duì)你重要的數(shù)據(jù)部分。在此示例中,數(shù)據(jù)由兩個(gè)因素定界:行和字段。每行都代表一個(gè)新的記錄,就如你在電子表格或數(shù)據(jù)庫(kù)轉(zhuǎn)儲(chǔ)中看到的一樣。在每一行中,都有用分號(hào)(;
)分隔的不同的字段(將其視為電子表格中的單元格)。
awk
一次只處理一條記錄,因此,當(dāng)你在構(gòu)造發(fā)給 awk
的這指令時(shí),你可以只關(guān)注一行記錄。寫(xiě)下你想對(duì)一行數(shù)據(jù)執(zhí)行的操作,然后在下一行進(jìn)行測(cè)試(無(wú)論是心理上還是用 awk
進(jìn)行測(cè)試),然后再進(jìn)行其它的一些測(cè)試。最后,你要對(duì)你的 awk
腳本要處理的數(shù)據(jù)做好假設(shè),以便可以按你要的數(shù)據(jù)結(jié)構(gòu)提供給你數(shù)據(jù)。
在這個(gè)例子中,很容易看到每個(gè)字段都用分號(hào)隔開(kāi)。為簡(jiǎn)單起見(jiàn),假設(shè)你要按每行的第一字段對(duì)列表進(jìn)行排序。
在進(jìn)行排序之前,你必須能夠讓 awk
只關(guān)注在每行的第一個(gè)字段上,因此這是第一步。終端中 awk 命令的語(yǔ)法為 awk
,后跟相關(guān)選項(xiàng),最后是要處理的數(shù)據(jù)文件。
$ awk --field-separator=";" '{print $1;}' penguins.listAptenodytesPygoscelisEudyptulaSpheniscusMegadyptesEudyptesTorvaldis
因?yàn)樽侄畏指舴菍?duì) Bash shell 具有特殊含義的字符,所以必須將分號(hào)括在引號(hào)中或在其前面加上反斜杠。此命令僅用于證明你可以專注于特定字段。你可以使用另一個(gè)字段的編號(hào)嘗試相同的命令,以查看數(shù)據(jù)的另一個(gè)“列”的內(nèi)容:
$ awk --field-separator=";" '{print $3;}' penguins.listMiller,JFWaglerBonaparteBrissonMilne-EdwardsViellotEwing,L
我們尚未進(jìn)行任何排序,但這是良好的基礎(chǔ)。
awk
不僅僅是命令,它是一種具有索引、數(shù)組和函數(shù)的編程語(yǔ)言。這很重要,因?yàn)檫@意味著你可以獲取要排序的字段列表,將列表存儲(chǔ)在內(nèi)存中,進(jìn)行處理,然后打印結(jié)果數(shù)據(jù)。對(duì)于諸如此類的一系列復(fù)雜操作,在文本文件中進(jìn)行操作會(huì)更容易,因此請(qǐng)創(chuàng)建一個(gè)名為 sort.awk
的新文件并輸入以下文本:
#!/bin/gawk -f BEGIN { FS=";";}
這會(huì)將該文件建立為 awk
腳本,該腳本中包含執(zhí)行的行。
BEGIN
語(yǔ)句是 awk
提供的特殊設(shè)置功能,用于只需要執(zhí)行一次的任務(wù)。定義內(nèi)置變量 FS
,它代表字段分隔符,并且與你在 awk
命令中使用 --field-separator
設(shè)置的值相同,它只需執(zhí)行一次,因此它包含在 BEGIN
語(yǔ)句中。
你已經(jīng)知道如何通過(guò)使用 $
符號(hào)和字段編號(hào)來(lái)收集特定字段的值,但是在這種情況下,你需要將其存儲(chǔ)在數(shù)組中而不是將其打印到終端。這是通過(guò) awk
數(shù)組完成的。awk
數(shù)組的重要之處在于它包含鍵和值。 想象一下有關(guān)本文的內(nèi)容;它看起來(lái)像這樣:author:"seth",title:"How to sort with awk",length:1200
。諸如作者、標(biāo)題和長(zhǎng)度之類的元素是鍵,跟著的內(nèi)容為值。
在排序的上下文中這樣做的好處是,你可以將任何字段分配為鍵,將任何記錄分配為值,然后使用內(nèi)置的 awk
函數(shù) asorti()
(按索引排序)按鍵進(jìn)行排序?,F(xiàn)在,隨便假設(shè)你只想按第二個(gè)字段排序。
沒(méi)有被特殊關(guān)鍵字 BEGIN
或 END
引起來(lái)的 awk
語(yǔ)句是在每個(gè)記錄都要執(zhí)行的循環(huán)。這是腳本的一部分,該腳本掃描數(shù)據(jù)中的模式并進(jìn)行相應(yīng)的處理。每次 awk
將注意力轉(zhuǎn)移到一條記錄上時(shí),都會(huì)執(zhí)行 {}
中的語(yǔ)句(除非以 BEGIN
或 END
開(kāi)頭)。
要將鍵和值添加到數(shù)組,請(qǐng)創(chuàng)建一個(gè)包含數(shù)組的變量(在本示例腳本中,我將其稱為 ARRAY
,雖然不是很原汁原味,但很清楚),然后在方括號(hào)中分配給它鍵,用等號(hào)(=
)連接值。
{ # dump each field into an array ARRAY[$2] = $R;}
在此語(yǔ)句中,第二個(gè)字段的內(nèi)容($2
)用作關(guān)鍵字,而當(dāng)前記錄($R
)用作值。
除了數(shù)組之外,awk
還具有一些基本函數(shù),你可以將它們用作常見(jiàn)任務(wù)的快速簡(jiǎn)便的解決方案。GNU awk中引入的函數(shù)之一 asorti()
提供了按鍵(索引)或值對(duì)數(shù)組進(jìn)行排序的功能。
你只能在對(duì)數(shù)組進(jìn)行填充后對(duì)其進(jìn)行排序,這意味著此操作不能對(duì)每個(gè)新記錄都觸發(fā),而只能在腳本的最后階段進(jìn)行。為此,awk
提供了特殊的 END
關(guān)鍵字。與 BEGIN
相反,END
語(yǔ)句僅在掃描了所有記錄之后才觸發(fā)一次。
將這些添加到你的腳本:
END { asorti(ARRAY,SARRAY); # get length j = length(SARRAY); for (i = 1; i <= j; i++) { printf("%s %s\n", SARRAY[i],ARRAY[SARRAY[i]]) }}
asorti()
函數(shù)獲取 ARRAY
的內(nèi)容,按索引對(duì)其進(jìn)行排序,然后將結(jié)果放入名為 SARRAY
的新數(shù)組(我在本文中發(fā)明的任意名稱,表示“排序的 ARRAY”)。
接下來(lái),將變量 j
(另一個(gè)任意名稱)分配給 length()
函數(shù)的結(jié)果,該函數(shù)計(jì)算 SARRAY
中的項(xiàng)數(shù)。
最后,使用 for
循環(huán)使用 printf()
函數(shù)遍歷 SARRAY
中的每一項(xiàng),以打印每個(gè)鍵,然后在 ARRAY
中打印該鍵的相應(yīng)值。
要運(yùn)行你的 awk
腳本,先使其可執(zhí)行:
$ chmod +x sorter.awk
然后針對(duì) penguin.list
示例數(shù)據(jù)運(yùn)行它:
$ ./sorter.awk penguins.listantipodes Megadyptes;antipodes;Milne-Edwards;1880;Yellow-eyedchrysocome Eudyptes;chrysocome;Viellot;1816;Sothern Rockhopperdemersus Spheniscus;demersus;Brisson;1760;Africanforsteri Aptenodytes;forsteri;Miller,JF;1778;Emperorlinux Torvaldis;linux;Ewing,L;1996;Tuxminor Eudyptula;minor;Bonaparte;1867;Little Bluepapua Pygoscelis;papua;Wagler;1832;Gentoo
如你所見(jiàn),數(shù)據(jù)按第二個(gè)字段排序。
這有點(diǎn)限制。最好可以在運(yùn)行時(shí)靈活選擇要用作排序鍵的字段,以便可以在任何數(shù)據(jù)集上使用此腳本并獲得有意義的結(jié)果。
你可以通過(guò)在腳本中使用字面值 var
將命令變量添加到 awk
腳本中。更改腳本,以使迭代子句在創(chuàng)建數(shù)組時(shí)使用 var
:
{ # dump each field into an array ARRAY[$var] = $R;}
嘗試運(yùn)行該腳本,以便在執(zhí)行腳本時(shí)使用 -v var
選項(xiàng)將其按第三字段排序:
$ ./sorter.awk -v var=3 penguins.listBonaparte Eudyptula;minor;Bonaparte;1867;Little BlueBrisson Spheniscus;demersus;Brisson;1760;AfricanEwing,L Torvaldis;linux;Ewing,L;1996;TuxMiller,JF Aptenodytes;forsteri;Miller,JF;1778;EmperorMilne-Edwards Megadyptes;antipodes;Milne-Edwards;1880;Yellow-eyedViellot Eudyptes;chrysocome;Viellot;1816;Sothern RockhopperWagler Pygoscelis;papua;Wagler;1832;Gentoo以上是“l(fā)inux中的Awk命令怎么用”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!
以上是“l(fā)inux中的Awk命令怎么用”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!