cat file.csv | awk -F '\t' '{print $2}'
10年積累的成都網(wǎng)站制作、網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè)經(jīng)驗(yàn),可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識你,你也不認(rèn)識我。但先網(wǎng)站制作后付款的網(wǎng)站建設(shè)流程,更有屯溪免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
'\t'指的是file.csv不同列以'\t'分割,如果的是以其他符號分割,換成其她符號;
'{print $2}'是指取第2列,此處從1開始計(jì)數(shù),第1列,第2列;
一般去重之前要進(jìn)行排序
cat file.csv | awk -F '\t' '{print $2}'?| sort | uniq
前半部分與命令1一樣,后面加上| sort | uniq
比如通過命令2發(fā)現(xiàn),第2列取值有兩種,分別是'neg'和‘pos’,那么我想知道有多少行的第2列取值為'pos',多少行的第2列取值為'neg'。
cat file.csv | awk -F '\t' '{print $2}'?|?grep -o 'neg'| wc -l
前半部分與命令1一樣,后面加上?|?grep -o 'neg'| wc -l
grep -o 'neg'就是取出取值為'neg'的行
wc -l 是計(jì)數(shù)有多少行
在上文中,我們已經(jīng)詳細(xì)介紹 linux 三劍客的基本使用,接下來我們看看具體在性能測試領(lǐng)域的運(yùn)用,本文主要介紹的是在 Tomcat 和 Nginx access日志的統(tǒng)計(jì)分析。
server.xml 使用配置方式,%D-請求時(shí)間,%F-響應(yīng)時(shí)間
字段說明如下:
日志樣例:
使用默認(rèn) combined 的經(jīng)典格式上擴(kuò)展 response_timeupstream_response_time
nginx.conf 使用配置方式:
字段說明如下:
日志示例:
為了能理解 AWK 程序,我們下面概述其基本知識。
模式( pattern ) 用于匹配輸入中的每行文本。對于匹配上的每行文本,awk 都執(zhí)行對應(yīng)的 動(dòng)作( action )。模式和動(dòng)作之間使用花括號隔開。awk 順序掃描每一行文本,并使用 記錄分隔符(一般是換行符)將讀到的每一行作為 記錄,使用 域分隔符( 一般是空格符或制表符 ) 將一行文本分割為多個(gè) 域, 每個(gè)域分別可以使用 2, … 表示。1 表示第一個(gè)域,表示第二個(gè)域,n 表示第 n 個(gè)域。 $0 表示整個(gè)記錄。模式或動(dòng)作都可以不指定,缺省模式的情況下,將匹配所有行。缺省動(dòng)作的情況下,將執(zhí)行動(dòng)作 {print},即打印整個(gè)記錄。
此處使用Nginx access.log 舉例,Tomcat 日志自己舉一反三。 使用 awk 分解出Nginx access日志中的信息
以此類推…… 當(dāng)我們使用默認(rèn)的域分割符時(shí),我們可以從日志中解析出下面不同類型的信息:
我們不難發(fā)現(xiàn),僅使用默認(rèn)的域分隔符,不方便解析出請求行、引用頁和瀏覽器類型等其他信息,因?yàn)檫@些信息之中包含不確定個(gè)數(shù)的空格。 因此,我們需要把域分隔符修改為 “ ,就能夠輕松讀出這些信息。
注意:這里為了避免 Linux Shell 誤解 “ 為字符串開始,我們使用了反斜杠,轉(zhuǎn)義了 “ 。 現(xiàn)在,我們已經(jīng)掌握了 awk 的基本知識,以及它是怎樣解析日志的。
此處使用Nginx access.log 舉例,Tomcat 日志自己舉一反三。
如果我們想知道那些類型的瀏覽器訪問過網(wǎng)站,并按出現(xiàn)的次數(shù)倒序排列,我可以使用下面的命令:
此命令行首先解析出瀏覽器域,然后使用管道將輸出作為第一個(gè) sort 命令的輸入。第一個(gè) sort 命令主要是為了方便 uniq 命令統(tǒng)計(jì)出不同瀏覽器出現(xiàn)的次數(shù)。最后一個(gè) sort 命令將把之前的統(tǒng)計(jì)結(jié)果倒序排列并輸出。
我們可以使用下面的命令行,統(tǒng)計(jì)服務(wù)器返回的狀態(tài)碼,發(fā)現(xiàn)系統(tǒng)可能存在的問題。
正常情況下,狀態(tài)碼 200 或 30x 應(yīng)該是出現(xiàn)次數(shù)最多的。40x 一般表示客戶端訪問問題。50x 一般表示服務(wù)器端問題。 下面是一些常見的狀態(tài)碼:
HTTP 協(xié)議狀態(tài)碼定義可以參閱:
查找并顯示所有狀態(tài)碼為 404 的請求
統(tǒng)計(jì)所有狀態(tài)碼為 404 的請求
現(xiàn)在我們假設(shè)某個(gè)請求 ( 例如 : URI: /path/to/notfound ) 產(chǎn)生了大量的 404 錯(cuò)誤,我們可以通過下面的命令找到這個(gè)請求是來自于哪一個(gè)引用頁,和來自于什么瀏覽器。
有時(shí)候會(huì)發(fā)現(xiàn)其他網(wǎng)站出于某種原因,在他們的網(wǎng)站上使用保存在自己網(wǎng)站上的圖片。如果您想知道究竟是誰未經(jīng)授權(quán)使用自己網(wǎng)站上的圖片,我們可以使用下面的命令:
注意:使用前,將 修改為自己網(wǎng)站的域名。
統(tǒng)計(jì)共有多少個(gè)不同的 IP 訪問:
統(tǒng)計(jì)每一個(gè) IP 訪問了多少個(gè)頁面:
將每個(gè) IP 訪問的頁面數(shù)進(jìn)行從小到大排序:
統(tǒng)計(jì) 2018 年 8 月 31 日 14 時(shí)內(nèi)有多少 IP 訪問 :
統(tǒng)計(jì)訪問最多的前十個(gè) IP 地址
查看某一個(gè) IP訪問了哪些頁面:
統(tǒng)計(jì)某個(gè) IP 的詳細(xì)訪問情況,按訪問頻率排序
列出傳輸大小最大的幾個(gè)文件
列出輸出大于 204800 byte ( 200kb) 的頁面以及對應(yīng)頁面發(fā)生次數(shù)
列出訪問最頻的頁面(TOP100)
列出訪問最頻的頁面([排除php頁面】(TOP100)
列出頁面訪問次數(shù)超過100次的頁面
列出最近1000條記錄,訪問量最高的頁面
統(tǒng)計(jì)每分鐘的請求數(shù),top100的時(shí)間點(diǎn)(精確到分鐘)
統(tǒng)計(jì)每小時(shí)的請求數(shù),top100的時(shí)間點(diǎn)(精確到小時(shí))
統(tǒng)計(jì)每秒的請求數(shù),top100的時(shí)間點(diǎn)(精確到秒)
統(tǒng)計(jì)當(dāng)天的 pv
說明:
可以使用下面的命令統(tǒng)計(jì)出所有響應(yīng)時(shí)間超過 3 秒的日志記錄。
注意:NF 是當(dāng)前記錄中域的個(gè)數(shù)。$NF 即最后一個(gè)域。
列出php頁面請求時(shí)間超過3秒的頁面,并統(tǒng)計(jì)其出現(xiàn)的次數(shù),顯示前100條
列出相應(yīng)時(shí)間超過 5 秒的請求,顯示前20條
統(tǒng)計(jì)蜘蛛抓取次數(shù)
統(tǒng)計(jì)蜘蛛抓取404的次數(shù)
通過本文的介紹,我相信同學(xué)們一定會(huì)發(fā)現(xiàn) linux三劍客強(qiáng)大之處。在命令行中,它還能夠接受,和執(zhí)行外部的 AWK 程序文件,可以對文本信息進(jìn)行非常復(fù)雜的處理,可以說“只有想不到的,沒有它做不到的”。
在本文中,將展示幾種查找 Linux 目錄中的文件數(shù)量的不同方法。
統(tǒng)計(jì)目錄中的文件數(shù)量
統(tǒng)計(jì)目錄中文件的最簡單方法是使用ls每行列出一個(gè)文件,并將輸出通過管道符傳遞給wc計(jì)算數(shù)量:
[root@localhost ~]# ls -1U /etc |wc -l
執(zhí)行上面的 命令 將顯示所有文件的總和,包括目錄和符號鏈接。-1選項(xiàng)表示每行列出一個(gè)文件,-U告訴ls不對輸出進(jìn)行排序,這使 命令 的執(zhí)行速度更快。ls -1U命令不計(jì)算隱藏文件。如果只想計(jì)算文件而不包括目錄,請使用以下命令:
[root@localhost ~]# ls -1Up /etc |grep -v /|wc -l
-p選項(xiàng)強(qiáng)制ls將斜杠(/)指示符附加到目錄。輸出結(jié)果通過管道符傳遞到grep -v命令,排除包含斜杠的行,并計(jì)算數(shù)量。
為了更好地控制列出的文件,使用find命令而不是ls:
[root@localhost ~]# find /etc -maxdepth 1 -type f |wc -l
-type f選項(xiàng)告訴find僅列出文件(包括隱藏文件),-maxdepth 1將搜索限制到第一級目錄。
遞歸統(tǒng)計(jì)目錄中的文件
如果想要統(tǒng)計(jì)目錄中的文件數(shù)量,并包括子目錄中的,可以使用find命令:
[root@localhost ~]# find /etc -type f|wc -l
用來統(tǒng)計(jì)文件的另一個(gè)命令是tree,它以樹狀格式列出目錄的內(nèi)容:
[root@localhost ~]# yum -y install tree
[root@localhost ~]# tree /root
輸出的內(nèi)容底部會(huì)顯示有多少目錄,和多少文件。
總結(jié)
在本文中,將展示幾種查找Linux目錄中的文件數(shù)量的不同方法。
linux命令格式:
說明:command: 命令名,相應(yīng)功能的英文單詞或單詞的縮寫 [-options]:選項(xiàng),可用來對命令進(jìn)行控制,也可以省略,[]代表可選 parameter1 …:傳給命令的參數(shù):可以是零個(gè)一個(gè)或多個(gè)
一般是linux命令自帶的幫助信息
如:
man是linux提供的一個(gè)手冊,包含了絕大部分的命令、函數(shù)使用說明
該手冊分成很多章節(jié)(section),使用man時(shí)可以指定不同的章節(jié)來瀏覽。
例:man ls ; man 2 printf
man中各個(gè)section意義如下:
man是按照手冊的章節(jié)號的順序進(jìn)行搜索的。
man設(shè)置了如下的功能鍵:
在敲出命令的前幾個(gè)字母的同時(shí),按下tab鍵,系統(tǒng)會(huì)自動(dòng)幫我們補(bǔ)全命令
當(dāng)系統(tǒng)執(zhí)行過一些命令后,可按上下鍵翻看以前的命令,history將執(zhí)行過的命令列舉出來
ls是英文單詞list的簡寫,其功能為列出目錄的內(nèi)容,是用戶最常用的命令之一,它類似于DOS下的dir命令。
Linux文件或者目錄名稱最長可以有265個(gè)字符,“.”代表當(dāng)前目錄,“..”代表上一級目錄,以“.”開頭的文件為隱藏文件,需要用 -a 參數(shù)才能顯示。
ls常用參數(shù):
Linux允許將命令執(zhí)行結(jié)果重定向到一個(gè)文件,本應(yīng)顯示在終端上的內(nèi)容保存到指定文件中。
如:ls test.txt ( test.txt 如果不存在,則創(chuàng)建,存在則覆蓋其內(nèi)容 )
注意: 輸出重定向會(huì)覆蓋原來的內(nèi)容,輸出重定向則會(huì)追加到文件的尾部。
查看內(nèi)容時(shí),在信息過長無法在一屏上顯示時(shí),會(huì)出現(xiàn)快速滾屏,使得用戶無法看清文件的內(nèi)容,此時(shí)可以使用more命令,每次只顯示一頁,按下空格鍵可以顯示下一頁,按下q鍵退出顯示,按下h鍵可以獲取幫助。
管道:一個(gè)命令的輸出可以通過管道做為另一個(gè)命令的輸入。
管道我們可以理解現(xiàn)實(shí)生活中的管子,管子的一頭塞東西進(jìn)去,另一頭取出來,這里“ | ”的左右分為兩端,左端塞東西(寫),右端取東西(讀)。
clear作用為清除終端上的顯示(類似于DOS的cls清屏功能),也可使用快捷鍵:Ctrl + l ( “l(fā)” 為字母 )。
在使用Unix/Linux的時(shí)候,經(jīng)常需要更換工作目錄。cd命令可以幫助用戶切換工作目錄。Linux所有的目錄和文件名大小寫敏感
cd后面可跟絕對路徑,也可以跟相對路徑。如果省略目錄,則默認(rèn)切換到當(dāng)前用戶的主目錄。
使用pwd命令可以顯示當(dāng)前的工作目錄,該命令很簡單,直接輸入pwd即可,后面不帶參數(shù)。
通過mkdir命令可以創(chuàng)建一個(gè)新的目錄。參數(shù)-p可遞歸創(chuàng)建目錄。
需要注意的是新建目錄的名稱不能與當(dāng)前目錄中已有的目錄或文件同名,并且目錄創(chuàng)建者必須對當(dāng)前目錄具有寫權(quán)限。
可使用rmdir命令刪除一個(gè)目錄。必須離開目錄,并且目錄必須為空目錄,不然提示刪除失敗。
可通過rm刪除文件或目錄。使用rm命令要小心,因?yàn)槲募h除后不能恢復(fù)。為了防止文件誤刪,可以在rm后使用-i參數(shù)以逐個(gè)確認(rèn)要?jiǎng)h除的文件。
常用參數(shù)及含義如下表所示:
Linux鏈接文件類似于Windows下的快捷方式。
鏈接文件分為軟鏈接和硬鏈接。
軟鏈接:軟鏈接不占用磁盤空間,源文件刪除則軟鏈接失效。
硬鏈接:硬鏈接只能鏈接普通文件,不能鏈接目錄。
使用格式:
如果沒有-s選項(xiàng)代表建立一個(gè)硬鏈接文件,兩個(gè)文件占用相同大小的硬盤空間,即使刪除了源文件,鏈接文件還是存在,所以-s選項(xiàng)是更常見的形式。
注意:如果軟鏈接文件和源文件不在同一個(gè)目錄,源文件要使用絕對路徑,不能使用相對路徑。
Linux系統(tǒng)中g(shù)rep命令是一種強(qiáng)大的文本搜索工具,grep允許對文本文件進(jìn)行模式查找。如果找到匹配模式, grep打印包含模式的所有行。
grep一般格式為:
在grep命令中輸入字符串參數(shù)時(shí),最好引號或雙引號括起來。例如:grep‘a(chǎn) ’1.txt。
常用選項(xiàng)說明:
find命令功能非常強(qiáng)大,通常用來在特定的目錄下搜索符合條件的文件,也可以用來搜索特定用戶屬主的文件。
常用用法:
cp命令的功能是將給出的文件或目錄復(fù)制到另一個(gè)文件或目錄中,相當(dāng)于DOS下的copy命令。
常用選項(xiàng)說明:
用戶可以使用mv命令來移動(dòng)文件或目錄,也可以給文件或目錄重命名。
常用選項(xiàng)說明:
計(jì)算機(jī)中的數(shù)據(jù)經(jīng)常需要備份,tar是Unix/Linux中最常用的備份工具,此命令可以把一系列文件歸檔到一個(gè)大文件中,也可以把檔案文件解開以恢復(fù)數(shù)據(jù)。
tar使用格式 tar [參數(shù)] 打包文件名 文件
tar命令很特殊,其參數(shù)前面可以使用“-”,也可以不使用。
常用參數(shù):
tar與gzip命令結(jié)合使用實(shí)現(xiàn)文件打包、壓縮。 tar只負(fù)責(zé)打包文件,但不壓縮,用gzip壓縮tar打包后的文件,其擴(kuò)展名一般用xxxx.tar.gz。
gzip使用格式如下:
gzip [選項(xiàng)] 被壓縮文件
常用選項(xiàng):
tar與bzip2命令結(jié)合使用實(shí)現(xiàn)文件打包、壓縮(用法和gzip一樣)。
tar只負(fù)責(zé)打包文件,但不壓縮,用bzip2壓縮tar打包后的文件,其擴(kuò)展名一般用xxxx.tar.gz2。
在tar命令中增加一個(gè)選項(xiàng)(-j)可以調(diào)用bzip2實(shí)現(xiàn)了一個(gè)壓縮的功能,實(shí)行一個(gè)先打包后壓縮的過程。
壓縮用法:tar -jcvf 壓縮包包名 文件...(tar jcvf bk.tar.bz2 *.c)
解壓用法:tar -jxvf 壓縮包包名 (tar jxvf bk.tar.bz2)
通過zip壓縮文件的目標(biāo)文件不需要指定擴(kuò)展名,默認(rèn)擴(kuò)展名為zip。
壓縮文件:zip [-r] 目標(biāo)文件(沒有擴(kuò)展名) 源文件
解壓文件:unzip -d 解壓后目錄文件 壓縮文件
whoami該命令用戶查看當(dāng)前系統(tǒng)當(dāng)前賬號的用戶名。可通過cat /etc/passwd查看系統(tǒng)用戶信息。
由于系統(tǒng)管理員通常需要使用多種身份登錄系統(tǒng),例如通常使用普通用戶登錄系統(tǒng),然后再以su命令切換到root身份對傳統(tǒng)進(jìn)行管理。這時(shí)候就可以使用whoami來查看當(dāng)前用戶的身份。
who命令用于查看當(dāng)前所有登錄系統(tǒng)的用戶信息。
常用選項(xiàng):
如果是圖形界面,退出當(dāng)前終端;
如果是使用ssh遠(yuǎn)程登錄,退出登陸賬戶;
如果是切換后的登陸用戶,退出則返回上一個(gè)登陸賬號。
在Unix/Linux中添加用戶賬號可以使用adduser或useradd命令,因?yàn)閍dduser命令是指向useradd命令的一個(gè)鏈接,因此,這兩個(gè)命令的使用格式完全一樣。
useradd命令的使用格式如下:
useradd [參數(shù)] 新建用戶賬號
在Unix/Linux中,超級用戶可以使用passwd命令為普通用戶設(shè)置或修改用戶口令。用戶也可以直接使用該命令來修改自己的口令,而無需在命令后面使用用戶名。
可以通過su命令切換用戶,su后面可以加“-”。su和su –命令不同之處在于,su -切換到對應(yīng)的用戶時(shí)會(huì)將當(dāng)前的工作目錄自動(dòng)轉(zhuǎn)換到切換后的用戶主目錄:
注意:如果是ubuntu平臺,需要在命令前加“sudo”,如果在某些操作需要管理員才能操作,ubuntu無需切換到root用戶即可操作,只需加“sudo”即可。sudo是ubuntu平臺下允許系統(tǒng)管理員讓普通用戶執(zhí)行一些或者全部的root命令的一個(gè)工具,減少了root 用戶的登陸和管理時(shí)間,提高了安全性。
方法一:
方法二:
groupadd 新建組賬號 groupdel 組賬號 cat /etc/group 查看用戶組
使用方法:usermod -g 用戶組 用戶名
新創(chuàng)建的用戶,默認(rèn)不能sudo,需要進(jìn)行一下操作
-g用來制定這個(gè)用戶默認(rèn)的用戶組
-G一般配合'-a'來完成向其它組添加
chmod 修改文件權(quán)限有兩種使用格式:字母法與數(shù)字法。
字母法:chmod u/g/o/a +/-/= rwx 文件
cal命令用于查看當(dāng)前日歷,-y顯示整年日歷
設(shè)置時(shí)間格式(需要管理員權(quán)限):
date [MMDDhhmm[[CC]YY][.ss]] +format
CC為年前兩位yy為年的后兩位,前兩位的mm為月,后兩位的mm為分鐘,dd為天,hh為小時(shí),ss為秒。如: date 010203042016.55。
顯示時(shí)間格式(date '+%y,%m,%d,%H,%M,%S'):
進(jìn)程是一個(gè)具有一定獨(dú)立功能的程序,它是操作系統(tǒng)動(dòng)態(tài)執(zhí)行的基本單元。
ps命令可以查看進(jìn)程的詳細(xì)狀況,常用選項(xiàng)(選項(xiàng)可以不加“-”)如下:
top命令用來動(dòng)態(tài)顯示運(yùn)行中的進(jìn)程。top命令能夠在運(yùn)行后,在指定的時(shí)間間隔更新顯示信息??梢栽谑褂胻op命令時(shí)加上-d 來指定顯示信息更新的時(shí)間間隔。
在top命令執(zhí)行后,可以按下按鍵得到對顯示的結(jié)果進(jìn)行排序:
kill命令指定進(jìn)程號的進(jìn)程,需要配合 ps 使用。有些進(jìn)程不能直接殺死,這時(shí)候我們需要加一個(gè)參數(shù)“ -9 ”,“ -9 ” 代表強(qiáng)制結(jié)束.
使用格式:
kill [-signal] pid
df命令用于檢測文件系統(tǒng)的磁盤空間占用和空余情況,可以顯示所有文件系統(tǒng)對節(jié)點(diǎn)和磁盤塊的使用情況。
du命令用于統(tǒng)計(jì)目錄或文件所占磁盤空間的大小,該命令的執(zhí)行結(jié)果與df類似,du更側(cè)重于磁盤的使用狀況。
du命令的使用格式如下: du [選項(xiàng)] 目錄或文件名
如上圖,某個(gè)服務(wù)器的日志文件,通過命令
grep "Send kafka Success" 2021-08-01-info.log | grep "result_size:100"
可以得到相關(guān)日志?,F(xiàn)在要求統(tǒng)計(jì)所有result_size累加的結(jié)果。
grep "Send kafka Success" 2021-08-01-info.log | grep -o -E "result_size:[0-9]+" | awk -F ':' 'BEGIN{print "開始統(tǒng)計(jì)result_size累加和"} {sumSize+=$2 } END{print "sumSize="sumSize}'
sed 命令可以很好的進(jìn)行行匹配,但從某一行中精確匹配某些內(nèi)容,則使用 grep 命令并輔以 -o 和 -E 選項(xiàng)可達(dá)到此目的。其中 -o 表示“only-matching”,即“僅匹配”之意。光用它不夠,配合 -E 選項(xiàng)使用擴(kuò)展正則表達(dá)式則威力巨大。
比如下面有一條文本 tmp.txt ,其中內(nèi)容為:
{"aid":45,"path":"attachment/Mon_1112/2_1_5728040df3ab346.jpg"}
我們想從中過略出 aid 的值即 45 ,那么可以先如下這么做:
grep -o -E 'aid":[1-9]*' tmp.txt
得到的結(jié)果為:
aid":45
這時(shí)就好辦了,我們可以使用 awk 的 -F 選項(xiàng)指示出冒號分隔符,這樣就容易過濾出 45 這個(gè)值來,整個(gè)命令綜合如下:
grep -o -E 'aid":[1-9]*' tmp.txt |awk-F: '{print $2}'
參考文檔: