1.設在路徑:c:"books"learning下有文本文件mydata.txt,其數(shù)據(jù)以空格格開,形式如下:
目前成都創(chuàng)新互聯(lián)已為1000+的企業(yè)提供了網(wǎng)站建設、域名、網(wǎng)站空間、網(wǎng)站托管、服務器托管、企業(yè)網(wǎng)站設計、堆龍德慶網(wǎng)站維護等服務,公司將堅持客戶導向、應用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。M 50 68 155
F 23 60 101
M 65 72 220
F 35 65 133
M 15 71 166
讀入SAS的代碼如下:
data demographics;
infile 'c:"books"learning"mydata.txt';
input Gender $ Age Height Weight;
run;
符號$ 表示變量Gender為一字符型變量。為了檢查讀入文件是否正確,可以通過Print過程察看其觀測值。
title "Listing of data set DEMOGRAPHICS";
proc print data=demographics;
run;
若源文件中的數(shù)據(jù)有缺失值怎么辦?比如說mydata.txt的數(shù)據(jù)內(nèi)容如下
M 50 68 155
F 60 101
M 65 72 220
F 35 65 133
M 15 71 166
當SAS讀到第二行時,會以60代表年齡,101代表身高。接下來會以下一行M代表體重,而M是一字符型變量。叮當,SAS在Log中報錯了。正確的方式為,以 . 代表缺失值。如下圖
M 50 68 155
F . 60 101
M 65 72 220
F 35 65 133
M 15 71 166
2.讀入CSV格式文件。
無需廢話,看代碼
data demographics;
infile 'c:"books"learning"mydata.csv' dsd;
input Gender $ Age Height Weight;
run;
DSD(delimiter-sensitive data)有幾個作用。其一,表明以逗號分隔數(shù)據(jù);其二,在一行中若有兩個逗號,表明在中間有一個缺失值;其三,若字符型變量置有引號,則可以去掉其引號。上述代碼的另一種形式為
filename preston 'c:"books"learning"mydata.csv';
data demographics;
infile preston dsd;
input Gender $ Age Height Weight;
run;
變量demographics是實際文件名字的別名。
如果csv格式文件不是以逗號分隔開,怎么辦?例如下述文件以冒號分隔數(shù)據(jù)
M:50:68:155
F:23:60:101
M:65:72:220
F:35:65:133
M:15:71:166
讀入此文件時,使用下述形式
infile 'file-description' dlm=':' ;或者infile 'file-description' delimiter=':';
如果數(shù)據(jù)是以TAB隔開呢?事情有點麻煩,但還在控制中。此時以十六進制字符代表TAB,例如
對于ASCII文件,infile 'file-description' dlm='09'x;
對于EBCDIC文件,infile 'file-description' dlm='05'x;
3.讀入固定列--方式1:列輸入
許多數(shù)據(jù)是以固定列(fixed columns)的形式保存在文件中。讀入此種文件可以列輸入(column input)的方式讀入。這種方法可以讀入字符型變量,格式化數(shù)字。格式化數(shù)字,不僅是正負形式的數(shù)據(jù),還有指數(shù)形式的數(shù)值。比方說3.4E3表示3.4*10^3.
假設有如下形式的數(shù)據(jù),保存在bank.txt中。
00110/21/1955M 1145
00211/18/2001F 18722
00305/07/1944M 123.45
00407/25/1945F -12345
沒有任何分隔符。怎么辦,看代碼
data financial;
infile 'c:"books"learning"bank.txt';
input Subj $ 1-3
DOB $ 4-13
Gender $ 14
Balance 15-21;
run;
方式2.格式化輸入(Formatted input)
當數(shù)據(jù)是非標準化形式存放時,就應當考慮格式化輸入方法了。還是以上面的例子為例,格式化輸入的代碼為
data financial;
infile 'c:"books"learning"bank.txt';
input @1 Subj $3.
@4 DOB mmddyy10.
@14 Gender $1.
@15 Balance 7.;
run;
符號@稱為列指針(Column Pointer),@4就是告訴SAS,指到第4列。有兩種格式化形式,w.d和$w。w告訴SAS有幾列數(shù)據(jù)需要讀取,d表示小數(shù)點在其值的位置。例如,以3.0形式讀入123,SAS會保存為123.0,對同一數(shù)字以3.1讀入,SAS會保存為12.3.如果需讀入的數(shù)字本身有小數(shù)點,則d將會被忽略。如以4.1的形式讀入1.23,SAS仍會保存為1.23.而$w表示將讀入w列數(shù)據(jù)。
需要讀入日期數(shù)據(jù)時,MMDDYY10.告訴SAS以mm/dd//yyyy的形式讀入日期,SAS會以1960年1月1日為起始日到此日期的天數(shù)保存。所以,如果讀入01/01/1960,SAS會保存為0.
執(zhí)行上述代碼后,顯示的數(shù)據(jù)為
Obs Subj DOB Gender Balance
1 001 -1533 M 1145.00
2 002 15297 F 18722.00
3 003 -5717 M 123.45
4 004 -5273 F -12345.00
此時生日均被顯示為離1960年1月1日的天數(shù)。如果想以常規(guī)形式顯示,將日期重新進行格式化輸出
title "Listing of FINANCIAL";
proc print data=financial;
format DOB mmddyy10.
Balance dollar11.2;
run;
結(jié)果顯示為
Listing of FINANCIAL
Obs Subj DOB Gender Balance
1 001 10/21/1955 M $1,145.00
2 002 11/18/2001 F $18,722.00
3 003 05/07/1944 M $123.45
4 004 07/25/1945 F $-12,345.00
4.使用Format表達式
假設有一份文件,其數(shù)據(jù)被空格或逗號隔開,字符長大于8字節(jié)。讀入時,在Input表達式中緊隨變量名后,附上格式形式。中間以冒號隔開。
例如,設有一份CSV文檔,其內(nèi)容如下
"001","Christopher Mullens",11/12/1955,"$45,200"
"002","Michelle Kwo",9/12/1955,"$78,123"
"003","Roger W. McDonald",1/1/1960,"$107,200"
看代碼:
data list_example;
infile 'c:"books"learning"list.csv' dsd;
input Subj : $3.
Name : $20.
DOB : mmddyy10.
Salary : dollar8.;
format DOB date9. Salary dollar8.;
run;
另外一種使用Informat表達式的讀入數(shù)據(jù)形式,是顯式地使用Informat.上述讀入代碼可以為
data list_example;
informat Subj $3.
Name $20.
DOB mmddyy10.
Salary dollar8.;
infile 'c:"books"learning"list.csv' dsd;
input Subj
Name
DOB
Salary;
format DOB date9. Salary dollar8.;
run;
如果前述CSV文件中的數(shù)據(jù)是以空格隔開,且字符沒有引號。例如
001 Christopher Mullens 11/12/1955 $45,200
002 Michelle Kwo 9/12/1955 $78,123
003 Roger W. McDonald 1/1/1960 $107,200
問題就來了。名字中的空格會使用SAS以為變量已結(jié)束,導致讀入不正確。
問題的解決之道在于以&代替冒號:,讀入的代碼為
data list_example;
infile 'c:"books"learning"list.txt';
input Subj : $3.
DOB : mmddyy10.
Salary : dollar8.;
format DOB date9. Salary dollar8.;
run;
頂
0
踩
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。