歡迎來到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁(yè) 裝配圖網(wǎng) > 資源分類 > DOC文檔下載  

個(gè)人整理的一份SAS入門資料

  • 資源ID:27262183       資源大小:1.70MB        全文頁(yè)數(shù):93頁(yè)
  • 資源格式: DOC        下載積分:10積分
快捷下載 游客一鍵下載
會(huì)員登錄下載
微信登錄下載
三方登錄下載: 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要10積分
郵箱/手機(jī):
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機(jī)號(hào),方便查詢和重復(fù)下載(系統(tǒng)自動(dòng)生成)
支付方式: 微信支付   
驗(yàn)證碼:   換一換

 
賬號(hào):
密碼:
驗(yàn)證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會(huì)被瀏覽器默認(rèn)打開,此種情況可以點(diǎn)擊瀏覽器菜單,保存網(wǎng)頁(yè)到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請(qǐng)使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預(yù)覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標(biāo)題沒有明確說明有答案則都視為沒有答案,請(qǐng)知曉。

個(gè)人整理的一份SAS入門資料

初識(shí)SAS 啟動(dòng) 用如下方法可以進(jìn)入SAS系統(tǒng)的窗口運(yùn)行環(huán)境: 在Win95或NT環(huán)境中,從開始菜單的程序文件夾中找到SAS系統(tǒng)文件夾,從中啟動(dòng)SAS 系統(tǒng)?;蛘呱蒘AS.EXE的快捷方式(把SAS.EXE用鼠標(biāo)右鍵拖到桌面),雙擊SAS.EXE啟動(dòng)。 在Windows 3.xx環(huán)境中找到SAS系統(tǒng)程序組中的SAS圖標(biāo)雙擊啟動(dòng)。 SAS AWS(SAS應(yīng)用工作空間) 啟動(dòng)后,出現(xiàn)如圖 1的SAS運(yùn)行界面,術(shù)語(yǔ)稱為“SAS工作空間(SAS Application WorkSpace )”。它象其它Windows應(yīng)用程序一樣,在一個(gè)主窗口內(nèi),包含若干個(gè)子窗口,并有菜單條、工具欄、狀態(tài)欄等。 SAS有三個(gè)最重要的子窗口:程序窗口(PROGRAM EDITOR)、運(yùn)行記錄窗口(LOG)、輸出窗口(OUTPUT)。 程序窗口的使用類似于Windows中的記事本程序,可以在其中編輯文本文件,主要是編輯SAS 程序。程序可以直接在窗口中鍵入,插入新行用回車,插入點(diǎn)光標(biāo)(閃動(dòng)的豎線)可以用光標(biāo)鍵(上下左右箭頭、Home、End)移動(dòng)或用鼠標(biāo)單擊到某一處。按住Shift再按光標(biāo)鍵可以加亮顯示一塊文本,然后用復(fù)制、剪切、粘貼命令(Edit菜單中的Cut、Copy、Paste,或工具欄圖標(biāo))可以復(fù)制或移動(dòng)加亮顯示的文本。這些編輯操作具體請(qǐng)參考Windows的有關(guān)文檔。 運(yùn)行記錄窗口記錄程序的運(yùn)行情況,運(yùn)行是成功還是出錯(cuò),運(yùn)行所用時(shí)間,如果出錯(cuò),錯(cuò)在什么地方。運(yùn)行記錄窗口中以紅色顯示的是錯(cuò)誤信息。 輸出窗口顯示SAS程序的文本型輸出(圖形輸出單獨(dú)有一個(gè)GRAPHICS窗口)。輸出分頁(yè)顯示。 要把光標(biāo)移動(dòng)到某一窗口,可以用主菜單中的Window菜單選擇要顯示的窗口。用功能鍵F5 可以切換到程序窗口,F(xiàn)6可以到運(yùn)行記錄窗口,F(xiàn)7可以到輸出窗口。 SAS主窗口標(biāo)題欄下是主菜單。SAS菜單是動(dòng)態(tài)的,其內(nèi)容隨上下文而不同,即光標(biāo)在不同窗口其菜單也不同。其中,F(xiàn)ile(文件)菜單主要是有關(guān)SAS文件調(diào)入、保存及打印的功能。Edit (編輯)菜單用于窗口的編輯(如清空、復(fù)制、剪切、粘貼、查找、替換)。Locals(局部)菜單與當(dāng)前正在進(jìn)行的操作有關(guān),如果你正在程序窗口中編輯程序,則Locals菜單有提交運(yùn)行、調(diào)回修改等項(xiàng),如果在運(yùn)行記錄窗口或輸出窗口則Locals菜單項(xiàng)根本不出現(xiàn)。Globals 菜單內(nèi)容比較復(fù)雜,它可以打開被關(guān)閉的程序窗口、運(yùn)行記錄窗口、輸出窗口、圖形窗口,可以進(jìn)入SAS提供的各個(gè)獨(dú)立模塊。主菜單下是一個(gè)命令條和工具欄菜單。命令條主要是用于與SAS較早版本的兼容性,可以在這里鍵入SAS的顯示管理命令。工具欄圖標(biāo)提供了常見任務(wù)的快捷方式,比如保存、打印、幫助等等。鼠標(biāo)光標(biāo)在某一工具欄圖標(biāo)上停留幾秒可以顯示一個(gè)說明。工具欄圖標(biāo)的解釋如下:   Submit - 提交編輯窗口中的程序   New - 清空編輯窗口   Open - 打開文件到編輯窗口。用戶指定一個(gè)文件調(diào)入到編輯窗口內(nèi)。這個(gè)文件從此與編輯窗口相關(guān)聯(lián),以后的存盤操作將自動(dòng)存入這個(gè)文件。   Save - 存盤,保存編輯窗口內(nèi)容,注意如果此窗口已經(jīng)與一個(gè)文件相聯(lián)系的話此功能將覆蓋文件的原有內(nèi)容而不提示。   Print - 打印當(dāng)前窗口內(nèi)容   Print preview -打印預(yù)覽。   Cut - 剪切選定文本。   Copy - 復(fù)制選定文本。   Paste - 粘貼。注意這些操作是對(duì)Windows 剪貼板進(jìn)行的,可以用來與其它Windows應(yīng)用程序交換文本、數(shù)據(jù)等。剪切或復(fù)制到剪貼板的內(nèi)容可以被其它應(yīng)用程序粘貼,其它應(yīng)用程序放到剪貼板的內(nèi)容也可以粘貼到SAS的編輯窗口中。   Undo - 撤銷剛才的編輯操作。   DOS prompt - 臨時(shí)進(jìn)入DOS。   Browse - 打開WWW瀏覽器并進(jìn)入SAS公司的主頁(yè)   Directories - 進(jìn)入Directory(目錄)窗口,可以瀏覽各SAS數(shù)據(jù)庫(kù)的內(nèi)容,可以瀏覽數(shù)據(jù)庫(kù)中的數(shù)據(jù)集、SAS目錄的內(nèi)容。   SAS/ASSIST - 啟動(dòng)SAS的菜單驅(qū)動(dòng)界面SAS/ASSIST 。   Help - 啟動(dòng)Windows的幫助系統(tǒng)進(jìn)入SAS 的幫助。 簡(jiǎn)單運(yùn)行樣例 假設(shè)我們有一個(gè)班學(xué)生的數(shù)學(xué)成績(jī)和語(yǔ)文成績(jī),數(shù)學(xué)滿分為100,語(yǔ)文滿分為120,希望計(jì)算學(xué)生的平均分?jǐn)?shù)(按百分制)并按此排名,可以在程序窗口輸入此程序: title 95級(jí)1班學(xué)生成績(jī)排名; data c9501; input name $ 1-10 sex $ math chinese; avg = math*0.5 + chinese/120*100*0.5; cards; 李明 男 92 98 張紅藝 女 89 106 王思明 男 86 90 張聰 男 98 109 劉潁 女 80 110 ; run; proc print;run; proc sort data=c9501; by descending avg; run; proc print;run; 實(shí)際上,輸入這樣包含中文的程序最好辦法不是在SAS程序窗口直接輸入,因?yàn)镾AS目前對(duì)中文輸入的處理還不夠完善,好的辦法是打開一個(gè)其它的編輯程序如Windows中的記事本(在Win95 中用開始菜單中的“程序 | 附件 | 記事本”啟動(dòng)),在記事本中復(fù)制輸入的程序,然后到SAS 系統(tǒng)程序窗口中使用粘貼命令(用Edit菜單的Paste或工具欄上的粘貼圖標(biāo)),把程序復(fù)制到SAS 中。也可以在記事本中把編好的程序存盤,然后在SAS程序窗口用File菜單的Open命令打開保存好的程序文件。 要運(yùn)行此程序,只要用鼠標(biāo)單擊工具欄的提交圖標(biāo) ,或用Locals菜單的Submit命令。運(yùn)行后,運(yùn)行記錄窗口出現(xiàn)如下內(nèi)容: 50 title 95級(jí)1班學(xué)生成績(jī)排名; 51 data c9501; 52 input name $ 1-10 sex $ math chinese; 53 avg = math*0.5 + chinese/120*100*0.5; 54 cards;   NOTE: The data set WORK.C9501 has 5 observations and 5 variables. NOTE: The DATA statement used 0.11 seconds.     60 ; 61 run; 62 proc print;run;   NOTE: The PROCEDURE PRINT used 0.0 seconds.     63 proc sort data=c9501; 64 by descending avg; 65 run;   NOTE: The data set WORK.C9501 has 5 observations and 5 variables. NOTE: The PROCEDURE SORT used 0.05 seconds.     66 proc print;run;   NOTE: The PROCEDURE PRINT used 0.0 seconds. 其中記錄了每段程序的運(yùn)行情況、所用時(shí)間、生成數(shù)據(jù)保存情況。如果有錯(cuò)誤還會(huì)用紅色指示錯(cuò)誤。比如,最后的proc print后面的分號(hào)如果丟失,記錄窗口顯示如下錯(cuò)誤: 67 proc printrun; -------- 181 ERROR 181-322: Procedure name misspelled. 錯(cuò)誤說明為過程名錯(cuò)拼,但實(shí)際上是丟了分號(hào)導(dǎo)致print和run連成了一個(gè)詞。在程序窗口用“Locals | Recall text”菜單或按F4功能鍵可以調(diào)回程序修改。正確運(yùn)行后輸出窗口出現(xiàn)如下結(jié)果: 95級(jí)1班學(xué)生成績(jī)排名 3   OBS NAME SEX MATH CHINESE AVG   1 李明 男 92 98 86.8333 2 張紅藝 女 89 106 88.6667 3 王思明 男 86 90 80.5000 4 張聰 男 98 109 94.4167 5 劉潁 女 80 110 85.8333 95級(jí)1班學(xué)生成績(jī)排名 4   OBS NAME SEX MATH CHINESE AVG   1 張聰 男 98 109 94.4167 2 張紅藝 女 89 106 88.6667 3 李明 男 92 98 86.8333 4 劉潁 女 80 110 85.8333 5 王思明 男 86 90 80.5000 這里有兩頁(yè)輸出,第一頁(yè)是輸入數(shù)據(jù)后用PROC PRINT顯示的數(shù)據(jù)集,第二頁(yè)為按平均分排名后的結(jié)果。 從上面的例子程序可以看出SAS程序的一些特點(diǎn)。SAS程序由 語(yǔ)句組成,語(yǔ)句用分號(hào)結(jié)束。SAS程序中大小寫一般不區(qū)分(字符串中要區(qū)分大小寫)。SAS程序中的空格、空行一般可以任意放置,這樣我們可以安排適當(dāng)?shù)目s進(jìn)格式使得源程序結(jié)構(gòu)清楚易讀。SAS程序由兩種“步”構(gòu)成,一種叫 數(shù)據(jù)步(data step),一種叫 過程步(proc step),分別以DATA語(yǔ)句和PROC語(yǔ)句開始。數(shù)據(jù)步和過程步由若干個(gè)語(yǔ)句組成,一般以RUN語(yǔ)句結(jié)束。 SAS基本概念 本節(jié)介紹一些SAS特有的概念,其中最重要的是數(shù)據(jù)集。 SAS數(shù)據(jù)集 SAS數(shù)據(jù)集(SAS Datasets)可以看作由若干行和若干列組成的表格,類似于一個(gè)矩陣,但各列可以取不同的類型值,比如整數(shù)值、浮點(diǎn)值、時(shí)間值、字符串、貨幣值等等。SAS 數(shù)據(jù)集存放在以特殊格式存放的二進(jìn)制文件中,我們用一個(gè)SAS中的邏輯名來使用SAS數(shù)據(jù)集而不需關(guān)心它到底如何存儲(chǔ)在磁盤上。比如,1.1.3的例子生成了一個(gè)名為C9501的數(shù)據(jù)集,它的邏輯形式如下表: NAME SEX MATH CHINESE AVG 李明 男 92 98 86.8333 張紅藝 女 89 106 88.6667 王思明 男 86 90 80.5000 張聰 男 98 109 94.4167 劉潁 女 80 110 85.8333 數(shù)據(jù)集的每一行叫做一個(gè)觀測(cè)(Observation),每列叫做一個(gè)變量(Variable)。SAS數(shù)據(jù)集等價(jià)于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中的一個(gè)表,實(shí)際上一個(gè)SAS數(shù)據(jù)集有時(shí)也稱作一張表。在數(shù)據(jù)庫(kù)術(shù)語(yǔ)中一個(gè)觀測(cè)稱作一個(gè)記錄,一個(gè)變量稱作一個(gè)域。在C9501數(shù)據(jù)集中有5個(gè)觀測(cè),分別代表5個(gè)學(xué)生的情況,而每個(gè)學(xué)生有5個(gè)數(shù)據(jù),分別為姓名、性別、數(shù)學(xué)成績(jī)、語(yǔ)文成績(jī)、平均分,所以此數(shù)據(jù)集有5個(gè)變量。 從上面看出,數(shù)據(jù)集要有名字,變量要有名字,所以SAS中對(duì) 名字(數(shù)據(jù)集名、變量名、數(shù)據(jù)庫(kù)名,等等)有約定:SAS名字由英文字母、數(shù)字、下劃線組成,第一個(gè)字符必須是字母或下劃線,名字最多用8個(gè)字符,大寫字母和小寫字母不區(qū)分。比如,name,abc,aBC,x1,year12,_NULL_等是合法的名字,且abc和aBC是同一個(gè)名字,而class-1(不能有減號(hào))、a bit(不能有空格)、serial#(不能有特殊字符)、Documents (超長(zhǎng))等不是合法的名字。 SAS數(shù)據(jù)庫(kù) SAS數(shù)據(jù)集是各種特殊格式的 SAS文件中最重要的一種。另一種重要的SAS文件是 SAS目錄(Catalog),用來保存各種不能表示成行列結(jié)構(gòu)表格形式的數(shù)據(jù),比如系統(tǒng)設(shè)置、圖象、聲音等。多個(gè)SAS文件可以放在一起,稱為一個(gè) SAS數(shù)據(jù)庫(kù)(Library)。數(shù)據(jù)庫(kù)有一個(gè)庫(kù)名(Libname),其命名遵循上述SAS名字命名原則。在MS DOS/Windows環(huán)境中,一個(gè)SAS數(shù)據(jù)庫(kù)實(shí)際是磁盤上的一個(gè)子目錄(特殊情況下一個(gè)數(shù)據(jù)庫(kù)可以由幾個(gè)子目錄組成)。為了把庫(kù)名和子目錄聯(lián)系起來,使用LIBNAME語(yǔ)句。比如,我們?cè)贑:\Y1995子目錄中保存了幾個(gè)SAS數(shù)據(jù)集,可以用如下語(yǔ)句把庫(kù)名MYLIB與子目錄C:\Y1995 聯(lián)系起來: libname mylib "c:\y1995"; 有三個(gè)預(yù)定義的SAS數(shù)據(jù)庫(kù):WORK、SASUSER、SASHELP。其中,WORK數(shù)據(jù)庫(kù)叫做 臨時(shí)庫(kù),存放在其中的SAS文件叫 臨時(shí)文件,這些臨時(shí)文件當(dāng)退出SAS系統(tǒng)時(shí)會(huì)被自動(dòng)刪除。SASUSER庫(kù)保存與用戶個(gè)人設(shè)置有關(guān)的文件,它是永久的,即退出SAS時(shí)文件不會(huì)被刪除。SASHELP庫(kù)保存與SAS幫助系統(tǒng)、例子有關(guān)的文件,是永久的。 從上面看出,SAS文件分為 臨時(shí)文件和 永久文件:臨時(shí)文件在退出SAS系統(tǒng)時(shí)自動(dòng)被刪除,永久文件在退出SAS系統(tǒng)時(shí)不自動(dòng)被刪除。所以,我們把作為中間結(jié)果使用的數(shù)據(jù)集或練習(xí)用的數(shù)據(jù)集作為臨時(shí)數(shù)據(jù)集保存,而需要以后再用的數(shù)據(jù)集則可以保存為永久數(shù)據(jù)集。臨時(shí)數(shù)據(jù)集和永久數(shù)據(jù)集的區(qū)別是:臨時(shí)數(shù)據(jù)集可以用 單水平名,即只有數(shù)據(jù)集名,比如C9501,而永久數(shù)據(jù)集名由兩部分組成,前一部分是它的庫(kù)名,后一部分才是數(shù)據(jù)集名,兩部分中間用小數(shù)點(diǎn)連接,比如放在MYLIB庫(kù)(即"C:\Y1995" 子目錄)中的數(shù)據(jù)集TEACH必須用MYLIB.TEACH表示。這樣指定的數(shù)據(jù)集名在生成時(shí)可以放到由庫(kù)名指定的子目錄中,在讀取時(shí)可以到指定的子目錄讀取,并且不會(huì)被自動(dòng)刪除。 臨時(shí)數(shù)據(jù)集除用單水平名外 ,也可以用庫(kù)名為WORK的兩水平名,如WORK.C9501和C9501 是一樣的。 要生成永久數(shù)據(jù)集,只要在指定要生成的數(shù)據(jù)集名時(shí)使用兩水平名且?guī)烀延卸x,比如,要把上面的C9501數(shù)據(jù)集在生成時(shí)就放到"C:\Y1995"子目錄中,可以用如下語(yǔ)句: libname mylib "c:\y1995"; data mylib.c9501; …… proc sort data=mylib.c9501; …… 這個(gè)程序和1.1.3的例子相比只是增加了一個(gè)定義庫(kù)名的LIBNAME語(yǔ)句,然后在所有用到數(shù)據(jù)集名C9501的地方換成了兩水平名MYLIB.C9501。要注意生成的數(shù)據(jù)集是MYLIB.C9501后面在用到它的時(shí)候(在PROC SORT中)也必須使用兩水平名MYLIB.C9501而不能使用單水平名C9501 ,這兩個(gè)名字指向的不是同一個(gè)SAS文件。 為了顯示現(xiàn)有定義的數(shù)據(jù)庫(kù),只要單擊工具欄的 圖標(biāo),如圖 2。 Libraries窗口顯示了現(xiàn)有定義的所有數(shù)據(jù)庫(kù)及其對(duì)應(yīng)的子目錄,并在窗口下方顯示了選定的數(shù)據(jù)庫(kù)中的SAS文件列表。文件列表第一列是SAS文件名稱,第二列是其類型,DATA代表數(shù)據(jù)集。雙擊某一數(shù)據(jù)集名可以打開此數(shù)據(jù)集到一個(gè)數(shù)據(jù)顯示窗口查看。 不需編程的SAS應(yīng)用――SAS/INSIGHT 介紹 SAS的使用方法一般是象1.1.3那樣輸入一個(gè)程序,運(yùn)行,修改,最后在輸出窗口得到結(jié)果。隨著圖形界面、用戶友好等程序思想的發(fā)展,SAS也逐漸提供了一些不需要學(xué)習(xí)SAS編程就能進(jìn)行數(shù)據(jù)管理、分析、報(bào)表、繪圖的功能,其中做得比較出色的一個(gè)是SAS/INSIGHT模塊。SAS/INSIGHT是在基本的SAS系統(tǒng)基礎(chǔ)上添加的一個(gè)模塊,提供了數(shù)據(jù)交互輸入、數(shù)據(jù)探索、分布研究、相關(guān)分析、各種圖形等功能。這里我們初步介紹SAS/INSIGHT的使用。 要啟動(dòng)SAS/INSIGHT,選Globals | Analyze | Interactive data analysis菜單,首先出現(xiàn)圖 3那樣的選擇數(shù)據(jù)集的窗口: 這是SAS/INSIGHT必須先選擇一個(gè)要分析、觀察的數(shù)據(jù)集。如果要生成新數(shù)據(jù)集,按New按鈕,如果要打開已有數(shù)據(jù)集,按Open按鈕。圖 4是SAS/INSIGHT運(yùn)行時(shí)的樣子。 數(shù)據(jù)窗口 SAS/INSIGHT提供了一個(gè)類似于電子表格的數(shù)據(jù)窗口來管理數(shù)據(jù)集。圖 5為顯示了數(shù)據(jù)集SASUSER.CLASS的數(shù)據(jù)窗口: 此數(shù)據(jù)集是一個(gè)班19個(gè)學(xué)生的一些情況,包括姓名、性別、年齡、身高、體重。我們看到,數(shù)據(jù)窗口標(biāo)題行顯示了打開的數(shù)據(jù)集的名字,標(biāo)題行下左上角有一個(gè)向右的小三角,這是數(shù)據(jù)窗口的菜單,見圖 6: 三角下方的19是觀測(cè)行數(shù),右方的5 是變量個(gè)數(shù)。窗口內(nèi)每行最左邊的方塊是觀測(cè)的繪圖標(biāo)記,用于在圖形中標(biāo)記觀測(cè);然后是觀測(cè)序號(hào);再往右是各變量的值。數(shù)據(jù)窗口中的各變量用作列標(biāo)題,如圖 5中的NAME、SEX、AGE 、HEIGHT、WEIGHT就是數(shù)據(jù)集SASUSER.CLASS中的五個(gè)變量的名字。在每一個(gè)變量名的上面有兩個(gè)標(biāo)簽,右邊一個(gè)代表變量的量測(cè)水平,分為區(qū)間變量(Int)和名義變量(Nom)。區(qū)間變量是取連續(xù)值的變量,只能為數(shù)值;名義變量是取離散值的變量,一般為字符型,也可以取數(shù)值。變量名上面左邊的標(biāo)簽代表變量在分析中的缺省用途,比如NAME上面的Label表示此變量的值(學(xué)生姓名)在繪圖中用來標(biāo)記觀測(cè),SEX上面的Group表示此變量(性別)用來分組,等等。 數(shù)據(jù)窗口可以用來建立新數(shù)據(jù)集。在SAS/INSIGHT內(nèi)用“File | New”菜單或在啟動(dòng)INSIGHT 的窗口(圖 3)按“New”按鈕,將出現(xiàn)一個(gè)空的數(shù)據(jù)窗口。這時(shí),可以直接向第一行輸入數(shù)據(jù),比如要輸入 1.1.3 中的C9501數(shù)據(jù)集,就可以在第一行的前四列中分別輸入李明、男、92 、98,這時(shí)各列自動(dòng)取變量名為A、B、C、D,而且量測(cè)水平自動(dòng)定為前兩個(gè)字符型是名義變量(Nom),后兩個(gè)數(shù)值型是區(qū)間變量(Int)。為了修改變量名和變量的用途,從數(shù)據(jù)窗口的菜單(圖 6)選Define Variables,出現(xiàn)圖 7的定義變量窗口: 在這里可以修改變量名,給變量加標(biāo)簽(Label),可以選擇變量的量測(cè)水平,可以規(guī)定變量的用途。變量的標(biāo)簽是對(duì)變量的一個(gè)可以長(zhǎng)達(dá)40個(gè)字符的描述,可以用于以后的輸出,可以用漢字。 定好變量名等屬性后就可以繼續(xù)輸入其它數(shù)據(jù)行,每輸入一行后回車,直至把全部數(shù)據(jù)輸完。為了使回車時(shí)光標(biāo)從前一行尾部進(jìn)到下一行第一格,可以從數(shù)據(jù)窗口菜單(圖 6)中選 “Data Options”,在彈出的對(duì)話框中(圖 9): 選擇回車的方向(Direction of Enter)為左下(Down and Left)。為了保存輸入的數(shù)據(jù)集,選“File | Save | Data”菜單,出現(xiàn)圖 8 那樣的輸入數(shù)據(jù)集的窗口: 可以選擇數(shù)據(jù)集放在哪一個(gè)數(shù)據(jù)庫(kù),可以輸入一個(gè)數(shù)據(jù)集名,把這里的A改成c9501,按OK鈕就可以保存數(shù)據(jù)集。對(duì)于比較小的數(shù)據(jù)集(幾個(gè)、十幾個(gè)變量,幾十個(gè)觀測(cè)),用SAS/INSIGHT的數(shù)據(jù)窗口可以迅速而直觀地輸入。對(duì)于更大量的數(shù)據(jù),一般從其它格式轉(zhuǎn)換而得。 在數(shù)據(jù)窗口中如果需要修改某一個(gè)值,只要直接用鼠標(biāo)點(diǎn)到其單元格修改,然后把輸入光標(biāo)離開其所在行就實(shí)現(xiàn)了修改。在單元格之間移動(dòng)可以用鼠標(biāo)單擊、制表鍵、回車、上下光標(biāo)鍵等方法。要保存所作的修改還需要用“File | Save | Data”菜單。 當(dāng)數(shù)據(jù)窗口中變量較多時(shí),可以用滾動(dòng)條滾動(dòng)窗口內(nèi)容來查看。如果某個(gè)變量比較重要,可以考慮把它放到第一列的位置,這只要先單擊該變量的名字選中它,然后在圖 6的菜單中選Move to First。要把某列移到最后,選中它后用Move to Last菜單。 選中一列只要單擊其變量名。如果要選中多個(gè)列,在選中一個(gè)后按住Ctrl鍵單擊其它的名字可以添加選中其它變量。選中一個(gè)變量后按住Shift單擊另一個(gè)變量名可以選中這兩個(gè)變量及它們之間的所有變量。選中的多個(gè)列也可以用Move to First和Move to Last移動(dòng)。 要選中一個(gè)觀測(cè)(行),只要單擊其觀測(cè)號(hào)(行號(hào))。選多個(gè)觀測(cè)可以用Ctrl單擊或Shift 單擊的方法。選中的觀測(cè)也可以用Move to First和Move to Last移動(dòng)到最前或最后。 還可以選中某些列同時(shí)選中某些行。只要在后續(xù)的選中操作時(shí)用添加選中(Shift單擊或Ctrl 單擊)即可。用鼠標(biāo)在數(shù)據(jù)窗口數(shù)值顯示部分拖出一個(gè)方框也可以選定一部分?jǐn)?shù)值。 選定了列或者行以后,用“Edit | Delete”菜單可以刪除選定的列或行。 要取消所有選中,只要單擊某一單元格而不是行、列標(biāo)題即可。 下面簡(jiǎn)單介紹一下數(shù)據(jù)窗口菜單(圖 6)中各命令: Find Next 在選定了若干個(gè)觀測(cè)的情況下,把下一個(gè)被選定的觀測(cè)顯示在窗口第一行的位置。 Move to First 把選定的行或列移到最前。 Move to Last 把選定的行或列移到最后。 Sort 在選定了一列的情況下,把數(shù)據(jù)集按此列從小到大排序;在選定了多列的情況下,按選定的變量次序按這些變量綜合排序,比如在SASUSER.CLASS窗口中先選定SEX 然后用Ctrl單擊附加選定HEIGHT,然后排序,這樣的結(jié)果是把數(shù)據(jù)集先按女、男生排序然后在女生內(nèi)部和男生內(nèi)部分別按身高從小到大排序。如果沒有選定任何列,則彈出一個(gè)菜單,詢問按哪些變量排序,比如說對(duì)SASUSER.CLASS數(shù)據(jù),可以先點(diǎn)SEX,然后單擊Y按鈕,把性別加入了排序變量中,再選HEIGHT,單擊Y按鈕,把身高作為第二排序變量,再單擊排序變量中的HEIGHT,單擊Asc/Des按鈕(這是要求對(duì)身高值要由高到低排序),按OK后數(shù)據(jù)將按性別分組,然后女生、男生內(nèi)部分別按身高由高到低排列。 New Observations 用于快速添加若干個(gè)空數(shù)據(jù)行,彈出一個(gè)對(duì)話框要求輸入添加的觀測(cè)數(shù),缺省是100個(gè)。添加的空行中字符型數(shù)據(jù)先填空值,數(shù)值型數(shù)據(jù)先填缺失值(用單獨(dú)的小數(shù)點(diǎn)代表)。 New Variables 用于快速添加若干個(gè)新變量。 Define Variables 設(shè)定變量的名字、標(biāo)簽、量測(cè)水平、缺省分析用途等,見圖 7??梢栽谏尚聰?shù)據(jù)集時(shí)定義變量,也可以對(duì)已有數(shù)據(jù)集的變量屬性進(jìn)行修改。 Fill Values 用于自動(dòng)生成一個(gè)等差數(shù)列變量。先選定一個(gè)數(shù)值型變量,然后用此命令,將彈出一個(gè)對(duì)話框要求輸入起始值(Value)和增量(Increment),比如起始值填100 ,增量填50,則此變量的在各觀測(cè)中的值分別填入為100,150,200,…。 Extract 這是一個(gè)很強(qiáng)的功能,它可以把選定的部分行、部分列或者部分行列取出到另一個(gè)窗口。比如,在SASUSER.CLASS中先選定所有女生的觀測(cè),再用添加選擇(Shift 或Ctrl單擊)的辦法選定NAME和HEIGHT變量,然后用此命令,可以打開一個(gè)SASUSER.CLASS1 數(shù)據(jù)窗口,此數(shù)據(jù)窗口中只有姓名和身高兩列和女生的觀測(cè)行。可以用主菜單中的“File | Save | Data ”把此新數(shù)據(jù)集保存為WORK.CLASS1(盡量不用永久數(shù)據(jù)集存放練習(xí)用的數(shù)據(jù)集)。這樣可以由已有數(shù)據(jù)集挑選部分列、部分行組成新數(shù)據(jù)集。 Data Options 本數(shù)據(jù)窗口的一些設(shè)置。彈出對(duì)話框如圖 9,可以選擇在數(shù)據(jù)窗口內(nèi)按回車時(shí)光標(biāo)是移到下面、左面還是下面最左,按TAB是光標(biāo)是移到下面、右面還是右上。選中“Show Variable Labels”可以用變量的標(biāo)簽作為窗口的列標(biāo)題,這樣有利于理解變量的意義,但無法知道變量的真實(shí)名字。前面說過,變量標(biāo)簽允許長(zhǎng)達(dá)40個(gè)字符,允許用漢字。標(biāo)簽可以在數(shù)據(jù)窗口菜單的Define Variables窗口(圖 7)輸入或修改。如果要用較長(zhǎng)的漢字標(biāo)簽,需要適當(dāng)?shù)赜每崭穹珠_標(biāo)簽中的漢字以利于分行顯示標(biāo)簽。 數(shù)據(jù)探索――一維方法 SAS/INSIGHT提供了十分方便的數(shù)據(jù)探索功能。對(duì)一維數(shù)據(jù),可以作直方圖、盒形圖、馬賽克圖,對(duì)二維數(shù)據(jù),可以作散點(diǎn)圖、曲線圖、散點(diǎn)圖矩陣,對(duì)三維數(shù)據(jù)可以作旋轉(zhuǎn)圖(三維散點(diǎn)圖)。在圖上可以選定一些觀測(cè),這些選擇結(jié)果會(huì)同時(shí)反映在數(shù)據(jù)窗口和其它圖中。 以SASUSER.CLASS數(shù)據(jù)集為例。選定變量HEIGHT,用“Analyze | Histogram/Bar Charts(Y) ”菜單可以打開一個(gè)圖形窗口生成身高的分布 直方圖,如圖 10。 直方圖的每一個(gè)條形代表了繪圖變量(HEIGHT)在一個(gè)區(qū)間的取值情況,比如70到75之間的條形代表身高在70到75英寸的人,條形高度為組頻數(shù),即取值在這一區(qū)間的觀測(cè)個(gè)數(shù),可以看出這一組有一個(gè)學(xué)生。單擊這一條形選中在此范圍的觀測(cè),可以發(fā)現(xiàn)這時(shí)數(shù)據(jù)窗口的相應(yīng)觀測(cè)也被選定了,被選中的是Philip,身高72英寸。如果雙擊某一條形,比如60到65的條形,就可以在選定相應(yīng)觀測(cè)的同時(shí)彈出一個(gè)檢查觀測(cè)窗口,窗口中顯示各被選中的觀測(cè)序號(hào),以及其中一個(gè)觀測(cè)的各變量值。這樣可以很方便地檢查圖中各部分所對(duì)應(yīng)的觀測(cè)。為取消選定,只要在圖中空白處單擊即可。 作出的圖形有一個(gè)方框包圍。如果想改變圖形大小,可以單擊方框使其變粗,然后拖動(dòng)四個(gè)角中的一個(gè),就可以把圖形放大或縮小。甚至還可以把一個(gè)角向其對(duì)角方向拖動(dòng)一直拖過對(duì)角,這樣可以改變圖形的橫縱軸方向。拖動(dòng)邊框可以把圖形移動(dòng)到窗口內(nèi)其它位置。 圖形中提供了一個(gè)設(shè)置菜單,可以單擊圖形邊框角上的向右箭頭或在圖形內(nèi)右鍵單擊來打開。菜單內(nèi)容包括Ticks,可以設(shè)置坐標(biāo)軸的具體畫法;Axes用來指定畫不畫坐標(biāo)軸;Observations 用來指定是否畫觀測(cè);Values指定是否標(biāo)出各條形高度值。 對(duì)連續(xù)數(shù)據(jù)(Int型)作直方圖可以反映其分布情況,對(duì)離散數(shù)據(jù)(Nom型)作直方圖同樣可以反映其分布,即取每一個(gè)離散值的比例大?。l數(shù)分布)。比如,在作了身高的直方圖后,選定變量SEX,對(duì)其作直方圖,則結(jié)果打開一個(gè)新圖形窗口作出只有兩個(gè)條形的條形圖,一個(gè)標(biāo)記為F,另一個(gè)標(biāo)記為M,高度分別為9和10,即有9個(gè)女生,10個(gè)男生,男女比例為10 :9。單擊標(biāo)F的條形,可以看到數(shù)據(jù)窗口中所有女生的觀測(cè)被選定,另外還可以看到已作的身高的直方圖也發(fā)生了變換,身高的每一個(gè)條形都分成了顏色不同的兩部分,其中下面的一部分代表女生。 在用Analyse菜單中的作圖命令作圖時(shí)如果沒有選定的變量則彈出一個(gè)對(duì)話框提問用哪一個(gè)變量作圖,如果對(duì)身高作圖,只要選HEIGHT然后按Y鈕即可。 盒形圖是另一種表現(xiàn)數(shù)值型變量分布的圖形。比如,要畫身高分布的盒形圖,選定變量HEIGHT然后用“Analyse | Box Plot/Mosaic Plot”可以作出圖 12。 從圖形菜單中選Values 可以標(biāo)出圖中重要數(shù)據(jù)值??梢钥闯?,此盒形圖的橫軸沒有用處,縱軸代表身高的取值范圍。盒形的中間有一條粗線,這是身高分布的中位數(shù)的位置,盒子上邊線是分布的四分之三分位數(shù),下邊線是分布的四分之一分位數(shù),盒子上下邊線包含了分布的中間50%的觀測(cè)。盒子的長(zhǎng)度叫做分布的四分位間距,其作用類似于標(biāo)準(zhǔn)差,可以反映數(shù)據(jù)分布的分散程度。從盒子邊線向外畫了兩條線叫做觸須線,最長(zhǎng)可以延伸到四分位間距的1.5倍,但是如果已經(jīng)到了數(shù)據(jù)的最小值或最大值處就不再延伸。如果觸須線沒有達(dá)到數(shù)據(jù)的極端值,則這些數(shù)據(jù)點(diǎn)用觸須線以外的點(diǎn)來畫出,一般認(rèn)為這樣的點(diǎn)是異常點(diǎn)。從盒形圖可以看出數(shù)據(jù)的偏斜情況,比如我們看到盒子的下半部比上半部長(zhǎng),而且下觸須線比上觸須線長(zhǎng),說明身高分布略左偏。 用盒形圖菜單中的“Means”選項(xiàng)可以在盒形圖上加畫一個(gè)菱形,菱形的中間代表分布的平均值,菱形端點(diǎn)到中間距離為兩倍標(biāo)準(zhǔn)差。如果是變量服從正態(tài)分布,菱形上下端點(diǎn)之間應(yīng)該包含大約95%的觀測(cè)。平均值和中位數(shù)的比較也能反映變量的偏斜情況,平均值低于中位數(shù)可能左偏。 單擊或雙擊盒形圖的某一部分(盒子上半部或下半部、觸須線、極端值)可以選定觀測(cè)。 盒形圖可以方便地比較按某分組變量分組后的分布情況。比如,如果我們想看一看男女的身高分布有何異同,不選任何變量啟動(dòng)“Analyze | Box Plot/Mosaic Plot”菜單,彈出選擇變量的對(duì)話框如圖 13。 選身高為Y變量,選性別為X變量,畫出的圖見圖 14。 圖中有兩個(gè)盒形圖,女生一個(gè),男生一個(gè)。從圖中看出,男生身高普遍高于女生,且女生身高分布左偏較男生嚴(yán)重。這種并排盒形圖可以十分直觀地比較兩個(gè)相關(guān)的分布。作盒形圖時(shí)指定多個(gè)Y變量也可以作出并排的盒形圖,比如,同時(shí)指定身高和體重作為Y變量作盒形圖就可以生成身高和體重的并排的盒形圖。 Analyze菜單的“Box Plot/Mosaic Plot”命令對(duì)連續(xù)型變量作盒形圖,對(duì)離散型變量將作 馬賽克圖。比如,對(duì)性別變量作圖得圖 16。 選“Values”菜單后標(biāo)出了男女的人數(shù)、百分比。馬賽克圖一般不對(duì)單個(gè)變量作,而是對(duì)兩個(gè)離散變量來作。比如,先把SASUSER.CLASS 中變量AGE的量測(cè)水平由Int改為Nom,然后取消所有變量的選定,啟動(dòng)“Box Plot/Mosai Plot ”,選SEX為Y變量,選AGE為X變量,作圖如圖 15。 這種圖的好處是直觀顯示了兩個(gè)變量每種取值組合的觀測(cè)個(gè)數(shù)和比例。單擊或雙擊其中一個(gè)方塊可以迅速選中一個(gè)分組,比如雙擊年齡為11性別為女(F)的方塊可以看到這一組的學(xué)生。 數(shù)據(jù)探索――二維 SAS/INSIGHT可以作曲線圖、散點(diǎn)圖、散點(diǎn)圖矩陣,可以在散點(diǎn)圖中刷亮觀測(cè)。 曲線圖有一個(gè)取值由小到大的X變量,有一個(gè)或幾個(gè)Y變量,以X變量為橫坐標(biāo)對(duì)Y 變量畫曲線。為了演示曲線圖,打開SASUSER.AIR數(shù)據(jù)集(用“File | Open”菜單)。這個(gè)數(shù)據(jù)集是德國(guó)某城市一周的每小時(shí)記錄的空氣污染情況。變量DATETIME是記錄的日期時(shí)間,為特殊SAS格式數(shù)據(jù),變量DAY為星期幾,HOUR為幾點(diǎn)鐘,CO、O3、SO2、NO、DUST分別為一氧化碳、臭氧、二氧化硫、一氧化氮、粉塵的濃度,WIND為風(fēng)速。要畫一氧化碳的曲線圖,可以在未選任何變量的情況下用“Analyse | Line Plot”,彈出變量對(duì)話框(圖 17)。 選DATETIME 為X變量,CO為Y變量,可以畫出CO的時(shí)間序列曲線圖。 單擊曲線上某一個(gè)點(diǎn)可以顯示其觀測(cè)序號(hào),雙擊可以檢查觀測(cè)。如果想單擊曲線上點(diǎn)時(shí)不顯示觀測(cè)序號(hào)而顯示記錄時(shí)間是幾點(diǎn),可以在曲線圖窗口中選主菜單的“Edit | Window | Renew”,可以再?gòu)棾鲎兞看翱?,選HOUR 并按Label鈕把時(shí)間指定為標(biāo)簽變量。這時(shí)在作的CO的曲線圖上單擊一個(gè)點(diǎn)顯示的就是記錄時(shí)間了??梢钥闯鯟O的高峰一般在早晨8點(diǎn)和晚上17點(diǎn)-21點(diǎn)。用圖形菜單(右鍵或單擊向右三角)中的Observations可以畫出各個(gè)數(shù)據(jù)點(diǎn)的符號(hào)。 可以在圖上同時(shí)畫出多條曲線。比如,想考察風(fēng)速對(duì)污染的影響,在圖形窗口中再用主菜單的“Edit | Window | Renew”,把WIND也作為Y變量,畫出的圖就有兩條不同顏色的曲線,單擊外面的CO變量符號(hào)和WIND變量符號(hào)可以加重顯示對(duì)應(yīng)的曲線以區(qū)分這兩條曲線。見圖 18 。圖中被選的點(diǎn)是風(fēng)速的最高值,時(shí)間是11點(diǎn)。注意在一條曲線中被選在另一條曲線中也被選。從此圖可以看出風(fēng)速對(duì)污染有較明顯的影響,風(fēng)大時(shí)污染較輕。 散點(diǎn)圖也有一個(gè)X變量和一個(gè)Y變量,但不要求X變量有從小到大的次序,畫圖不用連線而是用散點(diǎn)畫出每一對(duì)X、Y坐標(biāo)。比如對(duì)SASUSER.CLASS,我們希望通過畫圖了解身高和體重的關(guān)系。在數(shù)據(jù)窗口中先選定體重(Y軸變量)再附加選定身高(X軸變量),啟動(dòng)菜單 “Analyze | Scatter Plot”,就可以生成以體重為縱軸以身高為橫軸的散點(diǎn)圖(見圖 19)。 從圖可以看出體重與身高有明顯的線性相關(guān)關(guān)系。 為了解哪一個(gè)點(diǎn)代表哪一個(gè)學(xué)生,單擊一個(gè)點(diǎn)可以顯示其觀測(cè)序號(hào),雙擊可以檢查觀測(cè)。為了在單擊時(shí)可以顯示學(xué)生名字而不是觀測(cè)序號(hào),需要把NAME指定為標(biāo)簽變量。這可以在生成散點(diǎn)圖時(shí)先不在數(shù)據(jù)窗口選X、Y變量而是直接啟動(dòng)“Analyze | Scatter Plot”菜單,彈出變量對(duì)話框,在其中選X、Y變量并把NAME指定為L(zhǎng)abel變量。這時(shí),單擊散點(diǎn)圖中最左下角的那個(gè)點(diǎn)可以顯示名字Sandy,單擊最右上角的那個(gè)點(diǎn)可以顯示Philip。選多個(gè)點(diǎn)可以用附加選中的辦法(Shift或Ctrl單擊)。 為了在散點(diǎn)圖中選定多個(gè)點(diǎn),SAS/INSIGHT還提供了一種稱為“ 刷亮(Brushing)”的操作。在圖中拖動(dòng)鼠標(biāo)光標(biāo)可以拖出一個(gè)小長(zhǎng)方形,在這個(gè)長(zhǎng)方形中的點(diǎn)都被選中,稱它為刷子。選中的點(diǎn)在數(shù)據(jù)窗口也被選中,可以在數(shù)據(jù)窗口翻頁(yè)查看,或用數(shù)據(jù)窗口的Find Next菜單命令查看,或在數(shù)據(jù)窗口用Move to First菜單命令把選中的點(diǎn)移到最前查看。雙擊長(zhǎng)方形(刷子)可以彈出檢查觀測(cè)窗口,在那里可以逐個(gè)查看選中的觀測(cè)內(nèi)容。 拖動(dòng)刷子的角可以改變其大小。拖動(dòng)刷子內(nèi)部可以移動(dòng)它的刷亮位置,使進(jìn)入刷子的點(diǎn)被選中,而離開了刷子的點(diǎn)被取消選中。可以同時(shí)用附加選中(Ctrl單擊)的辦法加選不在刷子內(nèi)的點(diǎn),這些點(diǎn)還可以顯示標(biāo)簽。在拖動(dòng)刷子時(shí)如果同時(shí)按住Shift或Ctrl鍵則為附加選定,即進(jìn)入刷子的點(diǎn)被選中而離開刷子的點(diǎn)仍保持被選中??梢园醋hift或Ctrl鍵拖出第二個(gè)刷子,這時(shí)第一個(gè)刷子不再顯示但它刷亮的點(diǎn)仍保持刷亮,移動(dòng)第二個(gè)刷子時(shí)如果按住Shift 或Ctrl鍵仍可保持已有選定。為了取消所有選定,只要點(diǎn)擊圖內(nèi)空白處。 散點(diǎn)圖矩陣畫出多個(gè)變量?jī)蓛砷g的散點(diǎn)圖以考察多變量關(guān)系。以SASUSER.CLASS為例,比如說我們想了解年齡、身高、體重間的關(guān)系。先把年齡的量測(cè)水平設(shè)為連續(xù)型(Int),在數(shù)據(jù)窗口選定年齡、身高、體重,可以作出圖 20。 我們看到三個(gè)變量?jī)蓛山M合有三種組合,每種組合有兩個(gè)圖形(橫縱軸對(duì)換)。散點(diǎn)圖矩陣對(duì)角線為變量標(biāo)記和變量取值范圍,該變量是其所在行的縱軸變量,是其所在列的橫軸變量。比如第二行第一列的圖縱軸變量是HEIGHT ,橫軸變量是AGE,為身高對(duì)年齡的散點(diǎn)圖。其對(duì)稱位置(第一行第二列)是年齡對(duì)身高的散點(diǎn)圖,兩者只是把橫縱坐標(biāo)旋轉(zhuǎn)對(duì)調(diào)。 散點(diǎn)圖矩陣除了可以同時(shí)看到多個(gè)散點(diǎn)圖的優(yōu)點(diǎn)外主要是在一個(gè)散點(diǎn)圖中被選中的點(diǎn)在其它散點(diǎn)圖和數(shù)據(jù)窗口中也同時(shí)被選中。這樣,我們可以在一個(gè)圖中選一個(gè)極端點(diǎn),看它在其它圖中是否也處于極端位置。在一個(gè)散點(diǎn)圖中刷亮的點(diǎn)在其它散點(diǎn)圖中也同時(shí)被刷亮,這樣,我們可以觀察,年齡和身高都比較小時(shí),體重是否也比較低??梢砸苿?dòng)刷子,同時(shí)其它散點(diǎn)圖中被選中的點(diǎn)也在變化。從圖 20可以看出,年齡由小到大變化時(shí)身高、體重一般也變大,但同一年齡的學(xué)生的身高、體重差距較大。 SAS/INSIGHT提供了自動(dòng)移動(dòng)刷子的功能。在拖動(dòng)刷子時(shí)松開鼠標(biāo)按鈕,類似于“拋出” 刷子,刷子就可以按拋出的方向繼續(xù)移動(dòng)并反彈。不過現(xiàn)在還較難控制自動(dòng)移動(dòng)的速度,有時(shí)移動(dòng)過快。 數(shù)據(jù)探索――三維 SAS/INSIGHT對(duì)三維數(shù)據(jù)可以作稱為旋轉(zhuǎn)圖的三維散點(diǎn)圖。比如,要對(duì)SASUSER.CLASS 中的學(xué)生年齡、身高、體重作三維散點(diǎn)圖,在數(shù)據(jù)窗口依次選定AGE、HEIGHT、WEIGHT,然后啟動(dòng)菜單“Analyze | Rotating Plot”,可以生成一個(gè)三維散點(diǎn)圖。圖 21是經(jīng)過旋轉(zhuǎn)后的圖形。 這種三維散點(diǎn)圖之所以稱為旋轉(zhuǎn)圖,是因?yàn)樽鴺?biāo)系可以在三維空間繞原點(diǎn)任意旋轉(zhuǎn)。圖形的左側(cè)有一個(gè)小工具欄,其中有向上、下、左、右、逆時(shí)針、順時(shí)針旋轉(zhuǎn)的圖標(biāo),再往下有一個(gè)滾動(dòng)條,用它來規(guī)定自動(dòng)旋轉(zhuǎn)的速度。左下角是圖形的菜單(向右的三角形)。 為了旋轉(zhuǎn)坐標(biāo)系,單擊左側(cè)的旋轉(zhuǎn)方向圖標(biāo)。按住旋轉(zhuǎn)圖標(biāo)可以連續(xù)旋轉(zhuǎn)。按住Shift或Ctrl 再旋轉(zhuǎn)可以實(shí)現(xiàn)自動(dòng)旋轉(zhuǎn)。當(dāng)鼠標(biāo)光標(biāo)移到圖形的四個(gè)角時(shí)光標(biāo)形狀變成了手的形狀,單擊可以旋轉(zhuǎn),拖動(dòng)可以連續(xù)旋轉(zhuǎn),拖動(dòng)時(shí)“拋出”可以自動(dòng)旋轉(zhuǎn)。自動(dòng)旋轉(zhuǎn)中可以隨時(shí)拖動(dòng)圖形以改變旋轉(zhuǎn)方向。 旋轉(zhuǎn)圖的菜單(圖 22)中,Ticks用來調(diào)整坐標(biāo)軸刻度,Axes可以選坐標(biāo)軸以數(shù)據(jù)中心點(diǎn)為原點(diǎn)、以左端點(diǎn)為原點(diǎn)、不畫坐標(biāo)軸。Observations指定畫出所有觀測(cè),如果沒有選中此項(xiàng)則只畫被選中的觀測(cè)。Rays從原點(diǎn)向每個(gè)散點(diǎn)畫射線。Cube在散點(diǎn)四周畫一個(gè)長(zhǎng)方體盒子。Depth可以使離視點(diǎn)近的點(diǎn)畫得較大,離得遠(yuǎn)的點(diǎn)畫得較小。Fast Draw指定用另一種較快的繪圖方法繪圖。Markers Sizes選擇散點(diǎn)的大小。 圖形的調(diào)整 SAS/INSIGHT提供了很強(qiáng)的調(diào)整繪制的圖形的功能。比如,調(diào)整坐標(biāo)軸的畫法,點(diǎn)的大小、符號(hào)、顏色,隱藏某些觀測(cè),等等。 給不同觀測(cè)使用不同的符號(hào)和顏色畫點(diǎn)有助于迅速區(qū)分不同類觀測(cè)的特點(diǎn)。比如,SASUSER.IRIS 數(shù)據(jù)集中包含了Fisher著名的Iris數(shù)據(jù),其中有三種不同的鳶尾屬植物的花瓣、花萼長(zhǎng)、寬的測(cè)量數(shù)據(jù),希望從這些測(cè)量數(shù)據(jù)找出區(qū)分這三種植物的指標(biāo)。為了直觀看到不同植物的測(cè)量數(shù)據(jù)的特征,最好用不同顏色畫每一種植物的散點(diǎn)。打開數(shù)據(jù)集后,選定分類變量SPECIES ,調(diào)用“Analyse / Box Plot / Mosaic Plot”菜單來作其馬賽克圖,可以看到此變量的三個(gè)值為Virginica、Versicolor、Setosa。用“Edit | Windows | Tools”菜單可以打開一個(gè)工具窗口,如圖 23。這個(gè)窗口可以改變觀測(cè)符號(hào)的顏色、符號(hào),連線的線型、線寬,可以放大圖形局部。 在打開的馬賽克圖中先選定Virginica,這時(shí)所有類型Virginica的觀測(cè)被選中,按一下工具窗口中的紅色,就給所有這些觀測(cè)規(guī)定了繪圖符號(hào)為紅色。類似指定Virsicolor 為綠色,Setosa為藍(lán)色。作PETALWID(花瓣寬)對(duì)PETALLEN(花瓣長(zhǎng))的散點(diǎn)圖,可以作出三種不同植物用不同顏色繪點(diǎn)的散點(diǎn)圖,見圖 24。 利用一個(gè)變量的不同值來確定觀測(cè)繪點(diǎn)的顏色還可以自動(dòng)進(jìn)行,方法是先選定該變量(如SPECIES ),然后單擊工具窗口的漸變顏色棒,就可以為SPECIES的每一不同值分配一種不同顏色。這一方法不僅適用于SPECIES這樣的名義變量,也適用于數(shù)值型變量。顏色棒的顏色可以調(diào)整,比如要把顏色棒變?yōu)橛杉t到藍(lán),只要把紅色方塊拖到顏色棒左端,把藍(lán)色方塊拖到顏色棒右端。 為了改變繪點(diǎn)符號(hào)的大小,調(diào)用圖形菜單(圖形邊角上的向右三角符號(hào))中的Marker Sizes 菜單可以選擇一個(gè)合適的符號(hào)大小。 除了用不同顏色來區(qū)分不同種類的觀測(cè)外,還可以用不同的符號(hào)來畫不同的觀測(cè)。比如,選定SPECIES為Virginica的觀測(cè)后,單擊工具窗口的菱形圖標(biāo)把此類觀測(cè)的繪點(diǎn)符號(hào)變?yōu)榱庑?。類似指定Virsicolor用三角,Setosa用加號(hào),作的散點(diǎn)圖見圖 24。從圖中可以看出,用加號(hào)繪制的Setosa類和其它兩類差別很大,單靠花瓣的長(zhǎng)、寬就可以把這一類與其它兩類區(qū)分開,但是用菱形繪制的Virginica類和用三角繪制的Virsicolor類則在能大體區(qū)分開的同時(shí)有少數(shù)觀測(cè)混雜在一起,所以單靠花瓣的長(zhǎng)、寬測(cè)量數(shù)據(jù)不能把這兩兩很好地區(qū)分開。 利用一個(gè)分類變量來決定不同的繪點(diǎn)符號(hào)除了上述的對(duì)每一類觀測(cè)分別選定,然后指定繪點(diǎn)符號(hào)的辦法,還可以選定這一分類變量,然后單擊工具欄中繪點(diǎn)符號(hào)下面的多種符號(hào)的長(zhǎng)棒形圖標(biāo),可以自動(dòng)為每一類分配一個(gè)繪點(diǎn)符號(hào)。 不同類觀測(cè)用不同的顏色和符號(hào)來繪點(diǎn)是一種強(qiáng)有力的數(shù)據(jù)探索手段,恰當(dāng)使用可以直觀地發(fā)現(xiàn)不同類型觀測(cè)的區(qū)別。 分布研究 SAS/INSIGHT提供了很強(qiáng)的一維分布研究功能。對(duì)連續(xù)型變量,除了可以畫直方圖、盒形圖外,還可以作各種統(tǒng)計(jì)表,比如矩、分位數(shù)表,可以在直方圖上畫擬合密度曲線,可以檢驗(yàn)分布是否來自正態(tài)、對(duì)數(shù)正態(tài)、指數(shù)、威布爾分布,等等。對(duì)離散型變量,可以畫馬賽克圖、條形圖、頻數(shù)表。 為了研究SASUSER.CLASS中身高的分布,在未選中變量的情況下,啟動(dòng)“Analyze | Distribution(Y) ”菜單,出現(xiàn)圖 25的選擇變量對(duì)話框: 選Y變量為HEIGHT,按OK可以打開一個(gè)新窗口,顯示身高的直方圖、盒形圖、矩統(tǒng)計(jì)量表(圖 26): 分位數(shù)表(圖 27): 各統(tǒng)計(jì)量是SAS中經(jīng)常使用的,我們?cè)诖思右哉f明。設(shè)變量為 ,各觀測(cè)值為 。有時(shí)每個(gè)觀測(cè)還帶一個(gè)加權(quán) ,在沒有指定加權(quán)變量時(shí)認(rèn)為加權(quán)恒為1。 N-觀測(cè)個(gè)數(shù) Sum Wgts-加權(quán)和 Mean-均值 Sum-總和 Std Dev-標(biāo)準(zhǔn)差 Variance-方差 Skewness-偏度 Kurtosis-峰度 USS-加權(quán)平方和 VSS-加權(quán)離差平方和 CV-變異系數(shù) Std Mean-均值的標(biāo)準(zhǔn)誤差 其中加權(quán)的常見情形是當(dāng)一個(gè)觀測(cè)實(shí)際代表完全相同若干個(gè)樣品時(shí),求和、平方和等都要加權(quán)。比如,第i個(gè)觀測(cè)代表 個(gè)樣品時(shí),求變量Y的真正總和就需要用加權(quán)公式 。偏度可以表現(xiàn)變量分布的偏斜,負(fù)值為左偏,正值為右偏。峰度表現(xiàn)變量分布與正態(tài)分布相比是重尾(分布函數(shù)在正負(fù)無窮處衰減緩慢)還是輕尾(分布函數(shù)在正負(fù)無窮處衰減迅速)。標(biāo)準(zhǔn)誤差在統(tǒng)計(jì)中是一個(gè)十分重要的概念,它代表估計(jì)量作為隨機(jī)變量其標(biāo)準(zhǔn)差的估計(jì),這里的Std Mean是均值的標(biāo)準(zhǔn)差的估計(jì),實(shí)際計(jì)算公式是 ,而均值的理論標(biāo)準(zhǔn)差為 。如果估計(jì)量服從正態(tài)分布,通常用估計(jì)量加減兩倍標(biāo)準(zhǔn)誤差作為估計(jì)量的置信區(qū)間。 分位數(shù)表中,Max是最大值,Q3是四分之三分位數(shù),Med是中位數(shù)(反映數(shù)據(jù)中心位置),Q1 是四分之一分位數(shù),Min是最小值,Range是最大值減最小值,Q3-Q1為四分位間距,可以反映數(shù)據(jù)取值分散程度,Mode是眾數(shù),即出現(xiàn)最多的值。 在打開了身高分布的窗口之后主菜單中的Tables、Graphs、Curves菜單被開放。在Tables 菜單中可以選加一些統(tǒng)計(jì)表,比如Frequency Table是頻數(shù)表,為每一觀測(cè)值的頻數(shù)、累計(jì)頻數(shù)、百分比,C.I. for Mean可以計(jì)算均值的各種置信度的置信區(qū)間,Location Tests用于檢驗(yàn)均值為某常數(shù)值(一般是0)的假設(shè),可以用t檢驗(yàn)、符號(hào)檢驗(yàn)、符號(hào)秩檢驗(yàn),Ginis Mean Difference 是變量分布分散程度的一種穩(wěn)健估計(jì),計(jì)算公式為 ,對(duì)正態(tài)分布其期望值為 。Trimmed Mean, (1/2)N計(jì)算去掉最大(1/2)N 個(gè)和最小(1/2)N個(gè)值后的平均值,(1/2)N可以指定為1,2,3或自定值,這是變量中心位置的一種穩(wěn)健估計(jì),但估計(jì)量本身不再服從正態(tài)分布。Trimmed Mean, (1/2)Percent指定去掉最大、最小的百分之多少再計(jì)算均值。Winsorized Mean是把最大的(1/2)N個(gè)替換成由大到小第(1/2)N +1號(hào)值,把最小的(1/2)N個(gè)替換成由小到大第(1/2)N+1個(gè)值,然后計(jì)算的均值,它也是一種穩(wěn)健的均值估計(jì)。 在Graphs菜單中已選了直方圖、盒形圖,還可以作QQ圖,即分位數(shù)-分位數(shù)圖。 圖 28為身高的正態(tài)QQ圖,其中畫出了班上19個(gè)學(xué)生的19個(gè)點(diǎn),每個(gè)點(diǎn)的縱坐標(biāo)為變量值,而橫坐標(biāo)為該值的累計(jì)百分比頻數(shù)對(duì)應(yīng)的標(biāo)準(zhǔn)正態(tài)分位數(shù)。比如,身高最低的一個(gè)為51.3,其累計(jì)百分比頻數(shù)(即51.3的經(jīng)驗(yàn)分布函數(shù)值)為5.3%,即身高小于51.3的占5.3%,而標(biāo)準(zhǔn)正態(tài)分布的0.053分位數(shù)為-1.84570,所以此點(diǎn)的橫坐標(biāo)即-1.84570。如果身高服從正態(tài)分布,QQ圖的散點(diǎn)應(yīng)大致在一條直線附近變動(dòng)。QQ圖的各種不同形狀能夠反映出變量分布的偏斜情況和重、輕尾情況。在QQ圖中也可以選觀測(cè)、刷亮等。畫出QQ圖后選主菜單中的“Curves | QQ Ref Line ”可以為圖中散點(diǎn)畫一條擬合直線。 圖 28的身高的QQ圖顯示身高基本服從正態(tài)分布。如果我們畫SASUSER.GPA中GPA分?jǐn)?shù)的QQ 圖(圖 30): 就可以看到GPA的分布呈現(xiàn)左偏的情況。這是因?yàn)?,在QQ圖的左下端,GPA散點(diǎn)的走向比正態(tài)(圖中直線)偏下,說明GPA分布的左尾比正態(tài)長(zhǎng);在QQ圖的右上端,GPA散點(diǎn)的走向比正態(tài)偏右下,說明GPA分布的右尾比正態(tài)短,即分布左偏。作為驗(yàn)證,可以看一看的圖 29直方圖: 圖 32給出了與正態(tài)相比左偏、右偏、輕尾、重尾的分布的QQ圖的典型模式: 除了可以作正態(tài)分布QQ圖外,還可以作對(duì)數(shù)正態(tài)、指數(shù)分布、威布爾分布的QQ圖。對(duì)數(shù)正態(tài)要指定參數(shù)Sigma,威布爾分布要指定形狀參數(shù)C。 SAS/INSIGHT為研究一維變量分布除畫直方圖外還提供了兩類 分布密度估計(jì):參數(shù)估計(jì)和非參數(shù)估計(jì)。參數(shù)估計(jì)可以擬合正態(tài)、對(duì)數(shù)正態(tài)、指數(shù)、威布爾分布密度。非參數(shù)估計(jì)使用核估計(jì)。 比如,為了估計(jì)身高的正態(tài)密度并把密度曲線疊加在直方圖上,選“Curves | Parametric Density ”,彈出對(duì)話框圖 31: 指定正態(tài)分布且方法為用樣本估計(jì)分布密度參數(shù)。按OK后作出的圖見圖 33: 為了作身高密度的核估計(jì)圖,選“Curves | Kernel Density”,彈出一個(gè)對(duì)話框,可以選三種核函數(shù):正態(tài)核、三角核、二次函數(shù)核,可以自動(dòng)擬合最優(yōu)的密度估計(jì)(方法為AMISE )或者自己指定平滑參數(shù)C。見圖 33。 作了密度曲線圖后在圖形下面將出現(xiàn)顯示密度估計(jì)主要參數(shù)的表格,見圖 34: 單擊其中的曲線標(biāo)志可以加亮顯示圖中的曲線。對(duì)參數(shù)密度估計(jì),給出了估計(jì)的參數(shù),比如正態(tài)的均值、方差;對(duì)核估計(jì),給出了核函數(shù)類型,及平滑參數(shù)值。有些參數(shù)旁邊有一個(gè)滑塊,可以手工選擇參數(shù)的值。比如拖動(dòng)核估計(jì)中的平滑參數(shù),此參數(shù)變小時(shí)估計(jì)的曲線變粗糙,變大時(shí)曲線變光滑。 在“Curves”菜單中還提供了對(duì)樣本經(jīng)驗(yàn)分布函數(shù)的估計(jì)。選“Curves | Empirical CDF ”即繪制樣本經(jīng)驗(yàn)分布函數(shù)。選“Curves | CDF Confidence Band”并選一個(gè)置信限可以在經(jīng)驗(yàn)分布函數(shù)兩邊畫分布函數(shù)的置信限,見圖 35: 用經(jīng)驗(yàn)分布函數(shù)估計(jì)分布函數(shù)相當(dāng)于用直方圖估計(jì)分布密度。分布函數(shù)也可以用參數(shù)分布函數(shù)(如正態(tài)分布)來估計(jì)。選“Curves | Parametric CDF”并選分布類型可以畫出估計(jì)的分布函數(shù)。圖 35中的光滑曲線即用正態(tài)分布估計(jì)身高的分布函數(shù)。 SAS/INSIGHT還可以進(jìn)行分布檢驗(yàn),可以檢驗(yàn)數(shù)據(jù)是否來自某一類分布(參數(shù)未知),或檢驗(yàn)數(shù)據(jù)是否來自某一特定分布(參數(shù)已知)。選“Analyze | Test for Distribution”,并選擇是檢驗(yàn)正態(tài)、對(duì)數(shù)正態(tài)、指數(shù)、威布爾分布中哪

注意事項(xiàng)

本文(個(gè)人整理的一份SAS入門資料)為本站會(huì)員(無***)主動(dòng)上傳,裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng)(點(diǎn)擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因?yàn)榫W(wǎng)速或其他原因下載失敗請(qǐng)重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  sobing.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!