個人整理的一份SAS入門資料



《個人整理的一份SAS入門資料》由會員分享,可在線閱讀,更多相關(guān)《個人整理的一份SAS入門資料(93頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、 初識SAS 啟動 用如下方法可以進(jìn)入SAS系統(tǒng)的窗口運(yùn)行環(huán)境: 在Win95或NT環(huán)境中,從開始菜單的程序文件夾中找到SAS系統(tǒng)文件夾,從中啟動SAS 系統(tǒng)?;蛘呱蒘AS.EXE的快捷方式(把SAS.EXE用鼠標(biāo)右鍵拖到桌面),雙擊SAS.EXE啟動。 在Windows 3.xx環(huán)境中找到SAS系統(tǒng)程序組中的SAS圖標(biāo)雙擊啟動。 SAS AWS(SAS應(yīng)用工作空間) 啟動后,出現(xiàn)如圖 1的SAS運(yùn)行界面,術(shù)語稱為“SAS工作空間(SAS Application WorkSpace )”。它象其它Windows應(yīng)用程序一樣,在一個主窗口內(nèi),包含若干個子窗口,并有菜單條、工
2、具欄、狀態(tài)欄等。 SAS有三個最重要的子窗口:程序窗口(PROGRAM EDITOR)、運(yùn)行記錄窗口(LOG)、輸出窗口(OUTPUT)。 程序窗口的使用類似于Windows中的記事本程序,可以在其中編輯文本文件,主要是編輯SAS 程序。程序可以直接在窗口中鍵入,插入新行用回車,插入點(diǎn)光標(biāo)(閃動的豎線)可以用光標(biāo)鍵(上下左右箭頭、Home、End)移動或用鼠標(biāo)單擊到某一處。按住Shift再按光標(biāo)鍵可以加亮顯示一塊文本,然后用復(fù)制、剪切、粘貼命令(Edit菜單中的Cut、Copy、Paste,或工具欄圖標(biāo))可以復(fù)制或移動加亮顯示的文本。這些編輯操作具體請參考Windows的有關(guān)文檔。 運(yùn)行
3、記錄窗口記錄程序的運(yùn)行情況,運(yùn)行是成功還是出錯,運(yùn)行所用時間,如果出錯,錯在什么地方。運(yùn)行記錄窗口中以紅色顯示的是錯誤信息。 輸出窗口顯示SAS程序的文本型輸出(圖形輸出單獨(dú)有一個GRAPHICS窗口)。輸出分頁顯示。 要把光標(biāo)移動到某一窗口,可以用主菜單中的Window菜單選擇要顯示的窗口。用功能鍵F5 可以切換到程序窗口,F(xiàn)6可以到運(yùn)行記錄窗口,F(xiàn)7可以到輸出窗口。 SAS主窗口標(biāo)題欄下是主菜單。SAS菜單是動態(tài)的,其內(nèi)容隨上下文而不同,即光標(biāo)在不同窗口其菜單也不同。其中,F(xiàn)ile(文件)菜單主要是有關(guān)SAS文件調(diào)入、保存及打印的功能。Edit (編輯)菜單用于窗口的編輯(如清空、復(fù)
4、制、剪切、粘貼、查找、替換)。Locals(局部)菜單與當(dāng)前正在進(jìn)行的操作有關(guān),如果你正在程序窗口中編輯程序,則Locals菜單有提交運(yùn)行、調(diào)回修改等項,如果在運(yùn)行記錄窗口或輸出窗口則Locals菜單項根本不出現(xiàn)。Globals 菜單內(nèi)容比較復(fù)雜,它可以打開被關(guān)閉的程序窗口、運(yùn)行記錄窗口、輸出窗口、圖形窗口,可以進(jìn)入SAS提供的各個獨(dú)立模塊。主菜單下是一個命令條和工具欄菜單。命令條主要是用于與SAS較早版本的兼容性,可以在這里鍵入SAS的顯示管理命令。工具欄圖標(biāo)提供了常見任務(wù)的快捷方式,比如保存、打印、幫助等等。鼠標(biāo)光標(biāo)在某一工具欄圖標(biāo)上停留幾秒可以顯示一個說明。工具欄圖標(biāo)的解釋如下:
5、Submit - 提交編輯窗口中的程序 New - 清空編輯窗口 Open - 打開文件到編輯窗口。用戶指定一個文件調(diào)入到編輯窗口內(nèi)。這個文件從此與編輯窗口相關(guān)聯(lián),以后的存盤操作將自動存入這個文件。 Save - 存盤,保存編輯窗口內(nèi)容,注意如果此窗口已經(jīng)與一個文件相聯(lián)系的話此功能將覆蓋文件的原有內(nèi)容而不提示。 Print - 打印當(dāng)前窗口內(nèi)容 Print preview -打印預(yù)覽。 Cut - 剪切選定文本。 Copy - 復(fù)制選定文本。 Paste - 粘貼。注意這些操作是對Windows 剪貼板進(jìn)行的,可以用來與其它Wind
6、ows應(yīng)用程序交換文本、數(shù)據(jù)等。剪切或復(fù)制到剪貼板的內(nèi)容可以被其它應(yīng)用程序粘貼,其它應(yīng)用程序放到剪貼板的內(nèi)容也可以粘貼到SAS的編輯窗口中。 Undo - 撤銷剛才的編輯操作。 DOS prompt - 臨時進(jìn)入DOS。 Browse - 打開WWW瀏覽器并進(jìn)入SAS公司的主頁 Directories - 進(jìn)入Directory(目錄)窗口,可以瀏覽各SAS數(shù)據(jù)庫的內(nèi)容,可以瀏覽數(shù)據(jù)庫中的數(shù)據(jù)集、SAS目錄的內(nèi)容。 SAS/ASSIST - 啟動SAS的菜單驅(qū)動界面SAS/ASSIST 。 Help - 啟動Windows的幫助系統(tǒng)進(jìn)入SAS 的幫助。
7、 簡單運(yùn)行樣例 假設(shè)我們有一個班學(xué)生的數(shù)學(xué)成績和語文成績,數(shù)學(xué)滿分為100,語文滿分為120,希望計算學(xué)生的平均分?jǐn)?shù)(按百分制)并按此排名,可以在程序窗口輸入此程序: title 95級1班學(xué)生成績排名; data c9501; input name $ 1-10 sex $ math chinese; avg = math*0.5 + chinese/120*100*0.5; cards; 李明 男 92 98 張紅藝 女 89 106 王思明 男 86 90 張聰 男 98 109 劉潁 女 80 110 ;
8、 run; proc print;run; proc sort data=c9501; by descending avg; run; proc print;run; 實際上,輸入這樣包含中文的程序最好辦法不是在SAS程序窗口直接輸入,因為SAS目前對中文輸入的處理還不夠完善,好的辦法是打開一個其它的編輯程序如Windows中的記事本(在Win95 中用開始菜單中的“程序 | 附件 | 記事本”啟動),在記事本中復(fù)制輸入的程序,然后到SAS 系統(tǒng)程序窗口中使用粘貼命令(用Edit菜單的Paste或工具欄上的粘貼圖標(biāo)),把程序復(fù)制到SAS 中。也可以在記事本中把編好的程序存
9、盤,然后在SAS程序窗口用File菜單的Open命令打開保存好的程序文件。 要運(yùn)行此程序,只要用鼠標(biāo)單擊工具欄的提交圖標(biāo) ,或用Locals菜單的Submit命令。運(yùn)行后,運(yùn)行記錄窗口出現(xiàn)如下內(nèi)容: 50 title 95級1班學(xué)生成績排名; 51 data c9501; 52 input name $ 1-10 sex $ math chinese; 53 avg = math*0.5 + chinese/120*100*0.5; 54 cards; NOTE: The data set WORK.C9501 has 5 observati
10、ons and 5 variables. NOTE: The DATA statement used 0.11 seconds. 60 ; 61 run; 62 proc print;run; NOTE: The PROCEDURE PRINT used 0.0 seconds. 63 proc sort data=c9501; 64 by descending avg; 65 run; NOTE: The data set WORK.C9501 has 5 observations and 5 variable
11、s. NOTE: The PROCEDURE SORT used 0.05 seconds. 66 proc print;run; NOTE: The PROCEDURE PRINT used 0.0 seconds. 其中記錄了每段程序的運(yùn)行情況、所用時間、生成數(shù)據(jù)保存情況。如果有錯誤還會用紅色指示錯誤。比如,最后的proc print后面的分號如果丟失,記錄窗口顯示如下錯誤: 67 proc printrun; -------- 181 ERROR 181-322: Procedure name miss
12、pelled. 錯誤說明為過程名錯拼,但實際上是丟了分號導(dǎo)致print和run連成了一個詞。在程序窗口用“Locals | Recall text”菜單或按F4功能鍵可以調(diào)回程序修改。正確運(yùn)行后輸出窗口出現(xiàn)如下結(jié)果: 95級1班學(xué)生成績排名 3 OBS NAME SEX MATH CHINESE AVG 1 李明 男 92 98
13、 86.8333 2 張紅藝 女 89 106 88.6667 3 王思明 男 86 90 80.5000 4 張聰 男 98 109 94.4167 5 劉潁 女 80 110 85.8333 95級1班學(xué)生成績排名
14、 4 OBS NAME SEX MATH CHINESE AVG 1 張聰 男 98 109 94.4167 2 張紅藝 女 89 106 88.6667 3 李明 男 92 98 86.8333 4 劉潁 女
15、 80 110 85.8333 5 王思明 男 86 90 80.5000 這里有兩頁輸出,第一頁是輸入數(shù)據(jù)后用PROC PRINT顯示的數(shù)據(jù)集,第二頁為按平均分排名后的結(jié)果。 從上面的例子程序可以看出SAS程序的一些特點(diǎn)。SAS程序由 語句組成,語句用分號結(jié)束。SAS程序中大小寫一般不區(qū)分(字符串中要區(qū)分大小寫)。SAS程序中的空格、空行一般可以任意放置,這樣我們可以安排適當(dāng)?shù)目s進(jìn)格式使得源程序結(jié)構(gòu)清楚易讀。SAS程序由兩種“步”構(gòu)成,一種叫 數(shù)據(jù)步(data step),一種叫
16、過程步(proc step),分別以DATA語句和PROC語句開始。數(shù)據(jù)步和過程步由若干個語句組成,一般以RUN語句結(jié)束。 SAS基本概念 本節(jié)介紹一些SAS特有的概念,其中最重要的是數(shù)據(jù)集。 SAS數(shù)據(jù)集 SAS數(shù)據(jù)集(SAS Datasets)可以看作由若干行和若干列組成的表格,類似于一個矩陣,但各列可以取不同的類型值,比如整數(shù)值、浮點(diǎn)值、時間值、字符串、貨幣值等等。SAS 數(shù)據(jù)集存放在以特殊格式存放的二進(jìn)制文件中,我們用一個SAS中的邏輯名來使用SAS數(shù)據(jù)集而不需關(guān)心它到底如何存儲在磁盤上。比如,1.1.3的例子生成了一個名為C9501的數(shù)據(jù)集,它的邏輯形式如下表: NAM
17、E SEX MATH CHINESE AVG 李明 男 92 98 86.8333 張紅藝 女 89 106 88.6667 王思明 男 86 90 80.5000 張聰 男 98 109 94.4167 劉潁 女 80 110 85.8333 數(shù)據(jù)集的每一行叫做一個觀測(Observation),每列叫做一個變量(Variable)。SAS數(shù)據(jù)集等價于關(guān)系數(shù)據(jù)庫系統(tǒng)中的一個表,實際上一個SAS數(shù)據(jù)集有時也稱作一張表。在數(shù)據(jù)庫術(shù)語中一個觀測稱作一個記錄,一個變量稱作一個域。在C9501數(shù)據(jù)集中有5個觀測,分別代表5個學(xué)生的情況,而每個
18、學(xué)生有5個數(shù)據(jù),分別為姓名、性別、數(shù)學(xué)成績、語文成績、平均分,所以此數(shù)據(jù)集有5個變量。 從上面看出,數(shù)據(jù)集要有名字,變量要有名字,所以SAS中對 名字(數(shù)據(jù)集名、變量名、數(shù)據(jù)庫名,等等)有約定:SAS名字由英文字母、數(shù)字、下劃線組成,第一個字符必須是字母或下劃線,名字最多用8個字符,大寫字母和小寫字母不區(qū)分。比如,name,abc,aBC,x1,year12,_NULL_等是合法的名字,且abc和aBC是同一個名字,而class-1(不能有減號)、a bit(不能有空格)、serial#(不能有特殊字符)、Documents (超長)等不是合法的名字。 SAS數(shù)據(jù)庫 SAS數(shù)據(jù)集是各種
19、特殊格式的 SAS文件中最重要的一種。另一種重要的SAS文件是 SAS目錄(Catalog),用來保存各種不能表示成行列結(jié)構(gòu)表格形式的數(shù)據(jù),比如系統(tǒng)設(shè)置、圖象、聲音等。多個SAS文件可以放在一起,稱為一個 SAS數(shù)據(jù)庫(Library)。數(shù)據(jù)庫有一個庫名(Libname),其命名遵循上述SAS名字命名原則。在MS DOS/Windows環(huán)境中,一個SAS數(shù)據(jù)庫實際是磁盤上的一個子目錄(特殊情況下一個數(shù)據(jù)庫可以由幾個子目錄組成)。為了把庫名和子目錄聯(lián)系起來,使用LIBNAME語句。比如,我們在C:\Y1995子目錄中保存了幾個SAS數(shù)據(jù)集,可以用如下語句把庫名MYLIB與子目錄C:\Y1995
20、聯(lián)系起來: libname mylib "c:\y1995"; 有三個預(yù)定義的SAS數(shù)據(jù)庫:WORK、SASUSER、SASHELP。其中,WORK數(shù)據(jù)庫叫做 臨時庫,存放在其中的SAS文件叫 臨時文件,這些臨時文件當(dāng)退出SAS系統(tǒng)時會被自動刪除。SASUSER庫保存與用戶個人設(shè)置有關(guān)的文件,它是永久的,即退出SAS時文件不會被刪除。SASHELP庫保存與SAS幫助系統(tǒng)、例子有關(guān)的文件,是永久的。 從上面看出,SAS文件分為 臨時文件和 永久文件:臨時文件在退出SAS系統(tǒng)時自動被刪除,永久文件在退出SAS系統(tǒng)時不自動被刪除。所以,我們把作為中間結(jié)果使用的數(shù)據(jù)集或練習(xí)用的數(shù)據(jù)集作為臨時數(shù)據(jù)
21、集保存,而需要以后再用的數(shù)據(jù)集則可以保存為永久數(shù)據(jù)集。臨時數(shù)據(jù)集和永久數(shù)據(jù)集的區(qū)別是:臨時數(shù)據(jù)集可以用 單水平名,即只有數(shù)據(jù)集名,比如C9501,而永久數(shù)據(jù)集名由兩部分組成,前一部分是它的庫名,后一部分才是數(shù)據(jù)集名,兩部分中間用小數(shù)點(diǎn)連接,比如放在MYLIB庫(即"C:\Y1995" 子目錄)中的數(shù)據(jù)集TEACH必須用MYLIB.TEACH表示。這樣指定的數(shù)據(jù)集名在生成時可以放到由庫名指定的子目錄中,在讀取時可以到指定的子目錄讀取,并且不會被自動刪除。 臨時數(shù)據(jù)集除用單水平名外 ,也可以用庫名為WORK的兩水平名,如WORK.C9501和C9501 是一樣的。 要生成永久數(shù)據(jù)集,只要在指定
22、要生成的數(shù)據(jù)集名時使用兩水平名且?guī)烀延卸x,比如,要把上面的C9501數(shù)據(jù)集在生成時就放到"C:\Y1995"子目錄中,可以用如下語句: libname mylib "c:\y1995"; data mylib.c9501; …… proc sort data=mylib.c9501; …… 這個程序和1.1.3的例子相比只是增加了一個定義庫名的LIBNAME語句,然后在所有用到數(shù)據(jù)集名C9501的地方換成了兩水平名MYLIB.C9501。要注意生成的數(shù)據(jù)集是MYLIB.C9501后面在用到它的時候(在PROC SORT中)也必須使用兩水平名MYLIB.C9501而不能使用單水平
23、名C9501 ,這兩個名字指向的不是同一個SAS文件。 為了顯示現(xiàn)有定義的數(shù)據(jù)庫,只要單擊工具欄的 圖標(biāo),如圖 2。 Libraries窗口顯示了現(xiàn)有定義的所有數(shù)據(jù)庫及其對應(yīng)的子目錄,并在窗口下方顯示了選定的數(shù)據(jù)庫中的SAS文件列表。文件列表第一列是SAS文件名稱,第二列是其類型,DATA代表數(shù)據(jù)集。雙擊某一數(shù)據(jù)集名可以打開此數(shù)據(jù)集到一個數(shù)據(jù)顯示窗口查看。 不需編程的SAS應(yīng)用――SAS/INSIGHT 介紹 SAS的使用方法一般是象1.1.3那樣輸入一個程序,運(yùn)行,修改,最后在輸出窗口得到結(jié)果。隨著圖形界面、用戶友好等程序思想的發(fā)展,SAS也逐漸提供了一些不需要學(xué)習(xí)SAS
24、編程就能進(jìn)行數(shù)據(jù)管理、分析、報表、繪圖的功能,其中做得比較出色的一個是SAS/INSIGHT模塊。SAS/INSIGHT是在基本的SAS系統(tǒng)基礎(chǔ)上添加的一個模塊,提供了數(shù)據(jù)交互輸入、數(shù)據(jù)探索、分布研究、相關(guān)分析、各種圖形等功能。這里我們初步介紹SAS/INSIGHT的使用。 要啟動SAS/INSIGHT,選Globals | Analyze | Interactive data analysis菜單,首先出現(xiàn)圖 3那樣的選擇數(shù)據(jù)集的窗口: 這是SAS/INSIGHT必須先選擇一個要分析、觀察的數(shù)據(jù)集。如果要生成新數(shù)據(jù)集,按New按鈕,如果要打開已有數(shù)據(jù)集,按Open按鈕。圖 4是SA
25、S/INSIGHT運(yùn)行時的樣子。 數(shù)據(jù)窗口 SAS/INSIGHT提供了一個類似于電子表格的數(shù)據(jù)窗口來管理數(shù)據(jù)集。圖 5為顯示了數(shù)據(jù)集SASUSER.CLASS的數(shù)據(jù)窗口: 此數(shù)據(jù)集是一個班19個學(xué)生的一些情況,包括姓名、性別、年齡、身高、體重。我們看到,數(shù)據(jù)窗口標(biāo)題行顯示了打開的數(shù)據(jù)集的名字,標(biāo)題行下左上角有一個向右的小三角,這是數(shù)據(jù)窗口的菜單,見圖 6: 三角下方的19是觀測行數(shù),右方的5 是變量個數(shù)。窗口內(nèi)每行最左邊的方塊是觀測的繪圖標(biāo)記,用于在圖形中標(biāo)記觀測;然后是觀測序號;再往右是各變量的值。數(shù)據(jù)窗口中的各變量用作列標(biāo)題,如圖 5中的NAME、SEX、AGE
26、 、HEIGHT、WEIGHT就是數(shù)據(jù)集SASUSER.CLASS中的五個變量的名字。在每一個變量名的上面有兩個標(biāo)簽,右邊一個代表變量的量測水平,分為區(qū)間變量(Int)和名義變量(Nom)。區(qū)間變量是取連續(xù)值的變量,只能為數(shù)值;名義變量是取離散值的變量,一般為字符型,也可以取數(shù)值。變量名上面左邊的標(biāo)簽代表變量在分析中的缺省用途,比如NAME上面的Label表示此變量的值(學(xué)生姓名)在繪圖中用來標(biāo)記觀測,SEX上面的Group表示此變量(性別)用來分組,等等。 數(shù)據(jù)窗口可以用來建立新數(shù)據(jù)集。在SAS/INSIGHT內(nèi)用“File | New”菜單或在啟動INSIGHT 的窗口(圖 3)按“Ne
27、w”按鈕,將出現(xiàn)一個空的數(shù)據(jù)窗口。這時,可以直接向第一行輸入數(shù)據(jù),比如要輸入 1.1.3 中的C9501數(shù)據(jù)集,就可以在第一行的前四列中分別輸入李明、男、92 、98,這時各列自動取變量名為A、B、C、D,而且量測水平自動定為前兩個字符型是名義變量(Nom),后兩個數(shù)值型是區(qū)間變量(Int)。為了修改變量名和變量的用途,從數(shù)據(jù)窗口的菜單(圖 6)選Define Variables,出現(xiàn)圖 7的定義變量窗口: 在這里可以修改變量名,給變量加標(biāo)簽(Label),可以選擇變量的量測水平,可以規(guī)定變量的用途。變量的標(biāo)簽是對變量的一個可以長達(dá)40個字符的描述,可以用于以后的輸出,可以用漢字。
28、定好變量名等屬性后就可以繼續(xù)輸入其它數(shù)據(jù)行,每輸入一行后回車,直至把全部數(shù)據(jù)輸完。為了使回車時光標(biāo)從前一行尾部進(jìn)到下一行第一格,可以從數(shù)據(jù)窗口菜單(圖 6)中選 “Data Options”,在彈出的對話框中(圖 9): 選擇回車的方向(Direction of Enter)為左下(Down and Left)。為了保存輸入的數(shù)據(jù)集,選“File | Save | Data”菜單,出現(xiàn)圖 8 那樣的輸入數(shù)據(jù)集的窗口: 可以選擇數(shù)據(jù)集放在哪一個數(shù)據(jù)庫,可以輸入一個數(shù)據(jù)集名,把這里的A改成c9501,按OK鈕就可以保存數(shù)據(jù)集。對于比較小的數(shù)據(jù)集(幾個、十幾個變量,幾十個觀測),用S
29、AS/INSIGHT的數(shù)據(jù)窗口可以迅速而直觀地輸入。對于更大量的數(shù)據(jù),一般從其它格式轉(zhuǎn)換而得。 在數(shù)據(jù)窗口中如果需要修改某一個值,只要直接用鼠標(biāo)點(diǎn)到其單元格修改,然后把輸入光標(biāo)離開其所在行就實現(xiàn)了修改。在單元格之間移動可以用鼠標(biāo)單擊、制表鍵、回車、上下光標(biāo)鍵等方法。要保存所作的修改還需要用“File | Save | Data”菜單。 當(dāng)數(shù)據(jù)窗口中變量較多時,可以用滾動條滾動窗口內(nèi)容來查看。如果某個變量比較重要,可以考慮把它放到第一列的位置,這只要先單擊該變量的名字選中它,然后在圖 6的菜單中選Move to First。要把某列移到最后,選中它后用Move to Last菜單。 選中一
30、列只要單擊其變量名。如果要選中多個列,在選中一個后按住Ctrl鍵單擊其它的名字可以添加選中其它變量。選中一個變量后按住Shift單擊另一個變量名可以選中這兩個變量及它們之間的所有變量。選中的多個列也可以用Move to First和Move to Last移動。 要選中一個觀測(行),只要單擊其觀測號(行號)。選多個觀測可以用Ctrl單擊或Shift 單擊的方法。選中的觀測也可以用Move to First和Move to Last移動到最前或最后。 還可以選中某些列同時選中某些行。只要在后續(xù)的選中操作時用添加選中(Shift單擊或Ctrl 單擊)即可。用鼠標(biāo)在數(shù)據(jù)窗口數(shù)值顯示部分拖出一個
31、方框也可以選定一部分?jǐn)?shù)值。 選定了列或者行以后,用“Edit | Delete”菜單可以刪除選定的列或行。 要取消所有選中,只要單擊某一單元格而不是行、列標(biāo)題即可。 下面簡單介紹一下數(shù)據(jù)窗口菜單(圖 6)中各命令: Find Next 在選定了若干個觀測的情況下,把下一個被選定的觀測顯示在窗口第一行的位置。 Move to First 把選定的行或列移到最前。 Move to Last 把選定的行或列移到最后。 Sort 在選定了一列的情況下,把數(shù)據(jù)集按此列從小到大排序;在選定了多列的情況下,按選定的變量次序按這些變量綜合排序,比如在SASUSER.CLASS
32、窗口中先選定SEX 然后用Ctrl單擊附加選定HEIGHT,然后排序,這樣的結(jié)果是把數(shù)據(jù)集先按女、男生排序然后在女生內(nèi)部和男生內(nèi)部分別按身高從小到大排序。如果沒有選定任何列,則彈出一個菜單,詢問按哪些變量排序,比如說對SASUSER.CLASS數(shù)據(jù),可以先點(diǎn)SEX,然后單擊Y按鈕,把性別加入了排序變量中,再選HEIGHT,單擊Y按鈕,把身高作為第二排序變量,再單擊排序變量中的HEIGHT,單擊Asc/Des按鈕(這是要求對身高值要由高到低排序),按OK后數(shù)據(jù)將按性別分組,然后女生、男生內(nèi)部分別按身高由高到低排列。 New Observations 用于快速添加若干個空數(shù)據(jù)行,彈出一個對話
33、框要求輸入添加的觀測數(shù),缺省是100個。添加的空行中字符型數(shù)據(jù)先填空值,數(shù)值型數(shù)據(jù)先填缺失值(用單獨(dú)的小數(shù)點(diǎn)代表)。 New Variables 用于快速添加若干個新變量。 Define Variables 設(shè)定變量的名字、標(biāo)簽、量測水平、缺省分析用途等,見圖 7??梢栽谏尚聰?shù)據(jù)集時定義變量,也可以對已有數(shù)據(jù)集的變量屬性進(jìn)行修改。 Fill Values 用于自動生成一個等差數(shù)列變量。先選定一個數(shù)值型變量,然后用此命令,將彈出一個對話框要求輸入起始值(Value)和增量(Increment),比如起始值填100 ,增量填50,則此變量的在各觀測中的值分別填入為100,150
34、,200,…。 Extract 這是一個很強(qiáng)的功能,它可以把選定的部分行、部分列或者部分行列取出到另一個窗口。比如,在SASUSER.CLASS中先選定所有女生的觀測,再用添加選擇(Shift 或Ctrl單擊)的辦法選定NAME和HEIGHT變量,然后用此命令,可以打開一個SASUSER.CLASS1 數(shù)據(jù)窗口,此數(shù)據(jù)窗口中只有姓名和身高兩列和女生的觀測行。可以用主菜單中的“File | Save | Data ”把此新數(shù)據(jù)集保存為WORK.CLASS1(盡量不用永久數(shù)據(jù)集存放練習(xí)用的數(shù)據(jù)集)。這樣可以由已有數(shù)據(jù)集挑選部分列、部分行組成新數(shù)據(jù)集。 Data Options 本數(shù)據(jù)窗
35、口的一些設(shè)置。彈出對話框如圖 9,可以選擇在數(shù)據(jù)窗口內(nèi)按回車時光標(biāo)是移到下面、左面還是下面最左,按TAB是光標(biāo)是移到下面、右面還是右上。選中“Show Variable Labels”可以用變量的標(biāo)簽作為窗口的列標(biāo)題,這樣有利于理解變量的意義,但無法知道變量的真實名字。前面說過,變量標(biāo)簽允許長達(dá)40個字符,允許用漢字。標(biāo)簽可以在數(shù)據(jù)窗口菜單的Define Variables窗口(圖 7)輸入或修改。如果要用較長的漢字標(biāo)簽,需要適當(dāng)?shù)赜每崭穹珠_標(biāo)簽中的漢字以利于分行顯示標(biāo)簽。 數(shù)據(jù)探索――一維方法 SAS/INSIGHT提供了十分方便的數(shù)據(jù)探索功能。對一維數(shù)據(jù),可以作直方圖、盒形圖、馬賽
36、克圖,對二維數(shù)據(jù),可以作散點(diǎn)圖、曲線圖、散點(diǎn)圖矩陣,對三維數(shù)據(jù)可以作旋轉(zhuǎn)圖(三維散點(diǎn)圖)。在圖上可以選定一些觀測,這些選擇結(jié)果會同時反映在數(shù)據(jù)窗口和其它圖中。 以SASUSER.CLASS數(shù)據(jù)集為例。選定變量HEIGHT,用“Analyze | Histogram/Bar Charts(Y) ”菜單可以打開一個圖形窗口生成身高的分布 直方圖,如圖 10。 直方圖的每一個條形代表了繪圖變量(HEIGHT)在一個區(qū)間的取值情況,比如70到75之間的條形代表身高在70到75英寸的人,條形高度為組頻數(shù),即取值在這一區(qū)間的觀測個數(shù),可以看出這一組有一個學(xué)生。單擊這一條形選中在此范圍的觀測,可以
37、發(fā)現(xiàn)這時數(shù)據(jù)窗口的相應(yīng)觀測也被選定了,被選中的是Philip,身高72英寸。如果雙擊某一條形,比如60到65的條形,就可以在選定相應(yīng)觀測的同時彈出一個檢查觀測窗口,窗口中顯示各被選中的觀測序號,以及其中一個觀測的各變量值。這樣可以很方便地檢查圖中各部分所對應(yīng)的觀測。為取消選定,只要在圖中空白處單擊即可。 作出的圖形有一個方框包圍。如果想改變圖形大小,可以單擊方框使其變粗,然后拖動四個角中的一個,就可以把圖形放大或縮小。甚至還可以把一個角向其對角方向拖動一直拖過對角,這樣可以改變圖形的橫縱軸方向。拖動邊框可以把圖形移動到窗口內(nèi)其它位置。 圖形中提供了一個設(shè)置菜單,可以單擊圖形邊框角上的向
38、右箭頭或在圖形內(nèi)右鍵單擊來打開。菜單內(nèi)容包括Ticks,可以設(shè)置坐標(biāo)軸的具體畫法;Axes用來指定畫不畫坐標(biāo)軸;Observations 用來指定是否畫觀測;Values指定是否標(biāo)出各條形高度值。 對連續(xù)數(shù)據(jù)(Int型)作直方圖可以反映其分布情況,對離散數(shù)據(jù)(Nom型)作直方圖同樣可以反映其分布,即取每一個離散值的比例大小(頻數(shù)分布)。比如,在作了身高的直方圖后,選定變量SEX,對其作直方圖,則結(jié)果打開一個新圖形窗口作出只有兩個條形的條形圖,一個標(biāo)記為F,另一個標(biāo)記為M,高度分別為9和10,即有9個女生,10個男生,男女比例為10 :9。單擊標(biāo)F的條形,可以看到數(shù)據(jù)窗口中所有女生的觀測被選定
39、,另外還可以看到已作的身高的直方圖也發(fā)生了變換,身高的每一個條形都分成了顏色不同的兩部分,其中下面的一部分代表女生。 在用Analyse菜單中的作圖命令作圖時如果沒有選定的變量則彈出一個對話框提問用哪一個變量作圖,如果對身高作圖,只要選HEIGHT然后按Y鈕即可。 盒形圖是另一種表現(xiàn)數(shù)值型變量分布的圖形。比如,要畫身高分布的盒形圖,選定變量HEIGHT然后用“Analyse | Box Plot/Mosaic Plot”可以作出圖 12。 從圖形菜單中選Values 可以標(biāo)出圖中重要數(shù)據(jù)值??梢钥闯?,此盒形圖的橫軸沒有用處,縱軸代表身高的取值范圍。盒形的中間有一條粗線,這是身高分布
40、的中位數(shù)的位置,盒子上邊線是分布的四分之三分位數(shù),下邊線是分布的四分之一分位數(shù),盒子上下邊線包含了分布的中間50%的觀測。盒子的長度叫做分布的四分位間距,其作用類似于標(biāo)準(zhǔn)差,可以反映數(shù)據(jù)分布的分散程度。從盒子邊線向外畫了兩條線叫做觸須線,最長可以延伸到四分位間距的1.5倍,但是如果已經(jīng)到了數(shù)據(jù)的最小值或最大值處就不再延伸。如果觸須線沒有達(dá)到數(shù)據(jù)的極端值,則這些數(shù)據(jù)點(diǎn)用觸須線以外的點(diǎn)來畫出,一般認(rèn)為這樣的點(diǎn)是異常點(diǎn)。從盒形圖可以看出數(shù)據(jù)的偏斜情況,比如我們看到盒子的下半部比上半部長,而且下觸須線比上觸須線長,說明身高分布略左偏。 用盒形圖菜單中的“Means”選項可以在盒形圖上加畫一個菱形,菱
41、形的中間代表分布的平均值,菱形端點(diǎn)到中間距離為兩倍標(biāo)準(zhǔn)差。如果是變量服從正態(tài)分布,菱形上下端點(diǎn)之間應(yīng)該包含大約95%的觀測。平均值和中位數(shù)的比較也能反映變量的偏斜情況,平均值低于中位數(shù)可能左偏。 單擊或雙擊盒形圖的某一部分(盒子上半部或下半部、觸須線、極端值)可以選定觀測。 盒形圖可以方便地比較按某分組變量分組后的分布情況。比如,如果我們想看一看男女的身高分布有何異同,不選任何變量啟動“Analyze | Box Plot/Mosaic Plot”菜單,彈出選擇變量的對話框如圖 13。 選身高為Y變量,選性別為X變量,畫出的圖見圖 14。 圖中有兩個盒形圖,女生一個,男生一
42、個。從圖中看出,男生身高普遍高于女生,且女生身高分布左偏較男生嚴(yán)重。這種并排盒形圖可以十分直觀地比較兩個相關(guān)的分布。作盒形圖時指定多個Y變量也可以作出并排的盒形圖,比如,同時指定身高和體重作為Y變量作盒形圖就可以生成身高和體重的并排的盒形圖。 Analyze菜單的“Box Plot/Mosaic Plot”命令對連續(xù)型變量作盒形圖,對離散型變量將作 馬賽克圖。比如,對性別變量作圖得圖 16。 選“Values”菜單后標(biāo)出了男女的人數(shù)、百分比。馬賽克圖一般不對單個變量作,而是對兩個離散變量來作。比如,先把SASUSER.CLASS 中變量AGE的量測水平由Int改為Nom,然后取消所有
43、變量的選定,啟動“Box Plot/Mosai Plot ”,選SEX為Y變量,選AGE為X變量,作圖如圖 15。 這種圖的好處是直觀顯示了兩個變量每種取值組合的觀測個數(shù)和比例。單擊或雙擊其中一個方塊可以迅速選中一個分組,比如雙擊年齡為11性別為女(F)的方塊可以看到這一組的學(xué)生。 數(shù)據(jù)探索――二維 SAS/INSIGHT可以作曲線圖、散點(diǎn)圖、散點(diǎn)圖矩陣,可以在散點(diǎn)圖中刷亮觀測。 曲線圖有一個取值由小到大的X變量,有一個或幾個Y變量,以X變量為橫坐標(biāo)對Y 變量畫曲線。為了演示曲線圖,打開SASUSER.AIR數(shù)據(jù)集(用“File | Open”菜單)。這個數(shù)據(jù)集是德國某城市一周
44、的每小時記錄的空氣污染情況。變量DATETIME是記錄的日期時間,為特殊SAS格式數(shù)據(jù),變量DAY為星期幾,HOUR為幾點(diǎn)鐘,CO、O3、SO2、NO、DUST分別為一氧化碳、臭氧、二氧化硫、一氧化氮、粉塵的濃度,WIND為風(fēng)速。要畫一氧化碳的曲線圖,可以在未選任何變量的情況下用“Analyse | Line Plot”,彈出變量對話框(圖 17)。 選DATETIME 為X變量,CO為Y變量,可以畫出CO的時間序列曲線圖。 單擊曲線上某一個點(diǎn)可以顯示其觀測序號,雙擊可以檢查觀測。如果想單擊曲線上點(diǎn)時不顯示觀測序號而顯示記錄時間是幾點(diǎn),可以在曲線圖窗口中選主菜單的“Edit |
45、 Window | Renew”,可以再彈出變量窗口,選HOUR 并按Label鈕把時間指定為標(biāo)簽變量。這時在作的CO的曲線圖上單擊一個點(diǎn)顯示的就是記錄時間了??梢钥闯鯟O的高峰一般在早晨8點(diǎn)和晚上17點(diǎn)-21點(diǎn)。用圖形菜單(右鍵或單擊向右三角)中的Observations可以畫出各個數(shù)據(jù)點(diǎn)的符號。 可以在圖上同時畫出多條曲線。比如,想考察風(fēng)速對污染的影響,在圖形窗口中再用主菜單的“Edit | Window | Renew”,把WIND也作為Y變量,畫出的圖就有兩條不同顏色的曲線,單擊外面的CO變量符號和WIND變量符號可以加重顯示對應(yīng)的曲線以區(qū)分這兩條曲線。見圖 18 。圖中被選的點(diǎn)是風(fēng)
46、速的最高值,時間是11點(diǎn)。注意在一條曲線中被選在另一條曲線中也被選。從此圖可以看出風(fēng)速對污染有較明顯的影響,風(fēng)大時污染較輕。 散點(diǎn)圖也有一個X變量和一個Y變量,但不要求X變量有從小到大的次序,畫圖不用連線而是用散點(diǎn)畫出每一對X、Y坐標(biāo)。比如對SASUSER.CLASS,我們希望通過畫圖了解身高和體重的關(guān)系。在數(shù)據(jù)窗口中先選定體重(Y軸變量)再附加選定身高(X軸變量),啟動菜單 “Analyze | Scatter Plot”,就可以生成以體重為縱軸以身高為橫軸的散點(diǎn)圖(見圖 19)。 從圖可以看出體重與身高有明顯的線性相關(guān)關(guān)系。 為了解哪一個點(diǎn)代表哪一個學(xué)生,單擊一個點(diǎn)可以顯示其觀
47、測序號,雙擊可以檢查觀測。為了在單擊時可以顯示學(xué)生名字而不是觀測序號,需要把NAME指定為標(biāo)簽變量。這可以在生成散點(diǎn)圖時先不在數(shù)據(jù)窗口選X、Y變量而是直接啟動“Analyze | Scatter Plot”菜單,彈出變量對話框,在其中選X、Y變量并把NAME指定為Label變量。這時,單擊散點(diǎn)圖中最左下角的那個點(diǎn)可以顯示名字Sandy,單擊最右上角的那個點(diǎn)可以顯示Philip。選多個點(diǎn)可以用附加選中的辦法(Shift或Ctrl單擊)。 為了在散點(diǎn)圖中選定多個點(diǎn),SAS/INSIGHT還提供了一種稱為“ 刷亮(Brushing)”的操作。在圖中拖動鼠標(biāo)光標(biāo)可以拖出一個小長方形,在這個長方形中的
48、點(diǎn)都被選中,稱它為刷子。選中的點(diǎn)在數(shù)據(jù)窗口也被選中,可以在數(shù)據(jù)窗口翻頁查看,或用數(shù)據(jù)窗口的Find Next菜單命令查看,或在數(shù)據(jù)窗口用Move to First菜單命令把選中的點(diǎn)移到最前查看。雙擊長方形(刷子)可以彈出檢查觀測窗口,在那里可以逐個查看選中的觀測內(nèi)容。 拖動刷子的角可以改變其大小。拖動刷子內(nèi)部可以移動它的刷亮位置,使進(jìn)入刷子的點(diǎn)被選中,而離開了刷子的點(diǎn)被取消選中??梢酝瑫r用附加選中(Ctrl單擊)的辦法加選不在刷子內(nèi)的點(diǎn),這些點(diǎn)還可以顯示標(biāo)簽。在拖動刷子時如果同時按住Shift或Ctrl鍵則為附加選定,即進(jìn)入刷子的點(diǎn)被選中而離開刷子的點(diǎn)仍保持被選中。可以按住Shift或Ctr
49、l鍵拖出第二個刷子,這時第一個刷子不再顯示但它刷亮的點(diǎn)仍保持刷亮,移動第二個刷子時如果按住Shift 或Ctrl鍵仍可保持已有選定。為了取消所有選定,只要點(diǎn)擊圖內(nèi)空白處。 散點(diǎn)圖矩陣畫出多個變量兩兩間的散點(diǎn)圖以考察多變量關(guān)系。以SASUSER.CLASS為例,比如說我們想了解年齡、身高、體重間的關(guān)系。先把年齡的量測水平設(shè)為連續(xù)型(Int),在數(shù)據(jù)窗口選定年齡、身高、體重,可以作出圖 20。 我們看到三個變量兩兩組合有三種組合,每種組合有兩個圖形(橫縱軸對換)。散點(diǎn)圖矩陣對角線為變量標(biāo)記和變量取值范圍,該變量是其所在行的縱軸變量,是其所在列的橫軸變量。比如第二行第一列的圖縱軸變量是HE
50、IGHT ,橫軸變量是AGE,為身高對年齡的散點(diǎn)圖。其對稱位置(第一行第二列)是年齡對身高的散點(diǎn)圖,兩者只是把橫縱坐標(biāo)旋轉(zhuǎn)對調(diào)。 散點(diǎn)圖矩陣除了可以同時看到多個散點(diǎn)圖的優(yōu)點(diǎn)外主要是在一個散點(diǎn)圖中被選中的點(diǎn)在其它散點(diǎn)圖和數(shù)據(jù)窗口中也同時被選中。這樣,我們可以在一個圖中選一個極端點(diǎn),看它在其它圖中是否也處于極端位置。在一個散點(diǎn)圖中刷亮的點(diǎn)在其它散點(diǎn)圖中也同時被刷亮,這樣,我們可以觀察,年齡和身高都比較小時,體重是否也比較低。可以移動刷子,同時其它散點(diǎn)圖中被選中的點(diǎn)也在變化。從圖 20可以看出,年齡由小到大變化時身高、體重一般也變大,但同一年齡的學(xué)生的身高、體重差距較大。 SAS/INSIGHT
51、提供了自動移動刷子的功能。在拖動刷子時松開鼠標(biāo)按鈕,類似于“拋出” 刷子,刷子就可以按拋出的方向繼續(xù)移動并反彈。不過現(xiàn)在還較難控制自動移動的速度,有時移動過快。 數(shù)據(jù)探索――三維 SAS/INSIGHT對三維數(shù)據(jù)可以作稱為旋轉(zhuǎn)圖的三維散點(diǎn)圖。比如,要對SASUSER.CLASS 中的學(xué)生年齡、身高、體重作三維散點(diǎn)圖,在數(shù)據(jù)窗口依次選定AGE、HEIGHT、WEIGHT,然后啟動菜單“Analyze | Rotating Plot”,可以生成一個三維散點(diǎn)圖。圖 21是經(jīng)過旋轉(zhuǎn)后的圖形。 這種三維散點(diǎn)圖之所以稱為旋轉(zhuǎn)圖,是因為坐標(biāo)系可以在三維空間繞原點(diǎn)任意旋轉(zhuǎn)。圖形的左側(cè)有一個小工具欄
52、,其中有向上、下、左、右、逆時針、順時針旋轉(zhuǎn)的圖標(biāo),再往下有一個滾動條,用它來規(guī)定自動旋轉(zhuǎn)的速度。左下角是圖形的菜單(向右的三角形)。 為了旋轉(zhuǎn)坐標(biāo)系,單擊左側(cè)的旋轉(zhuǎn)方向圖標(biāo)。按住旋轉(zhuǎn)圖標(biāo)可以連續(xù)旋轉(zhuǎn)。按住Shift或Ctrl 再旋轉(zhuǎn)可以實現(xiàn)自動旋轉(zhuǎn)。當(dāng)鼠標(biāo)光標(biāo)移到圖形的四個角時光標(biāo)形狀變成了手的形狀,單擊可以旋轉(zhuǎn),拖動可以連續(xù)旋轉(zhuǎn),拖動時“拋出”可以自動旋轉(zhuǎn)。自動旋轉(zhuǎn)中可以隨時拖動圖形以改變旋轉(zhuǎn)方向。 旋轉(zhuǎn)圖的菜單(圖 22)中,Ticks用來調(diào)整坐標(biāo)軸刻度,Axes可以選坐標(biāo)軸以數(shù)據(jù)中心點(diǎn)為原點(diǎn)、以左端點(diǎn)為原點(diǎn)、不畫坐標(biāo)軸。Observations指定畫出所有觀測,如果沒有選中此項
53、則只畫被選中的觀測。Rays從原點(diǎn)向每個散點(diǎn)畫射線。Cube在散點(diǎn)四周畫一個長方體盒子。Depth可以使離視點(diǎn)近的點(diǎn)畫得較大,離得遠(yuǎn)的點(diǎn)畫得較小。Fast Draw指定用另一種較快的繪圖方法繪圖。Markers Sizes選擇散點(diǎn)的大小。 圖形的調(diào)整 SAS/INSIGHT提供了很強(qiáng)的調(diào)整繪制的圖形的功能。比如,調(diào)整坐標(biāo)軸的畫法,點(diǎn)的大小、符號、顏色,隱藏某些觀測,等等。 給不同觀測使用不同的符號和顏色畫點(diǎn)有助于迅速區(qū)分不同類觀測的特點(diǎn)。比如,SASUSER.IRIS 數(shù)據(jù)集中包含了Fisher著名的Iris數(shù)據(jù),其中有三種不同的鳶尾屬植物的花瓣、花萼長、寬的測量數(shù)據(jù),希望從這些測量數(shù)
54、據(jù)找出區(qū)分這三種植物的指標(biāo)。為了直觀看到不同植物的測量數(shù)據(jù)的特征,最好用不同顏色畫每一種植物的散點(diǎn)。打開數(shù)據(jù)集后,選定分類變量SPECIES ,調(diào)用“Analyse / Box Plot / Mosaic Plot”菜單來作其馬賽克圖,可以看到此變量的三個值為Virginica、Versicolor、Setosa。用“Edit | Windows | Tools”菜單可以打開一個工具窗口,如圖 23。這個窗口可以改變觀測符號的顏色、符號,連線的線型、線寬,可以放大圖形局部。 在打開的馬賽克圖中先選定Virginica,這時所有類型Virginica的觀測被選中,按一下工具窗口中的紅色,
55、就給所有這些觀測規(guī)定了繪圖符號為紅色。類似指定Virsicolor 為綠色,Setosa為藍(lán)色。作PETALWID(花瓣寬)對PETALLEN(花瓣長)的散點(diǎn)圖,可以作出三種不同植物用不同顏色繪點(diǎn)的散點(diǎn)圖,見圖 24。 利用一個變量的不同值來確定觀測繪點(diǎn)的顏色還可以自動進(jìn)行,方法是先選定該變量(如SPECIES ),然后單擊工具窗口的漸變顏色棒,就可以為SPECIES的每一不同值分配一種不同顏色。這一方法不僅適用于SPECIES這樣的名義變量,也適用于數(shù)值型變量。顏色棒的顏色可以調(diào)整,比如要把顏色棒變?yōu)橛杉t到藍(lán),只要把紅色方塊拖到顏色棒左端,把藍(lán)色方塊拖到顏色棒右端。 為了改變繪點(diǎn)符號的大
56、小,調(diào)用圖形菜單(圖形邊角上的向右三角符號)中的Marker Sizes 菜單可以選擇一個合適的符號大小。 除了用不同顏色來區(qū)分不同種類的觀測外,還可以用不同的符號來畫不同的觀測。比如,選定SPECIES為Virginica的觀測后,單擊工具窗口的菱形圖標(biāo)把此類觀測的繪點(diǎn)符號變?yōu)榱庑巍n愃浦付╒irsicolor用三角,Setosa用加號,作的散點(diǎn)圖見圖 24。從圖中可以看出,用加號繪制的Setosa類和其它兩類差別很大,單靠花瓣的長、寬就可以把這一類與其它兩類區(qū)分開,但是用菱形繪制的Virginica類和用三角繪制的Virsicolor類則在能大體區(qū)分開的同時有少數(shù)觀測混雜在一起,所以單靠
57、花瓣的長、寬測量數(shù)據(jù)不能把這兩兩很好地區(qū)分開。 利用一個分類變量來決定不同的繪點(diǎn)符號除了上述的對每一類觀測分別選定,然后指定繪點(diǎn)符號的辦法,還可以選定這一分類變量,然后單擊工具欄中繪點(diǎn)符號下面的多種符號的長棒形圖標(biāo),可以自動為每一類分配一個繪點(diǎn)符號。 不同類觀測用不同的顏色和符號來繪點(diǎn)是一種強(qiáng)有力的數(shù)據(jù)探索手段,恰當(dāng)使用可以直觀地發(fā)現(xiàn)不同類型觀測的區(qū)別。 分布研究 SAS/INSIGHT提供了很強(qiáng)的一維分布研究功能。對連續(xù)型變量,除了可以畫直方圖、盒形圖外,還可以作各種統(tǒng)計表,比如矩、分位數(shù)表,可以在直方圖上畫擬合密度曲線,可以檢驗分布是否來自正態(tài)、對數(shù)正態(tài)、指數(shù)、威布爾分布,等等。
58、對離散型變量,可以畫馬賽克圖、條形圖、頻數(shù)表。 為了研究SASUSER.CLASS中身高的分布,在未選中變量的情況下,啟動“Analyze | Distribution(Y) ”菜單,出現(xiàn)圖 25的選擇變量對話框: 選Y變量為HEIGHT,按OK可以打開一個新窗口,顯示身高的直方圖、盒形圖、矩統(tǒng)計量表(圖 26): 分位數(shù)表(圖 27): 各統(tǒng)計量是SAS中經(jīng)常使用的,我們在此加以說明。設(shè)變量為 ,各觀測值為 。有時每個觀測還帶一個加權(quán) ,在沒有指定加權(quán)變量時認(rèn)為加權(quán)恒為1。 N-觀測個數(shù) Sum Wgts-加權(quán)和 Mean-均值 Sum-總和
59、 Std Dev-標(biāo)準(zhǔn)差 Variance-方差 Skewness-偏度 Kurtosis-峰度 USS-加權(quán)平方和 VSS-加權(quán)離差平方和 CV-變異系數(shù) Std Mean-均值的標(biāo)準(zhǔn)誤差 其中加權(quán)的常見情形是當(dāng)一個觀測實際代表完全相同若干個樣品時,求和、平方和等都要加權(quán)。比如,第i個觀測代表 個樣品時,求變量Y的真正總和就需要用加權(quán)公式 。偏度可以表現(xiàn)變量分布的偏斜,負(fù)值為左偏,正值為右偏。峰度表現(xiàn)變量分布與正態(tài)分布相比是重尾(分布函數(shù)在正負(fù)無窮處衰減緩慢)還是輕尾(分布函數(shù)在正負(fù)無窮處衰減迅速)。標(biāo)準(zhǔn)誤差在統(tǒng)計中是一個十分重要的概念,它代表
60、估計量作為隨機(jī)變量其標(biāo)準(zhǔn)差的估計,這里的Std Mean是均值的標(biāo)準(zhǔn)差的估計,實際計算公式是 ,而均值的理論標(biāo)準(zhǔn)差為 。如果估計量服從正態(tài)分布,通常用估計量加減兩倍標(biāo)準(zhǔn)誤差作為估計量的置信區(qū)間。 分位數(shù)表中,Max是最大值,Q3是四分之三分位數(shù),Med是中位數(shù)(反映數(shù)據(jù)中心位置),Q1 是四分之一分位數(shù),Min是最小值,Range是最大值減最小值,Q3-Q1為四分位間距,可以反映數(shù)據(jù)取值分散程度,Mode是眾數(shù),即出現(xiàn)最多的值。 在打開了身高分布的窗口之后主菜單中的Tables、Graphs、Curves菜單被開放。在Tables 菜單中可以選加一些統(tǒng)計表,比如Frequency Tabl
61、e是頻數(shù)表,為每一觀測值的頻數(shù)、累計頻數(shù)、百分比,C.I. for Mean可以計算均值的各種置信度的置信區(qū)間,Location Tests用于檢驗均值為某常數(shù)值(一般是0)的假設(shè),可以用t檢驗、符號檢驗、符號秩檢驗,Ginis Mean Difference 是變量分布分散程度的一種穩(wěn)健估計,計算公式為 ,對正態(tài)分布其期望值為 。Trimmed Mean, (1/2)N計算去掉最大(1/2)N 個和最小(1/2)N個值后的平均值,(1/2)N可以指定為1,2,3或自定值,這是變量中心位置的一種穩(wěn)健估計,但估計量本身不再服從正態(tài)分布。Trimmed Mean, (1/2)Percent指定去掉
62、最大、最小的百分之多少再計算均值。Winsorized Mean是把最大的(1/2)N個替換成由大到小第(1/2)N +1號值,把最小的(1/2)N個替換成由小到大第(1/2)N+1個值,然后計算的均值,它也是一種穩(wěn)健的均值估計。 在Graphs菜單中已選了直方圖、盒形圖,還可以作QQ圖,即分位數(shù)-分位數(shù)圖。 圖 28為身高的正態(tài)QQ圖,其中畫出了班上19個學(xué)生的19個點(diǎn),每個點(diǎn)的縱坐標(biāo)為變量值,而橫坐標(biāo)為該值的累計百分比頻數(shù)對應(yīng)的標(biāo)準(zhǔn)正態(tài)分位數(shù)。比如,身高最低的一個為51.3,其累計百分比頻數(shù)(即51.3的經(jīng)驗分布函數(shù)值)為5.3%,即身高小于51.3的占5.3%,而標(biāo)準(zhǔn)正態(tài)分布的
63、0.053分位數(shù)為-1.84570,所以此點(diǎn)的橫坐標(biāo)即-1.84570。如果身高服從正態(tài)分布,QQ圖的散點(diǎn)應(yīng)大致在一條直線附近變動。QQ圖的各種不同形狀能夠反映出變量分布的偏斜情況和重、輕尾情況。在QQ圖中也可以選觀測、刷亮等。畫出QQ圖后選主菜單中的“Curves | QQ Ref Line ”可以為圖中散點(diǎn)畫一條擬合直線。 圖 28的身高的QQ圖顯示身高基本服從正態(tài)分布。如果我們畫SASUSER.GPA中GPA分?jǐn)?shù)的QQ 圖(圖 30): 就可以看到GPA的分布呈現(xiàn)左偏的情況。這是因為,在QQ圖的左下端,GPA散點(diǎn)的走向比正態(tài)(圖中直線)偏下,說明GPA分布的左尾比正態(tài)長;在QQ
64、圖的右上端,GPA散點(diǎn)的走向比正態(tài)偏右下,說明GPA分布的右尾比正態(tài)短,即分布左偏。作為驗證,可以看一看的圖 29直方圖: 圖 32給出了與正態(tài)相比左偏、右偏、輕尾、重尾的分布的QQ圖的典型模式: 除了可以作正態(tài)分布QQ圖外,還可以作對數(shù)正態(tài)、指數(shù)分布、威布爾分布的QQ圖。對數(shù)正態(tài)要指定參數(shù)Sigma,威布爾分布要指定形狀參數(shù)C。 SAS/INSIGHT為研究一維變量分布除畫直方圖外還提供了兩類 分布密度估計:參數(shù)估計和非參數(shù)估計。參數(shù)估計可以擬合正態(tài)、對數(shù)正態(tài)、指數(shù)、威布爾分布密度。非參數(shù)估計使用核估計。 比如,為了估計身高的正態(tài)密度并把密度曲線疊加在直方圖上,選“Curve
65、s | Parametric Density ”,彈出對話框圖 31: 指定正態(tài)分布且方法為用樣本估計分布密度參數(shù)。按OK后作出的圖見圖 33: 為了作身高密度的核估計圖,選“Curves | Kernel Density”,彈出一個對話框,可以選三種核函數(shù):正態(tài)核、三角核、二次函數(shù)核,可以自動擬合最優(yōu)的密度估計(方法為AMISE )或者自己指定平滑參數(shù)C。見圖 33。 作了密度曲線圖后在圖形下面將出現(xiàn)顯示密度估計主要參數(shù)的表格,見圖 34: 單擊其中的曲線標(biāo)志可以加亮顯示圖中的曲線。對參數(shù)密度估計,給出了估計的參數(shù),比如正態(tài)的均值、方差;對核估計,給出了核函數(shù)類型,及
66、平滑參數(shù)值。有些參數(shù)旁邊有一個滑塊,可以手工選擇參數(shù)的值。比如拖動核估計中的平滑參數(shù),此參數(shù)變小時估計的曲線變粗糙,變大時曲線變光滑。 在“Curves”菜單中還提供了對樣本經(jīng)驗分布函數(shù)的估計。選“Curves | Empirical CDF ”即繪制樣本經(jīng)驗分布函數(shù)。選“Curves | CDF Confidence Band”并選一個置信限可以在經(jīng)驗分布函數(shù)兩邊畫分布函數(shù)的置信限,見圖 35: 用經(jīng)驗分布函數(shù)估計分布函數(shù)相當(dāng)于用直方圖估計分布密度。分布函數(shù)也可以用參數(shù)分布函數(shù)(如正態(tài)分布)來估計。選“Curves | Parametric CDF”并選分布類型可以畫出估計的分布函數(shù)。圖 35中的光滑曲線即用正態(tài)分布估計身高的分布函數(shù)。 SAS/INSIGHT還可以進(jìn)行分布檢驗,可以檢驗數(shù)據(jù)是否來自某一類分布(參數(shù)未知),或檢驗數(shù)據(jù)是否來自某一特定分布(參數(shù)已知)。選“Analyze | Test for Distribution”,并選擇是檢驗正態(tài)、對數(shù)正態(tài)、指數(shù)、威布爾分布中哪
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高考政治一輪復(fù)習(xí):統(tǒng)編版選擇性必修1-3【共3冊重點(diǎn)知識點(diǎn)匯總】
- 2025年高考政治一輪復(fù)習(xí):七冊教材重點(diǎn)考點(diǎn)匯總
- 2025年高考生物一輪復(fù)習(xí):高中生物必修+選必修5冊教材重點(diǎn)知識點(diǎn)匯總
- 2025政府工作報告要點(diǎn)速覽發(fā)展總體要求和政策取向
- 《哪吒2》與DEEPSEEK年輕力量的崛起助力中國突破重圍
- 建設(shè)金融強(qiáng)國做好金融五篇大文章的指導(dǎo)意見
- 落實高質(zhì)量發(fā)展要求如期完成既定目標(biāo)任務(wù)更新理念科學(xué)統(tǒng)籌切實增強(qiáng)規(guī)劃執(zhí)行的系統(tǒng)性整體性協(xié)同性
- 如何成為一名暖護(hù)暖護(hù)的概念與職責(zé)
- 藥品儲存與養(yǎng)護(hù)醫(yī)療護(hù)理藥品儲存藥品養(yǎng)護(hù)藥品常識
- 手術(shù)室職業(yè)暴露與防護(hù)診療護(hù)理等過程中被患者血液體液等污染自身皮膚或黏膜導(dǎo)致的感染
- XX企業(yè)中層管理者領(lǐng)導(dǎo)力提升培訓(xùn)課程
- 醫(yī)院新員工入職培訓(xùn)醫(yī)院新員工必備主要職業(yè)意識醫(yī)院新員工必備工作觀
- 人工智能技術(shù)介紹人工智能DeepSeek人工智能的未來展望與發(fā)展
- 養(yǎng)娃要有松弛感家庭教育讓孩子在具有松弛感的家庭里慢慢成長
- 醫(yī)院新員工入職培訓(xùn)醫(yī)院新員工必備主要職業(yè)意識