國家教育研究院電子報 / 新移民專案之樣本抽樣方式與加權

新移民專案之樣本抽樣方式與加權

| 王涵宇

【文 / 測驗及評量研究中心專案助理王涵宇】

新移民專案在抽樣方面採用採用了分層叢級抽樣，先將全國22縣市依地理位置分成北中南東四區，因考量經費與操作困難度等因素，先將四年級新移民總人數0-4人與六年級0-3人的學校從母群中排除，各區內依各校四年級與六年級總新移民人數，將學校分成大中小校，大校新移民總人數大於30人，中校四年級新移民總人數範圍為16-29，六年級為15-29，小校四年級人數範圍為5-15，六年級為4-14。抽樣時，各層人數依比例的機率抽樣(probabilities proportional to size, PPS)抽取學校，小校與中校一旦被抽到，代表該年段的所有新移民都被抽到，而被抽到的大校需再從其總新移民人數中隨機抽取30人。

當抽取學校時，不單純使用隨機抽樣而使用PPS抽樣是考慮到兩個方面。第一是樣本代表性，每個學校規模裡（大、中、小校），新移民總學生數量少的學校都比新移民總學生數量多的學校多，不論在四或六年級，例如：在小校裡，新移民人數6人的學校就比新移民人數14人的學校多，所以當使用隨機抽樣時，學生數量少的學校被抽到的機率會比較高，這樣，其樣本回推母群的廣度就不夠，導致其樣本代表性受到質疑。第二是經費問題，如使用隨機抽樣所抽到的學校數會比用PPS抽到的學校數多很多，因為抽到學生數量少的學校較多導致所需支付給所有學校的試務輔助費增高。根據上述的因素，才決定採取PPS抽樣。PPS是將學校依照其該年段新移民學生總人數從高排到低，撰寫程式使用matlab抽取樣本學校，確保其抽樣符合研究設計且回推母群的比例和抽樣相同。

當施測完畢，得到各個樣本的資料且data clean後，在考慮要使用甚麼方法去分析前，需先將這些樣本加權回推至母群，才能開始後續的分析，而其加權的方式就是根據每個研究的抽樣方法。

每間學校被抽到的機率=Ps，學校裡抽中某學生的機率= Psi，加權公式（weight）=1/ Ps* Psi新移民專案新北市立A國小為例

抽樣：新北市立A國小（北區小校）：總新移民學生人數7人，北區小校總共抽了2710人，共38間學校。

加權：Ps=7/2710*38，因為用PPS來抽樣，就是依照人數多寡排列使抽樣機率相同，在和抽到的學校數相乘，就等於這間學校被抽到的機率。Psi=7/7，只要抽到小校和中校，則這間學校的該年段新移民子女都被抽到。
weight=1/（7/2710*38）*（7/7）=10.18797

這裡的weight代表了A學校被抽樣到的一位學生，而這間學校總共抽了7人，則10.18797*7=71.31579，代表此學校的樣本7人可以回推且代表母群約71人，每間學校都是用這個方法算出來，最後所有的weight加總起來就應該要接近當初所抽樣的母群數目。

假如A學校有一人缺考，只剩下六位學生，其意義等於從這七位學生中抽出六位為樣本，則加權公式為

weight=1/〔（7/2710*38）*（6/7）〕=11.88596

這六位學生的加權數更高，因為要幫缺考的那位學生代表更多的人。

這是研究裡兩個很重要的步驟，一旦抽樣方法有所偏頗，其加權回去的資料就絕對會是偏頗的資料，很重要的一點是加權回推的方式一定是依照抽樣的方式和比率，如果這兩個步驟搞錯，就算回收的樣本資料再多，回推的母群就不具這次研究的代表性，結果也不能用來解釋研究目的。抽樣和加權只是龐大研究過程裡的兩個小步驟，但如不嚴格對待，只會使整個研究喪失意義。