نمونه‌گيري آماري و مشكلات آن

توماس مایر
مترجم: جعفر خیرخواهان
بيشتر داده‌هايي كه اقتصاددانان استفاده مي‌كنند از راه نمونه‌گيري به دست آمده است. تنها هر از گاهي پيش مي‌آيد كه داده‌هاي در اختيار ما از آنچه آماردانان با قلمبه‌نويسي «جامعه يا جهان» مي‌نامند به دست آمده باشد؛

يعني حالتی که همه موارد مرتبط را در اختیار داريم. يك دليل نمونه‌گيري، پرهزينه بودن سرشماری و جمع‌آوري تمام داده‌ها است، به‌طوري كه سعي مي‌شود با تعداد تا جاي ممكن كمتر مشاهداتی كه منطقا پذيرفتنی است كارمان را راه بیندازیم. دليل ديگر اين است كه وقتي بيشتر تئوري‌ها را آزمون مي‌كنيم، چاره‌اي نخواهيم داشت كه نمونه‌گيري كنيم چون كه بيشتر تئوري‌ها به صورت عبارات كلي بيان مي‌شوند، از قبيل «وقتي نرخ رشد عرضه پول افزايش چشمگيري مي‌يابد، نرخ تورم بالا مي‌رود». چنین عباراتي قصد دارند براي دامنه گسترده‌اي از شرايط گذشته، حال و آينده به‌كار روند.
اين فراگير بودن نمونه‌گیری، دو مساله مهم را مطرح مي‌سازد كه بايد مورد توجه قرار گيرد. نخست، آيا نمونه به صورتي استخراج شده است كه با احتمال بالايي آن را نماينده و شاخص جامعه و جهان سازد و دوم اينكه پرسش‌هايي كه در ادامه مي‌آيد نيازمند بحثی انتزاعي‌تر از آنچه تاكنون بحث شده است، مي‌باشد.

1- انتخاب نمونه فراگير
نمونه فراگير به نمونه‌ای گفته می‌شود که ويژگي‌هاي مورد علاقه ما از جامعه مدنظر را دارا باشد. براي نمونه اگر مي‌خواهيم نسبت مردمان حومه‌نشينی را كه در شنبه شب به سينما مي‌روند برآورد كنيم، با ايستادن در جلوي محوطه پارك خودروي يك سينما در شنبه شب و پرسش از رهگذران كه آيا شنبه شب‌ها به سينما مي‌رويد نمونه خود را انتخاب نمي‌كنيم، اما انتخاب نام‌هاي اول هر صفحه كتاب راهنماي تلفن، نمونه به حد كافي تصادفي به ما خواهد داد؛ به شرطي كه در شنبه شب به آنها تلفن نكنيم. كساني كه به جزئيات توجه دارند شايد با اين نمونه‌گیری نيز مخالفت كنند كه كاملا تصادفي نيست چون مردمي كه غالبا شنبه شب‌ها به سينما مي‌روند احتمال دارد كمتر در خانه باشند حتي وقتي در ساير زمان‌ها به آنها تلفن مي‌كنيد.
وقتي اقتصاددان‌ها با داده‌هاي حاضر و آماده كار مي‌كنند كه اغلب اوقات همين‌طور است، نمونه‌ها كاملا تصادفي نيست، اما نتايج نبايد خيلي غيرواقعي باشد و حتي وقتي اختلال زياد باشد، نمونه غيرفراگير- كه معمولا «نمونه با سوگيري» ناميده مي‌شود- برخي اوقات هنوز هم اطلاعات مفيدي ارائه مي‌كند. فرض كنيد نمونه ما در جهت عکس تئوري‌ای كه آزمون مي‌كنيم سوگيري دارد. اگر با اين وجود، تئوري ما هنوز سربلند از آزمون بيرون آيد، اين آزمون تئوري را بيشتر از يك آزمون كه سوگيري ندارد تقويت مي‌كند. با همه اينها، اين پرسش كه آيا نمونه‌گيري سوگیری جدی دارد و اگر اين‌طور است در كدام جهت، نيازمند توجه و دقت است.

2- مراقب نمونه‌هاي نامناسب باشيد
سوگيري به معناي غيرفراگير بودن نمونه، تنها چيزي نيست كه نمونه را نادرست مي‌سازد. مشکل ديگر اين است كه احتمال دارد نمونه ارتباط نزديك و كافي با آنچه نويسنده و پژوهشگر ادعا مي‌كند نداشته باشد. يك مثال خوب در اين زمينه، استدلالي است كه فدرال رزرو بايد نرخ تورم را پايين و مثلا زير 3 درصد نگه دارد چون كه داده‌ها نشان مي‌دهد تورم رشد اقتصاد را پايين مي‌آورد. اگر نمونه‌اي از كشورها با نرخ‌هاي تورم بسيار گوناگون را انتخاب كنيم متوجه مي‌شويم كه با فرض ثبات ساير شرايط، رابطه منفي بين نرخ تورم و رشد اقتصادي وجود دارد، اما اين رابطه منفي تماما به خاطر وجود كشورهايي است كه نرخ تورم بالا دارند؛ بنابراين استدلالي عليه مثلا نرخ تورم 2 درصدي ارائه نمي‌كند. (نمي‌خواهيم منكر این شويم كه تورم حتي پايين هم برخي اثرات بد دارد، اما اين توجيهي براي سوء‌استفاده از آمار نمي‌باشد.)

پس از انتشار كتاب «منحني زنگي شكل» توسط ريچارد هرنستين و چارلز ماري، بحث زيادي در اين‌باره وجود داشته است كه آيا تفاوت در ميانگين نمرات ضريب هوشي سياه‌پوستان و سفيدپوست‌ها آن‌طور كه كتاب آنها ادعا مي‌كند تا حدودي به علت عوامل ژنتيكي بوده است. (واقعا امكان جدا كردن دقيق عوامل محيطي از عوامل ژنتيكي وجود ندارد، اما فرض كنيم امكانش هست.) يك استدلال اين بوده است كه درون جامعه كلي، تفاوت‌هاي محيطي در بين افراد، x امتياز در يك آزمون ضريب هوشي به حساب مي‌آيد، به طوري كه اگر شكاف سفيدها- سياهان مثلا x2 باشد، پس عوامل ژنتيكي بايد نصف دلیل آن تفاوت به حساب آيند. در اين جا خطایی وجود دارد كه اگر به طور متوسط تفاوت در عوامل محيطي بين سياهان و سفيدان بزرگ‌تر از ميانگين تفاوت در عوامل محيطي در كل جامعه باشد كه چنين انتظاري بسيار قابل تامل است، پس اين انتظار مي‌رود كه تفاوت عوامل محيطي، بيش از x امتياز در تفاوت ميانگين نمرات ضريب هوشي سياهان- سفيدها نقش داشته باشد. به عبارت ديگر، تفاوت عوامل محيطي در بين جامعه كلي، نمونه نادرستي است تا تفاوت بين سياه و سفيد بر آن اساس بحث شود.

3- مطالعه رگرسيوني: بنا نهادن سوگيري در نمونه
نوع متفاوت دیگری از دام‌های موجود در استدلال کردن بر اساس آنچه نمونه نشان مي‌دهد که به مطالعه رگرسيوني معروف است، نيازمند توجه بيشتری است. چون حالت نامحسوس و پنهاني داشته و به سختي رديابي مي‌شود. پس به این منظور به هشت مثال زیر نگاه مي‌كنيم. نمونه كلاسيكی این خطا را كه نام مطالعه هم از آن گرفته شده است، متخصص بزرگ ژنتيك سر فرانسيس گالتون (1833 تا 1911) مرتكب شد. او نمونه‌اي از مردان با دستاوردهاي علمی عالی را انتخاب كرد و متوجه شد كه به طور ميانگين، پسرهاي آنها دستاوردهاي علمي كمتري نسبت به پدران خود داشتند؛ آنها به سمت ميانگين جامعه برگشت كرده بودند (كه معناي رگرسيون هم همین است)، او از چنين يافته‌اي، نتيجه بدبينانه‌اي گرفت كه توانايي علمي از نسلي به نسل ديگر در حال كاهش است. او اشتباه مي‌كرد. چرا؟ خب، چون تمام پدران این فرزندان، افرادی با دستاوردهاي درخشان بودند و پسران آنها نهايت زوري كه مي‌توانستند بزنند- يعني اگر همه آنها شبيه پدرانشان افراد با دستاوردهاي عالي مي‌شدند- باعث مي‌شدند تا توانايي علمي از نسلي به نسل ديگر ثابت به نظر برسد و حتي اگر فقط چند تا از آنها موفقيت علمي كسب نكرده باشند پس از آزمون گالتون لزوما نشان خواهد داد كه توانايي علمي در حال كاهش است؛ اما اگر گالتون به جاي نگاه به پسران به پدران مردان با دستاوردهاي عالي نگاه كرده بود- كه برخي از آن پدران اصلا آدم‌هاي موفقي نبودند- پس او درمي‌يافت كه توانايي علمی از نسلي به نسل ديگر در حال افزايش بوده است، چون همه پسران متعلق به نسل دوم، افراد با دستاوردهاي عالي بودند که در غيراين‌صورت آنها در نمونه مورد بررسي گنجانده نمي‌شدند.
فرض كنيد يك بررسي نشان مي‌دهد برخي صنايع آمریکا كه بيست سال پيش كاملا رقابتي بودند از آن زمان به بعد كمتر رقابتي شدند و از اين يافته نتيجه مي‌گيرد كه رقابت در اقتصاد آمريكا كاهش يافته است. اين نيز اشتباه است؛ چون اگر بررسي به يك نمونه از صنايع نگاه كرده بود كه بيست سال پيش انحصاري بودند نتيجه‌اي كه مي‌گرفت كاملا عكس نتيجه بالا بود. برخي از آنها در اين بيست سال رقابتي‌تر مي‌شدند؛ به طوري كه نتيجه گرفته مي‌شد رقابت افزايش يافته است.
فرض كنيد يك منطقه آموزش و پرورش، روشی جديد برای آموزش روخواني را بررسي مي‌كند. براي ارزيابي اين روش، تمام دانش‌آموزاني كه كمترين نمرات خواندن را گرفتند (مثلا 25 درصد از كل دانش‌آموزان) انتخاب مي‌شوند و روش جديد خواندن روي آنها امتحان مي‌شود و معلوم مي‌گردد در خواندن پيشرفت داشتند. پس اداره آموزش و پرورش از روش جديد استقبال مي‌كند. سال بعد ميانگين نمرات خواندن تمام دانش‌آموزان افت مي‌كند. چگونه اين را توضيح دهيم؟ نمونه دانش‌آموزاني كه روش جديد روي آنها امتحان شد تماما كساني را شامل مي‌شدند كه با روش قديم خواندن چيزي ياد نمي‌گرفتند و توجهي به بقيه دانش‌آموزانی كه روش قديم خواندن برايشان مناسب‌تر از روش جديد بود، نشده بود.
بررسي‌هاي بسياري وجود دارد كه عملكرد صندوق‌هاي سرمايه‌گذاري مشترک را با آنچه كه سرمايه‌گذاران به دست مي‌آورند اگر كه فقط يك نمونه فراگیر از سهام را مي‌خريدند و به آنها تكيه مي‌كردند مقايسه مي‌كنند. يكي از دلايلي كه چرا صندوق‌هاي سرمايه‌گذاري مشترک حرفه‌اي عملكردي پايين‌تر از كل بازار و بنابراين از يك نمونه سهام تصادفي انتخاب شده داشته‌اند، به اين برمي‌گردد كه بازارهاي مالي تقريبا كارآ هستند و نيز چون صندوق‌هاي سرمايه‌گذاري مشترک، از سهامداران خود حق‌الزحمه‌اي بابت خدمات‌شان مي‌گيرند كه چندان هم كم نيست. برخي از بررسي‌هاي اوليه آنچه را طبيعي هست انجام دادند: آنها نمونه‌اي فراگیر از فهرست صندوق‌هاي سرمايه‌گذاري مشترک در حال حاضر موجود انتخاب كردند؛ اما چنين كاري يك سوگيري ايجاد كرد كه «سوگيري بقا» ناميده مي‌شود؛ چون صندوق‌هاي سرمايه‌گذاري مشترک كه عملكرد بدي داشتند احتمال بيشتري دارد كه نسبت به صندوق‌هاي سرمايه‌گذاري موفق‌تر ناپديد شده باشند. آنچه آنها بايد انجام مي‌دادند انتخاب يك نمونه از صندوق‌هاي سرمايه‌گذاري مشترک است كه در آغاز دوره تحت پوشش وجود داشته‌اند.
فرض مي‌كنيم نمونه‌اي فراگير از كساني كه در حال حاضر بيكار هستند انتخاب كرديد و از آنها مي‌پرسيد چه مدت بيكار بوده‌اند. از پاسخ‌هاي آنها، نتيجه مي‌گيريد كه ميانگين دوره بيكاري، مثلا 6 ماه است. اين كارنادرست است. شخصي كه به مدت مثلا 12 ماه بيكار بوده است 12 برابر احتمال بيشتري دارد كه در ماه خاصي كه اتفاقا شما نظرسنجي كرديد بيكار باشد نسبت به كسي كه فقط يك ماه بيكار بوده است؛ بنابراين 12 برابر احتمال بيشتري دارد تا وي در نمونه شما شامل شده باشد؛ به طوري كه تخمين به دست آمده از ميانگين طول دوره بيكاري، سوگيري به سمت بالا دارد.اينجا يك مثال شخصي آوردم. بسياري سال پيش، گالري ملي در واشنگتن پر ازدحام بود و من از سروصداي مردمي كه با هم صحبت مي‌كردند، ناراحت شده بودم. با شنيدن حرف‌هاي چند نفر كه به آلماني صحبت مي‌كردند من فكر كردم: «آلمانی‌ها در موزه‌ها خيلي حرف مي‌زنند.» اين اشتباه بود. در آنجا شايد بسياري آلمان‌هاي ساكت وجود داشتند كه من آنها را نمي‌شناختم.
سرانجام، در فرهنگ عامه اين‌طور پذيرفته شده است كه اگر چيزي براي شما خيلي خوب شروع شده است و درباره آن به ساير مردم چیزی بگوييد بدون اين‌كه «بزنم به تخته» بگويند در دور بعدي نتیجه بدتر خواهد شد. تجربه پشت اين تصور چيست؟ یک مثال برای بهتر شدن وضع شما را شير آمدن در انداختن سكه فرض كنيم و اينكه پنج بار پشت سر هم شير آورده‌ايد.50 درصد احتمال هست كه در دور بعدي انداختن سكه، خوش‌شانسي شما پايان يابد. از آنجا كه احتمال مي‌رود تا پس از اينكه چند بار شير آورديد خوش‌شانسي خود را به كسي يادآوري نخواهيد كرد، تعجبي ندارد كه پس از اينكه درباره آن با ديگران صحبت كرديد خوش‌شانسي شما پايان يابد. نمونه موارد و حالت‌هايي كه اوضاع بد و خراب مي‌شود پس از اينكه درباره آن با ديگران صحبت كرديد نمونه‌ای فراگير از همه موارد نيست؛ بلكه يك نمونه از مواردي است كه شما در ابتدا خوش‌شانس بوده‌ايد و در ماهيت خوش‌شانسی است كه نمي‌توان انتظار داشت، همين‌طور ادامه يابد.
4- اندازه نمونه و همزماني
فرض مي‌كنيم كه از دام‌هاي مغالطه رگرسيوني گريخته‌ايد و نمونه شما حالت فراگيري دارد، اما هنوز هم بايد نگران اين باشيد كه نمونه‌تان به حدكافي بزرگ است یا خیر. اشتباه رايج در بحث‌هاي علمي علم اقتصاد اين است كه از نمونه بسيار كوچكي استفاده مي‌شود؛ ما ميل به اين داريم كه جاي اندكي براي همزماني پديده‌ها در نظر بگيريم. شايد كه اين از آرزوي ما براي ديدن جهان به صورت مكاني قابل پيش‌بيني ناشي مي‌شود- و اين واقعيت را نيز تبيين مي‌كند كه چرا ستاره‌شناسي هنوز در كنار علوم شكوفا مي‌شود- و تا حدي از ناتواني ما براي ملاحظه تعداد زيادي از مواردی است كه امكان وقوع همزماني یک پديده وجود داشته است، اما واقع نشده است. اگر شانس رخ دادن چيزي 1 در 100 هزار باشد پس تعجب نكنيد وقتي كه آن يك بار در هر 100 هزار بار رخ دهد و همه ما هزاران رویداد را هر هفته تجربه مي‌كنيم. به نظر مي‌رسد سقوط سه هواپيما در يك فرودگاه در عرض يك هفته نمي‌تواند تصادفي باشد، اما در يك دوره نمونه 20 ساله، 7300 روز داريم و تعداد زيادي فرودگاه كه در هر روز پروازهاي زيادي دارند؛ به طوري كه وقتي يك بار در هر 20 سال درباره رخ دادن چنين رويدادي مي‌شنويد به دنبال يك «علت عميق» نباشيد. البته منظور اين نيست كه نبايد به دنبال يك عامل مشترك بگرديد، اما مي‌خواهيم بگوييم خيلي پافشاري نكنيد كه بايد حتما يك عامل مشترك وجود داشته باشد.
يك تمرين در اين ارتباط آورده‌ايم: به نمودار دقت كنيد و ببينيد آيا مي‌توان الگویی پيدا كرد يا متغير مستقل مثلا y وجود داشته باشد كه باعث شده است چنين نموداري رسم شود. اگر نتوانستيد نااميد نشويد. آنچه که این نمودار نشان مي‌دهد يك توالي از اعداد مربوط به جدول اعداد تصادفي است (نگوييد كه من كلك زدم و آنقدر اعداد تصادفي مختلف را امتحان كردم تا به الگویي مثل اين رسيدم. خير، اين داده‌ها تنها مجموعه اعداد تصادفي بود كه من امتحان كردم.) برخي سرمايه‌گذاران پول‌های زيادي را به هدر می‌دهند چون كه فكر مي‌كنند الگوهاي خاصي را در قيمت سهام ديده‌اند. بله، در گذشته، هر بار رويداد x رخ داد، بازار سهام بالا مي‌رفت، اما با توجه به هزاران مورد x بالقوه كه وجود داشت، تعجب‌آور خواهد بود اگر در گذشته يك يا چند تا از آنها همبستگي به صورت كاملا تصادفي با قيمت سهام نداشته باشند و بنابراين هيچ گونه راهنمايي براي آنچه در آينده اتفاق خواهد افتاد، نخواهند بود.

 



5- خطاي نمونه‌گيري، فاصله اطمينان و معنادار بودن
دقيقا همان طور كه با انداختن همزمان صد سكه، انتظار نداريم دقيقا پنجاه تای آن شير بیاید، پس نبايد انتظار داشت كه ميانگين نمونه دقيقا برابر با ميانگين جامعه باشد. اين تفاوت و تفاوت‌هاي مشابه بين جامعه و نمونه آن چيزي است كه اقتصاددانان و آماردان‌ها منظورشان است وقتي كه درباره خطاي نمونه‌گيري صحبت مي‌كنند: يك خطاي اجتناب‌ناپذير، نه خطاي انساني.
ما نمي‌توانيم مطمئن باشيم اين خطا چقدر بزرگ است، اما كاري كه مي‌توانيم بكنيم تخمين اين احتمال است كه بزرگتر از يك عدد معين نباشد. به همين خاطر است در نظرسنجي‌ها از افكار عمومي پس از اينكه ميزان تاييد مردمی رييس‌جمهور را بر اساس ميانگين نمونه اعلام می‌کند مي‌گويد كه اين رقم در يك دامنه مثلا منها يا به علاوه 3 درصد دقيق است. چنين دامنه 6 درصدي در اطراف ميانگين را «فاصله اطمينان» مي‌نامند.اين فاصله اطمينان بستگي به چه چيزي دارد و چگونه محاسبه مي‌شود؟ يكی از عوامل دخیل، اندازه نمونه است. فرض مي‌كنيم كه شما ميانگين جامعه را از يك نمونه فقط 10 مشاهده‌اي تخمين مي‌زنيد. سپس با گنجاندن يك مشاهده خيلي افراطي، مثلا مشاهده‌اي كه 5 برابر بزرگتر از ميانگين است، تاثير قوي بر ميانگين نمونه برآوردشده می‌گذارد، اما در حالتی که نمونه ما 1000 مشاهده داشته باشد، آن مشاهداتی که تفاوت بسیار زیادی از میانگین جامعه در هر جهت داشته باشند عمدتا همديگر را خنثي مي‌كنند؛ در اين حالت، اصل عالي «قانون اعداد بزرگ» مسلط مي‌شود و ميانگين نمونه، تخمين قابل اتكايي از ميانگين جامعه خواهد بود. (اما دقت نمونه، متناسب با افزايش اندازه نمونه تغيير نمي‌كند. براي اينكه خطاي نمونه‌گيري را به نصف كاهش دهيم، بايد اندازه نمونه را چهار برابر كرد.)
عامل دوم كه فاصله اطمينان را تعيين مي‌كند اين است كه هر يك از مشاهدات در جامعه چقدر در نزديكي ميانگين قرار دارند. فرض كنيد 99 درصد مشاهدات درون يك نوار برابر با ميانگين و منهاي و به علاوه 10 درصد ميانگين جاي گرفته‌اند. در اين حالت، احتمال اينكه ميانگين نمونه از ميانگين جامعه به خاطر وجود يك چند مشاهده افراطي بسيار دور شود به شدت ناچیز است، چون كه تعداد اندكي مشاهدات افراطي داريم. برعكس، اگر فقط 5 درصد مشاهدات درون نوار منهاي و به‌علاوه ميانگين قرار داشته باشند، در حالي كه 20 درصد آنها بسيار دور از ميانگين باشند، پس احتمال اينكه يك چند مشاهده بزرگ، نمونه را مختل خواهند كرد و يك تخمين نادرست از ميانگين جامعه مي‌دهند بسيار بيشتر است.
يك سنجه ساده براي اينكه بفهميم مشاهدات ما چقدر نزديك به ميانگين هستند «انحراف از ميانگين» است. براي محاسبه اين سنجه، تفاوت بين هر كدام از مشاهدات و ميانگين را حساب مي‌كنيم. علامت‌هاي اين تفاوت‌ها را ناديده بگيريد، آنها را با هم جمع كنيد و مجموع به دست آمده را تقسيم بر تعداد مشاهدات كنيد. يكي از عمليات مجاز رياضي، افزودن منفي و مثبت است. به اين ترتيب حاصل جمعي به دست مي‌آيد كه نه مثبت و نه منفي است؛ بلكه «قدر مطلق» است و چنين چيزي مناسب است وقتي درباره تفاوت صحبت مي‌كنيم. يك سنجه مهم‌تر اما اندكي پيچيده‌تر، «انحراف معيار» است كه اغلب با حرف يوناني سيگما نشان مي‌دهند. براي اينكه انحراف معيار را محاسبه كنيد، همانند حالت انحراف از ميانگين، انحرافات از ميانگين را به دست آوريد، اما قبل از اينكه آنها را با هم جمع كنيد، به توان دو برسانيد و سپس كل اين انحرافاتی که به توان رسيده است را بر تعداد مشاهدات تقسيم كنيد. سپس جذر بگيريد و به آن انحراف معيار مي‌گويند.
خوشبختانه، در مورد بسیاری از توزيع داده‌ها يا آن طور كه آماردان‌ها مي‌نامند «توزيع فراواني‌ها»، به محض اينكه انحراف معيار را حساب مي‌كنيم مي‌توان گفت فاصله اطمينان ميانگين ما چيست. در مورد توزيع منحني زنگي شكل كه «توزيع نرمال» يا «توزيع گوسين» هم ناميده مي‌شود، تقريبا دو سوم مشاهدات در محدوده يك انحراف معيار از دو طرف ميانگين، 95 درصد مشاهدات در فاصله دو انحراف معيار و تقريبا 99 درصد در فاصله سه انحراف معيار از دو طرف ميانگين قرار دارند. براي نمونه فرض كنيد كه در نمونه تصادفي قد مردان كه از جامعه‌ای با توزيع نرمال گرفته شده است ميانگين قد 170 سانتي‌متر و انحراف معيار 10 سانتي‌متر است. پس اگر بگویید ميانگين قد در جامعه‌اي كه شما نمونه خود را از آن گرفته‌ايد در جايي بين 150 سانتي‌متر و 190 سانتي‌متر است، به‌رغم وجود خطاي نمونه‌گيري، اگر به دفعات كافي اين كار را بكنيد، در 95 درصد از موارد حق با شما خواهد بود.
كاربرد ديگري از انحراف معيار را ببينيم. فرض مي‌كنيم شما نمونه‌اي از دانشجويان داريد كه در آزموني شركت كرده‌اند و از اين آزمون استفاده مي‌كنيد تا ببينيد آيا دانشجوياني كه آموزش ويژه‌اي ديدند نمرات بالاتري گرفتند يا خير. سپس معلوم مي‌شود دانشجوياني كه آموزش ويژه ديدند ميانگين نمرات 92 داشتند در حالي كه ساير دانشجويان ميانگين 87 كسب كردند. آيا چنين تفاوت 5 نمره‌اي احتمالا صرفا به خاطر خطاي نمونه‌گيري بوده است؟ اگر انحراف معيار 2 باشد، به طوري كه تفاوت بين دو گروه برابر با دو و نيم برابر انحراف معيار باشد، پس (با فرض اينكه نمرات دانشجويان به صورت نرمال توزيع شده است)، اگر بگوييد كه تفاوت بين دانشجويان آموزش ويژه ديده و ساير دانشجويان از نظرآماري معنادار است و صرفا نتيجه خطاي نمونه‌گيري نيست در 95 درصد موارد حق با شما است.
عبارت بالا را مي‌توان به اين صورت توصيف كرد كه ضريب متغير آموزش ويژه 5 است و انحراف معيار آن- كه در اين وضعيت‌ها معمولا «خطاي معيار» ناميده مي‌شود- 2 است. براي مقايسه آسان، ضريب را اغلب بر خطاي معيار آن تقسيم مي‌كنند و نسبت حاصله را «نسبت t» ضريب يا خيلي ساده t آن مي‌نامند.
پیش از اين‌كه بتوان گفت نتايج معنادار هستند و صرفا به علت خطاي نمونه‌گيري نيستند مقدار t بايد چقدر بزرگ باشد؟ اين پرسش هيچ پاسخ قطعي ندارد. هرچقدر معيار براي مقدار t را كه مي‌گوييد نتايج‌تان معنادار هستند پايين‌تر تعيين كنيد، نتايج نادرست بيشتري، يعني نتايجي را كه صرفا به علت خطاي نمونه‌گيري هستند، ناآگاهانه خواهيد پذيرفت و هر چقدر معيار براي مقدار t را بالاتر تعيين كنيد، نتايج درست بيشتري را رد خواهيد كرد با اين باور كه آنها صرفا به علت خطاي نمونه‌گيري بوده‌اند. اين يك بده‌بستان است و از آنجا كه هيچ پاسخ قاطعي وجود ندارد، به عرف قراردادي متوسل مي‌شويم. يعني نتيجه به دست آمده از يك نمونه را در صورتي معنادار دانسته و مي‌پذيريم كه احتمال خطاي نمونه‌گيري كمتر از
5 درصد باشد؛ يعني اگر مقدار t آن 2 يا بزرگتر از 2 باشد، اما برخي اوقات يك نتيجه، اعتبار محدودي پيدا مي‌كند هر چند كه فقط در سطح 10 درصد معنادار است.
چرا 5 درصد بلي و چرا 6 درصد يا 5/4 درصد نه؟ خب، همان طور كه اين مثل قديمي مي‌گويد: «دليلي براي اين كار نداريم، اين صرفا سياست ما است.» پنج درصد عدد معقولي است. مقدار آن پايين است، چون علم به طور سنتي و به‌درستي، زحمت اثبات را بر دوش فرضيه جديد مي‌گذارد. مدعي بايد دليل قوي براي ادعاي خود بياورد پیش از اينكه به عنوان بخشي از پايه دانش ما پذيرفته شود.
اما در تصميم‌گيري براي اينكه چكار بكنيد از عرف 5 درصدي كوركورانه پيروي نكنيد. فرض مي‌كنيم عضو گروهي هستيد كه ايمني و سلامت داروها را ارزيابي مي‌كنيد. اگر احتمال 6 درصدي وجود دارد كه داروي معينی كه قرار است دندان‌هاي شما را سفيد كند ناخن انگشت شصت پاي شما را اندكي زرد مي‌كند، بديهي است كه شما چنين دارويي را ايمن ملاحظه مي‌كنيد، اما شما چنين كاري را نخواهيد كرد اگر شانس 4 درصدي هست كه آن دارو باعث حمله قلبي مي‌شود. اينكه آيا يك فرضيه را بپذيريم و مطابق آن عمل كنيم نه فقط بايد به اين احتمال بستگي داشته باشد كه فرضيه درست است، بلكه همچنين به منافع و زيان‌هايي كه رخ مي‌دهد اگر فرضيه را بپذيريد وقتي كه در واقع فرضيه نادرست است يا آن را رد كنيد وقتي كه واقعا درست است هم بستگی دارد. باز به اين گفته قديمي مي‌رسيم؛ پس از اينكه همه محاسبات را انجام داديد هنوز هم مجبوريد طبق قوه تشخيص خود عمل كنيد.

6-برخي هشدارها درباره آزمون‌هاي معنادار بودن
آزمون معنادار بودن، ابزار قدرتمندي است تا غبار برخاسته از خطاهاي نمونه‌گيري را فرونشاند، اما با اين حال محدوديت‌هاي خاص خود را دارد. يكي اينكه توجه به مقادير t فقط شما را در برابر خطر خطاهايي كه تصادفي هستند محافظت مي‌كند از قبيل خطاهاي نمونه‌گيري و نه در برابر هر چيز ديگري از قبيل استفاده از نمونه‌اي كه سوگيري دارد. خطاهاي نمونه‌گيري مورد توجه زيادي قرار گرفتند چون كه آنها قابل اندازه‌گيري هستند و اگر كسي زحمت زيادي مي‌كشد تا كار خود را «علمي» جلوه دهد، تمايل شديدي مي‌يابد تا روي آنچه قابل اندازه‌گيري است متمركز شود و از آنچه قابل اندازه‌گيري نيست غافل مي‌شود. به‌علاوه، مقالاتي كه آماره t پاييني دارند معمولا قابل انتشار نيستند، به طوري كه پژوهشگران انگيزه مي‌يابند داده‌هاي خود را آنقدر بالا و پایین كنند تا مقادير t آنها خوب به نظر رسد. چنين كارهايي، منطق آزمون‌هاي معنادار بودن را زير سوال مي‌برد. چنين كاري مثل اين مي‌ماند كه 60 سكه را پنج‌بار پرتاب كنيم و تعجبي نخواهد داشت اگر يكي از اين سكه‌ها در هر پنج‌بار شير بيايد.
مشكل دوم اين است كه شما نه فقط بايد بپرسيد كه آيا ضريب معنادار است يا خير به اين معنا كه بعيد است صرفا در نتيجه خطاي نمونه‌گيري باشد، بلكه همچنين بايد بپرسيد كه آيا چنین ضریب معناداری، اهميتي هم دارد يا خير يعني از جنبه محتوايي هم «معنادار» هست؟ فرض كنيد يك نمونه بسيار بزرگ داريد، به‌طوري كه خطاي معيار بسيار بسيار كوچك است. سپس يك ضريب يا تفاوت بين ميانگين‌هاي يك نمونه از مردان و يك نمونه از زنان در سطح 5 درصد معنادار آماري باشد بدون اينكه اهميت محتوايي- و بنابراين عملي- داشته باشد. فرض كنيد متوجه مي‌شويم احتمال تصادف خودرو براي رانندگان مرد 00001/0 درصد بيشتر از رانندگان زن باشد و اين نتيجه از نظرآماري در سطح 5 درصد معنادار است. خوب كه چه؟ چه كسي به چنين تفاوت پيش پا افتاده‌اي اهميت مي‌دهد. پس يك تفاوت بايد از هر دو جنبه آماري و محتوايي معنادار باشد.
اينك به حالت عكس آن نگاه كنيم: فرض كنيم فرضيه شما پيش‌بيني مي‌كند كه x اثر قوي روي y دارد، اما در نمونه شما اين اثر در سطح 5 درصد معنادار آماري نيست و سرخورده مي‌شويد. آيا درست است كه به خودتان بگويد «خوب، حداقل من نشان دادم كه اين فرضيه نادرست است و با اين كارم كمكي به دانش كرده‌ام؟» خير حق چنين كاري نداريد. آماره t پايين به شما نمي‌گويد كه فرضيه نادرست است. شايد مقدار t پايين است چون كه نمونه شما خيلي كوچك بوده است. من نمي‌توانم تاييد كنم كه در روز 18 ژانويه سال 2020 باران خواهد باريد، اما چنين وضعيتي اين حق را به من نمي‌دهد كه بگويم در آن روز باران نخواهد باريد. تصميم هيات منصفه كه گناه متهم بدون هيچ شكي ثابت نشده است، به اين معنا نيست كه اعضاي هيات منصفه نسبت به بي‌گناهي وي متقاعد شده‌اند. اين نكته ارزش تاكيد كردن دارد، چون كه برخي اوقات، حتي اقتصاددانان باتجربه هم آن را ناديده مي‌گيرند.


«درصد» و سوء‌استفاده‌هايي كه از آن مي‌شود
درصدها به نظر بي‌ارزش مي‌رسند، اما آيا همه مردم از درصدها سردر مي‌آورند؟ خير، خيلي‌ها درصدها را كامل درك نمي‌كنند و در نتيجه زمينه براي دغل‌كاري با آنها وجود دارد. خوشبختانه يك روش آسان هست تا كه با درصدها ما را گيج و سردرگم نسازند. اينكه هميشه به خاطر داشته باشيم «درصد» به معناي «درصد از يك چيزي است» و به اين ترتيب در برخي دام‌ها گرفتار نشويم. اين به نظر ساده مي‌آيد، اما چنين كاري نيازمند تمرين دائمي است به‌طوري كه در اينجا ده مثال آورده‌ايم كه يك نوع سرمشق به حساب مي‌آيند.
يك مثال روشن از بد بيان كردن درصد، زماني است كه يك فروشگاه تبليغ مي‌كند كه قيمت را 100 درصد كاهش داده است. چنين چيزي بي‌معنا است. كاهش قيمت‌ها بايد به صورت درصدي از قيمت اوليه بيان شود؛
به طوري كه 100 درصد كاهش قيمت دلالت بر اين دارد كه قيمت اكنون صفر
شده است.
مثال دوم كه نامحسوس‌تر است اينكه اگر قيمت را مثلا 25 درصد كاهش داده و سپس دوباره 25 درصد افزايش دهيم، اين طور به نظر مي‌رسد كه قيمت به جاي اول خود برگشته است. نه اين طور نيست. فرض كنيد كه قيمت اوليه 100 باشد به طوري كه پس از 25 درصد كاهش، اكنون به 75 مي‌رسد. سپس با افزايش دادن آن به ميزان 25 درصد 75 که داشتیم اینک آن را به 94 و نه 100 مي‌رساند.
مثال سوم را اين طور مطرح مي‌كنيم: فرض كنيد اشتغال بخش عمومي و اشتغال بخش خصوصي، هر دو به ميزان 5 درصد افزايش مي‌يابد. آيا منظور اين است كه بخش دولتي و بخش خصوصي، هر دو به يك ميزان شغل اضافي ايجاد كرده‌اند؟ خير: درصدهاي برابر فقط زمانی به اعداد برابر تبديل مي‌شود که پايه‌هايي كه از آنها درصدها حساب شده‌اند برابر باشند. پس اگر اشتغال دولتي 5 درصد افزايش يابد؛ يعني 5 درصد آنچه كه قبلا بود و به همين ترتيب، اگر اشتغال خصوصي 5 درصد افزايش يابد، آن نيز 5 درصد آنچه كه قبلا بوده است؛ بنابراين در صورتي كه ميزان اشتغال دولتي و خصوصي در ابتدا برابر نباشند آنها به ميزان‌هاي متفاوتي افزايش مي‌يابند.
چهارم موردي را آورده‌ام كه زماني در يك كتاب درسي دانشگاهي پيدا كردم. (من اعداد واقعي آن كتاب را با اعدادي فرضي جايگزين كرده‌ام، اما در اصل قضيه تغييري ايجاد نمي‌كند.) نويسنده بي‌دقت كتاب نوشته بود كه توليد صنعتي آمریکا در 1930 به ميزان 25 درصد سقوط كرد، در 1931 باز هم به ميزان 20 درصد سقوط كرد و در 1932 نيز دوباره 10 درصد سقوط كرد به طوري كه در دوره سه ساله 32-1930 توليد صنعتي 55 درصد كاهش يافت يعني (25+ 20+ 10) درصد. او چه اشتباهي كرده بود. همان اشتباهي كه در مثال دوم و سوم آورديم. كاهش‌هايي كه در سال‌هاي 1930، 1931 و 1932 اتفاق افتاد همگي به صورت درصدهايي با پايه‌هاي متفاوت بيان شده‌اند و بنابراين قابل جمع شدن مستقيم با هم نيستند. وقتي كاهش توليد صنعتي را به صورت درصد كاهش آن از سطحي كه در آغاز سال 1930 بود حساب کنیم (كه بايد همچنين كاري را بكنيم)، ميزان كاهش 46 درصد (25+ 15+ 6) خواهد بود نه 55 درصد.
براي مثال پنجم، فرض كنيد يك مدرسه برنامه پاداش‌دهي به كارآمدترين آموزگاران خود را دارد. معلوم مي‌شود كه 60 درصد اين آموزگاران برجسته زن و 40 درصد مرد هستند. آيا مي‌توان نتيجه گرفت كه دست‌كم يك زن در اين مدرسه است كه احتمال مي‌رود آموزگار برجسته‌تري نسبت به مردها باشد؟ نه لزوما فرض كنيد 90 درصد آموزگاران اين مدرسه زن باشند. در اين حالت، داده‌ها مي‌گويد كه مردان احتمال بيشتري دارد آموزگار برجسته‌اي باشند. دوباره بايد حواسمان باشد كه درصد را به پايه آن مرتبط سازيم.
ششم، فرض كنيم شما مديرعامل يك بانك هستيد و مي‌خواهيد سهامداران بانك را با اعلام اينكه چقدر سود بالايي به دست آورده‌ايد تحت‌تاثير قرار دهيد در حالي كه از سوي ديگر مشتريان را نيز تحت‌تاثير قرار دهيد كه چقدر سود پاييني به دست مي‌آوريد. بدون دروغ گفتن، به آساني مي‌توانيد اين معجزه را انجام دهيد. به سهامداران‌تان بگوييد كه 20 درصد سود به دست آوريد و به مشتريان بانك هم بگوييد كه سود ناقابل و ناچيز 2 درصد كسب كرديد. هر دو عبارت درست است. كلك اين است كه پايه درصدها را تغيير بدهيد. 2درصد مبلغ سود پولي بانك است كه به صورت درصدي از كل دارايي‌هاي بانك محاسبه شده است، اما از آنجا كه (فرض مي‌كنيم) كل دارايي‌هاي بانك شما 10 برابر ميزان سرمايه بانك است (سپرده‌هاي مشتريان بيشتر اين تفاوت را پوشش مي‌دهند) بازده 2 درصدي در كل دارايي‌ها معادل با 20 درصد بازده سرمايه سهامداران مي‌شود. عمل مشابهي انجام مي‌شود وقتي سودها را به صورت درصدي از فروش بيان مي‌كنند. يك شركت شايد فقط 1 درصد سود از فروش به دست آورد، اما اگر فروش سالانه آن اتفاقا 30 برابر سرمايه آن باشد، به سود 30 درصدي بر سرمايه آن مي‌رسيم.
هفتم، فرض كنيد سود شركت در امسال 500 درصد ميزان سودی باشد كه سال پیش بود. آيا سهامداران خوشبختي داريم؟ شايد كه نه، چون كه سود سال گذشته مثلا 2/0 درصد سرمايه شركت بوده است، به‌طوري كه امسال هم به ميزان ناچيز 1 درصد افزايش يافته است.
هشتم، فرض كنيد كه در بروشور يك صندوق سرمايه‌گذاري مشترک آمده است هر ساله 8/0 درصد بابت حق‌الزحمه مديريت برداشته مي‌شود. به نظر خوب مي‌آيد اما اين طور نيست. 8/0 درصد به صورت درصد درآمدهاي سالانه صندوق سرمايه‌گذاري مشترک بيان نمي‌شود بلكه 8/0 درصد مبلغي است كه سرمايه‌گذاري شده است؛ بنابراين اگر صندوق مثلا در يك سال 8 درصد درآمد كسب كند، اين حق‌الزحمه تا يك دهم (10 درصد) عايدات شما را مي‌بلعد.
نهم، فرض كنيد سال گذشته نوجوانان 20 درصد تمام كساني باشند كه دستگير شده‌اند در حالي كه سال قبل از آن، آنها 19 درصد دستگير شده‌ها را تشكيل مي‌دادند. آيا مي‌توان نتيجه گرفت سال گذشته نسبت به سال قبل از آن، تعداد نوجوان بيشتري دستگير شده است؟ يك بار دیگر خير. افزايش درصد فقط به ما مي‌گويد كه چه اتفاقي به فراواني نوجوانان دستگير شده نسبت به بزرگسالان دستگير شده افتاده است. اگر تعداد بزرگسالان دستگير شده كاهش يابد پس احتمالا تعداد نوجواناني كه سال گذشته دستگير شدند كمتر از تعداد آنها در سال پیش‌تر بوده است.
سرانجام درصد كمتري از تصادفات در بين ساعات 2 و 3 نيمه شب تا بين ساعات 8 و 9 بامداد رخ مي‌دهد، اما نمي‌توان نتيجه گرفت كه رانندگي در نيمه شب ايمن‌تر است. نتيجه اخلاقي همه اين ماجراها اين است: دانستن اينكه متغيري به درصد معيني رسيده است، هيچ چيز به شما نمي‌گويد مگر اينكه بدانيد آن درصد چيست و از چه چیزهایی تشکیل شده است.

برخي نگراني‌ها درباره نوشتن درصدها
اينك دو پرسش مربوط به درست نوشتن درصدها طرح مي‌كنيم. نخست، اگر قيمت يك کالا از 1 دلار به 3 دلار افزايش مي‌يابد، قیمت آن کالا چند درصد افزايش يافته است؟ 200 درصد و نه 300 درصد. اينك قيمت، 300 درصد آن چيزي است كه قبلا بود پس 200 درصد افزايش يافته است. دوم، اگر سودها از 10 درصد فروش به 12 درصد فروش افزايش يابند، چگونه بايد اين افزايش را بيان كنيم؟ يك روش اين است كه بگوييم 20 درصد افزايش.
روش ديگري كه درصدها باعث گيجي و ابهام مي‌شوند پنهان كردن تعداد واقعي موارد است. اين‌طور بر سر زبان‌ها افتاد كه وقتي دانشگاه جان هاپكينز نخستين دانشجويان دختر را پذيرفت، يك مخالف چنين حركتي، به شكايت برخاست كه يك سوم اين دانشجويان با اساتيد خود ازدواج كرده‌اند. حق با او بود: يكي از سه دانشجويان دختر پذيرفته شده چنين كاري كرده بود.
پیش از آنكه درصدها را به حال خود رها كنيم به يك سنجه مرتبط؛ يعني اعداد شاخص مي‌پردازيم. براي محاسبه يك عدد شاخص، مثلا قيمت‌ها، بايد يك سال خاص را به عنوان «سال پايه» انتخاب كنيد و قيمت‌ها را در همه سال‌ها در نمونه خود به صورت درصدي از قيمت‌ها در آن سال بيان مي‌كنيد. سپس علامت درصد حذف می‌شود.
اين تمام كاري است كه انجام مي‌دهيد. اين نكته را كاملا به ياد داشته باشيد كه ارزش شاخص در هر سال بستگي به سال پايه خاصي دارد كه انتخاب كرده‌ايد. اگر قيمت در سال 2001، 100 دلار، در سال 2005، 110 دلار و در سال 2008، 111 دلار باشد، هنگامي كه به صورت عدد شاخص با سال پايه 2001 بيان شوند براي سال 2005، 110 و براي سال 2008، 111 مي‌شوند، اما اگر به جای آن بیایید سال پايه را 2005 انتخاب كنيد پس شاخص براي سال 2008 تنها 101 مي‌شود.


ماخذ:دنیای اقتصاد

 

نوشته شده توسط سپهر برادران در پنجشنبه سی ام تیر ۱۳۹۰ |