توماس مایر
مترجم: جعفر خیرخواهان
در جایگاه قضاوت نشستن، باعث ميشود تا شخص بیش از آن که به سطح معنیدار بودن آماري توجه کند نگران روابط آماري باشد. معنیدار بودن نتايج فقط در صورتي قابل تاييد است كه درك عميقي از همه جنبههاي مساله داشته باشيم.
بايد شناخت کافی از همه تئوريهاي مرتبط با موضوع داشت و ادبيات گسترده درباره آن موضوع و نهادهايي را كه نقش مهمي در مساله مورد بررسي دارند، شناخت.
(ديويد كلاندر، «چگونگی شکلگیری اقتصاددان»، ص 243)
ابزار اصلي آماری كه در علم اقتصاد استفاده ميشود تحليل رگرسيوني است. در اين شيوه به دو يا چند سري آماري نگاه میکنیم كه آيا به نحوي سازگار با هم در يك جهت يا در جهت مقابل حركت ميكنند و اگر اينطور است وقتي يكي از سريها تغيير ميكند سري ديگر چقدر تغيير خواهد كرد: به عبارت ديگر همارتباطي آنها چگونه بوده و چقدر دقيق است. فرض كنيد قصد داريم فروش یخچال را تبيين يا پيشبيني كنيم. فروش یخچال را «متغير وابسته» ميناميم چون كه ميخواهيم بدانيم به چه متغيرهايي وابسته است. سپس به تئوري اقتصادي يا به فهم مشترك عمومي متوسل ميشويم تا به ما بگويد عوامل تعيينكننده- كه آنها را «متغير مستقل» يا گاهي اوقات «رگرسورها» مينامند- چه هستند. آنها را «متغير مستقل» مينامند چون در حالي كه روی فروش یخچال تاثير ميگذارند فرض ميكنيم فروش یخچال در مقابل تاثيري بر آنها نميگذارد. (اين امكان نيز هست كه مجموعه معادلات رگرسيون را به طور همزمان حل كنيم كه متغير وابسته در يك معادله، متغير مستقل در معادله ديگر ميشود.)
در علوم طبيعي اغلب اوقات، دو متغير رابطه دقيق دارند كه ميتوان به صورت يك قانون علمي بيان كرد. براي مثال. متغير y هميشه دقيقا b برابر متغير ديگر x است. در اين حالت، نيازي به تحليل رگرسيوني نیست. تمام كاري كه بايد انجام داد دقت در مقادير هر جفت x و y است و با استفاده از اينها میتوان مقدار b را حساب کرد، اما اگر x تنها متغيري نباشد كه بر y تاثير ميگذارد چنین روشی نتيجه نميدهد. همان طور كه در شكل 1 ديده ميشود رابطه بين x و y دقيق نيست.
شكل 1- رابطه بين دو متغير
جایگاه متغير x را روي محور افقي در نظر بگيريد. برخي نقاط در جايگاه بسيار بالايي روي محور عمودي قرار دارند و برعكس. يك شيوه فهمیدن تحليل رگرسيوني اين است كه تصور كنيم رابطه زيربنايي دقيقي بين x و y وجود دارد، چنان كه y برابر 3x است، اما پیش از اينكه دادهها به دست شما برسد يك نفر شيطنت كرده است و مقداري اعداد تصادفي مثبت و منفي روي yها انداخته است. وظيفه شما پيبردن به روابط واقعي x و y از ميان مشاهدات آلودهشدهاي است كه به شما داده شده است. مشخصا اين كارها را بايد بكنيد: (1) میزان تاثیری را كه يك واحد تغيير x روي y ميگذارد تعيين كنيد؛ (2) ارزيابي كنيد كه آيا اين اثر از نظر آماري معنیدار است و (3) برآورد كنيد چه نسبتي از تغيير در y كه مشاهده كردهايم به خاطر تغييرات در x بوده است.
1- ضريب رگرسيون
براي سادگي فرض كنيد رابطه بين x و y را ميتوان با يك خط راست نشان داد. معادله خط راست با وجود تنها يك متغير مستقل به این صورت درمیآید:
y = a + bx كه a و b اعداد ثابت هستند؛ يعني اعدادي مثل 34 يا 8 كه تغيير نميكنند. پس b به شما ميگويد كه اگر x به ميزان 1 واحد تغيير كند، y به اندازه 8 واحد تغيير ميكند. b شبيه چرخ دنده است كه تغييرات از x را به y انتقال ميدهد.
پس آنچه رگرسيون x روي y انجام ميدهد انتخاب مقادير خاصي براي a و b است كه بهترين پيشبيني از y را كه با دانستن مقدار x ميتوانيد به دست آوريد به شما ميدهد. دقيقتر اينكه بگوييم كامپيوتر آن مقاديري را براي a و b انتخاب ميكند كه مجذور تفاوتهاي بين مقادير واقعي y و مقادير y كه رگرسيون پيشبيني ميكند به حداقل ميرساند. براي سادهسازي بحث، لحظهاي مجذور كردن و نيز عدد ثابت a را فراموش کرده و فكر کنید چگونه وضعيتي را توصيف ميكنيد كه به صورت يك قاعده كلي هر وقت x به ميزان 1 واحد افزايش يافت، y به اندازه 3 واحد افزايش مييابد، اما برخي اوقات يك كمي بيشتر و برخي اوقات يك كمي كمتر افزايش مييابد. آيا منطقي نخواهد بود كه بگوييم: y برابر با 3x به علاوه يا منهاي يك عامل سرهم كردني است؟ اين عامل سرهم كردني را «جمله خطا» ميناميم. مادامي كه اين حالت از خطاهاي نمونهگيري تصادفي ناشي ميشود، در نمونه به حدي كافي بزرگ جمله خطا توزيع نرمال خواهد داشت. همان طور كه نمونه بزرگتر و بزرگتر ميشود با داشتن اعداد مثبت و منفي كه ميل به حذف كردن هم دارند، عامل سرهم كردني به صفر نزديك ميگردد، اما مادامي كه وجود عامل سرهم كردني به علت تاثیر برخي متغيرهاي مستقل اضافي نباشد كه به اشتباه حذف كردهايم، ما همچنين فرض ميكنيم، يا درستتر اينكه بگوييم اميدوار هستيم اين خطاها نيز به صورت نرمال توزيع شده باشند؛ بنابراين تقريبا همديگر را خنثي نمايند.
فرض كنيد كامپيوتر حساب ميكند كه a مثلا 10 و b مثلا 3 شده است. وجود خطاهاي نمونهگيري و ساير خطاها (يعني عامل سرهم كردني) به ما اجازه نميدهد كه بگوييم هر وقت x مساوي 1 است y بايد 13 باشد، اما مادامي كه اين خطاها تصادفي باشند، از بخشهاي بعدي ميدانيم در اينباره چه كار بايد كرد. ما به خطاهاي معيار نگاه ميكنيم (يعني انحراف معيار) تا دامنهاي كه به نحو معقولي ميتوان انتظار داشت a و b در آن محدوده جاي گيرند به دست آيد، (معمولا تا منها و به علاوه دو خطاي معيار پيش ميرود تا سطح احتمال 5 درصد به دست آيد). يا اگر ما صرفا ميخواهيم بدانيم آيا احتمال كمتر از 5 درصدي وجود دارد كه در جامعه، a يا b واقعا صفر هستند، مقادير آنها را كه «برآوردهاي نقطهاي» ناميده ميشوند بازبيني ميكنيم كه آيا از صفر به اندازه بيشتر از دو خطاي معيار تفاوت دارند يعني مقدار t آنها 2 يا بزرگتر از 2 باشد.
اين a و b واقعا چه چيزي را اندازهگيري ميكنند؟ از آنجا كه a يك عدد ثابت است؛ يعني بدون توجه به مقداري كه x ميگيرد مقدار آن فرقي نميكند، آن را ميتوان اينگونه تفسير كرد: مقدار y، وقتي x صفر باشد. به طوري كه ميتواند منفي، مثبت يا صفر باشد. از آنجا كه ما عمدتا ميخواهيم بدانيم چگونه x بر y تاثير ميگذارد و نه اينكه وقتي x صفر است y چه مقدار ميشود، به اين جمله ثابت معمولا علاقهاي نشان داده نميشود. به جاي آن، علاقه زيادي به ضريب b داريم كه «ضريب رگرسيون» ناميده ميشود. به شكل نموداري، b شيب خط رگرسيون است؛ يعني خطي كه از ميان خوشه نقاط (مشاهدات) كشيده شده است به طوري كه مربعات انحرافات اين نقاط از خط را به حداقل ميرساند و با اين معنی، بهترين تصوير از مشاهدات است.
تا اينجا فرض كردم رابطه بين x و y را ميتوان با يك خط راست توصيف كرد. اگر بخواهيم علمي سخن بگوييم دليلي ندارد كه چرا بايد اينگونه باشد، اما معمولا آن خط، تقريب كافي و نزديكي است كه ما بتوانيم استفاده كنيم. همچنين امكان استفاده از معادلات رگرسيوني كه رگرسورهاي غيرخطي از قبيلX2 دارند هست، اما برخي اوقات باعث ميشود تا برنامه كامپيوتري به هم بريزد و وقتي دادهها با رسم خط راستی از اعداد طبيعي به خوبي قابل توصيف نباشند ما رگرسيون را روي لگاريتم آنها برازش ميكنيم. استفاده از لگاريتم اين مزيت را دارد كه تغييرات در هر دو متغيرهاي وابسته و مستقل را ميتوان به صورت درصد تغييرات خواند.
تا اينجا ما فقط با يك رگرسور كار كرديم، اما معمولا اوضاع و احوال پيچيدهتر است چون كه رفتار y وابسته به عوامل بسياري است؛ براي مثال، تقاضا براي خودرو نه فقط به قيمت خودرو، بلكه به قيمت بنزين و حمل و نقل عمومي، قيمت كالاهاي رقيب و جانشين، به درآمد و به عشق و علاقه مردم به داشتن خودرو نيز بستگي دارد. بنابراين اغلب اوقات نياز است تا رگرسورهاي بيشتري را بگنجانيم: مثلا اگر پنج متغير مستقل، اثر چشمگيری بر متغير وابسته داشته باشند بايد معادله رگرسيون را به اين صورت بنويسيم:
y=a +bx1 +cx2 +dx3 +ex4 +fx5 +e
كه پاييننويسهاي هر x بيانگر رگرسورهاي متفاوت است و e جمله خطا ميباشد. ميتوان متغيرهاي مستقل بسياري را در رگرسيون جاي داد به شرط اينكه مشاهدات كافي داشته باشيم. بيشتر رگرسيونها اينك از بيش از يك رگرسور استفاده ميكنند، اما براي اينكه بحث را ساده نگه داريم در اينجا فقط درباره يك رگرسور صحبت ميكنيم.
2- تعيين خوبي برازش رگرسيون با دادهها
فرض كنيد با محاسبات كامپيوتری معلوم میشود وقتي نرخ بهره وام خودرو يك درصد افزايش يابد فروش خودرو 5 درصد كاهش مييابد. اين اطلاعات مفيدي است اگر كه شما در واحد بازاريابي يك شركت خودروسازي كار ميكنيد، اما اين اطلاعات به شما نميگويد تغييرات در فروش خودرو كه مشاهده ميكنيد تا چه حد با تغييرات نرخ بهره قابل تبيين است به جاي اينكه با ساير عوامل از قبيل تغيير درآمد مصرفكننده قابل تبيين باشد. امكان اين هست که پيشبيني هر يك درصد تغيير در نرخ بهره، فروش خودرو را 5 درصد كاهش ميدهد كاملا درست باشد و درعين حال ميتوان بيشتر تغييرات واقعا مشاهده شده در فروش خودرو را با عواملی به غير از تغيير نرخ بهره تبيين كرد.
اقتصاددانان و آماردانان، خوبي برازش معادله رگرسيون با دادهها را اندازهگيري ميكنند يعني با چه دقتي ميتوان y (فروش خودرو) را به صرف دانستن x (نرخ بهره) پيشبيني كرد. آنها اين كار را با استفاده از ضريب همبستگي، R يا در بيشتر اوقات با پسر عموي آن، R2 ضريب تعيين، انجام میدهند. R و R2 در دامنه صفر تا يك هستند و با توجه به شرط مهمي كه در زير بحث میشود، نسبت نوسانات در y– يا دقيقتر نسبت مربع نوسانات y– را كه با نوسانات در x تبيين شده باشد اندازهگيري ميكند؛ اگر چه R2 نميتواند منفي باشد چون كه مجذور يك عدد طبيعي نميتواند عدد منفي به دست آيد، برخي اوقات با بيقيدي به صورت منفي گزارش ميشود تا به خواننده گوشزد كند رابطه بين x و y منفي است.
بنابراين، با فرض ثبات ساير چيزها، اگر ميخواهيد عواملي را پيدا كنيد كه به بهترين نحو تغييرات مشاهده شده در متغير وابسته شما را تبيين ميكنند بايد يك معادله رگرسيون انتخاب كنيد كه R2 مثلا 8/0 دارد نسبت به يك معادله رگرسيون كه R2 فقط 5/0 دارد، اما در اين كار زيادهروي نكنيد: تفاوت كوچك در R2 از قبيل تفاوت بين مثلا 834/0 و 830/0 بيمعني است و شايد حتي معكوس شود اگر برنامه كامپيوتري متفاوتي استفاده ميكرديد و علاوه بر اين، ساير چيزها اغلب اوقات برابر نيستند.
3- در رگرسيون بايد به دنبال چه چيزي باشيم؟
كداميك از اين سنجهها مهمتر است، R2 ،ضريب رگرسيون يا مقدار t؟ پاسخ اين است: «هر سه تا». هر سه مهم هستند چون كه آنها به پرسشهاي متفاوتي پاسخ ميدهند. فرض كنيد از شما پرسيده ميشود رگرسورهاي مدل چقدر رفتار y را تبيين يا پيشبيني ميكند. پس همان طور كه در بالا بحث شد R2 سنجه مناسب خواهد بود، اما اگر پرسش شما اين است كه آيا يك واحد نوسان رگرسور، اثر چشمگيري بر متغير وابسته دارد، پس بايد ابتدا به مقدار t ضريب مربوطه نگاه كنيد تا از خطر نسبت دادن اهميت به نتيجه خطاي صرف نمونهگيري جلوگيري كنيد و نيز بايد به معنیدار بودن محتوايي ضريب نگاه كنيد تا معلوم شود آيا اين اثر به حد كافي بزرگ و مهم هست. در اينجا بايد به واحدهايي كه x و y اندازهگيري ميشوند توجه کرد. براي مثال اگر در تخمين عوامل تعيينكننده نرخ تورم، ضريب رگرسيون كسري فدرال، مثلا 001/0 است، فرق است بين اينكه آيا منظور اين است نرخ بهره 001/0 درصد افزايش مييابد وقتي كسري به ميزان يك ميليون دلار افزايش مييابد يا اين افزايش نتيجه يك افزايش يكميليارد دلاري در كسري فدرال است.
توجه به واحدهاي اندازهگيري لازم اما نه كافي است تا ثابت شود كه آيا ضريب «بزرگ» بوده يا چنان كوچك است كه اهميتي ندارد. در اينجا هيچ قاعده مكانيكي مثل قرار 5 درصد معنیدار بودن آماري نداريم. آنچه نياز است قضاوت شما و نه قضاوت كامپيوتر است.
هنگام نگاه به ضريب رگرسور بايد اين دقت را نيز داشت كه اندازه آن يا مقدار t آن را با اهميتش در تبيين تغييرات مشاهده شده در y قاطي نكنيد. براي تبيين اين تغييرات، آنچه اهميت دارد نه فقط اندازه ضريب رگرسيون، بلكه اينكه چقدر خود رگرسور تغيير ميكند نيز هست. حتي اگر ضريب رگرسيون X1 بسيار بزرگتر از ضريب رگرسيون X2 باشد اگر X2 بسيار بيشتر از X1 تغيير ميكند پس نوسانات احتمالا ميتواند نسبت بزرگتري از تغييرات مشاهده شده در y را توضيح دهد. فرض كنيد در رگرسيوني كه درصد درآمد پسانداز شده خانوادهها را تبيين ميكند يك رگرسور X8 را شامل ميكنيد براي اينكه آيا خانواده در آن سال يك بچه دارد يا خير. ضريب رگرسيون براي اين رگرسور احتمالا بزرگ است، اما بيشتر نوسانات در درصد درآمد پسانداز شده خانوادهها در نمونه شما را تبيين نخواهد كرد چون كه در هر سال خاص، X8 بيشتر خانوادهها صفر خواهد بود.
حتي اگر فقط علاقهمند به اين هستيد كه رگرسيون شما چقدر خوب ميتواند متغير وابسته را تبيين و پيشبيني كند بايد نه فقط به R2 بلكه همچنين به يكايك ضرايب رگرسيون و مقادير t آنها نگاه كنيد. فرض ميكنيم فروش كارتهاي كريسمس را روي نرخ بيكاري رگرس ميكنيد و عامل فصلي بودن را در نظر ميگيريد و نيز يك رگرسور اضافي كه به اصطلاح «متغير بدلي يا ساختگی» است كه در اين مورد خاص مقدار 1 را براي ماه دسامبر و مقدار صفر را براي ساير ماهها ميگيرد. R2 بالايي به دست ميآوريد، اما اين به شما نميگويد كه تغيير بيكاري اثر زيادي بر فروش كارت كريسمس دارد- شما همچنين يك R2 بالا به دست ميآوريد حتي اگر به جاي نرخ بيكاري، تعداد گربههاي به دنيا آمده در آن ماه را استفاده ميكرديد چون كه در اين مورد، متغير بدلي فصلي بودن و نه نرخ بيكاري است كه تاثير ميگذارد. داستاني درباره يك فروشنده دورهگرد گفته ميشود كه به يك روستا رفت و اعلام كرد سنگ مخصوصی براي فروش دارد كه با آن ميتوان سوپ خوشمزهاي درست كرد و حاضر به اثبات آن شد. در حيني كه سنگ را با آبجوش ميپخت به روستاييان گفت سوپ سنگي خيلي خوشمزه است، اما مزه حتي بهتري پيدا ميكند اگر مقداري هويج به آن اضافه شود. پس روستاييان مقداري هويج به درون قابلمه ريختند. در حيني كه هويج پخته ميشد به آنها گفت اضافه كردن مقداري پياز سوپ را حتي خوشمزهتر ميكند و پس از افزودن پياز به آنها گفت براي اينكه سوپ سنگي خيلي بهتري به دست آيد آنها بايد مقداري گوشت هم اضافه كنند!
سرانجام فرض میکنیم شما فقط علاقهمند به اثري كه يك رگرسور معين روي Y دارد هستيد و نه به تبيين اينكه چه چيز بيشتر تغييرات در Y را تعيين ميكند. با اين حال، بايد به R2 نگاه كنيد تا ببينيد آيا رگرسيون به حد كافي معنيدار بودن نوسان در Y را تبيين ميكند. اگر يك رگرسيون، 98 درصد تغييرات در Y را تبيين نشده باقي ميگذارد پس نميتوان اعتماد زيادي به آن كرد.
پس R2 بايد چقدر بزرگ باشد تا ضرايب رگرسيون معنیدار باشند؟ پرسش خوبي است، اما پرسشي است كه پاسخ خوبي ندارد. تا حدي بستگي به اين دارد كه R2رگرسيونهاي رقيب چقدر بالا بودهاند. آن همچنين به مشخصات متغير وابسته بستگي دارد. براي مثال فرض كنيم قصد تبيين نرخ پسانداز خانوادهها را داريد. اگر متغير وابسته شما نرخ پسانداز هر كدام از خانوادهها باشد R2 پاييني به دست خواهيد آورد، چون كه بسياري عوامل شخصيشده كه در معادله رگرسيون شما وجود ندارند از قبيل از دست دادن شغل، دريافت يك هديه با ارزش و غيره بر نسبت پسانداز خانوادههاي خاصي تاثير خواهند گذاشت، اما اگر دادههاي شما ميانگين نرخ پسانداز خانوادههايي باشد كه درون طبقات درآمدي گوناگون مرتب شدهاند اين عوامل شخصي شده اساسا حذف خواهد شد، به طوري كه بايد R2 بالاتري به دست آوريد. برخي بررسيها كهR2، 2/0 يا حتي كمتر داشتند در نشريات كاملا معتبر علمي منتشر شدند اگر چه خود منR2 چنين پاييني را تا حدي نگرانكننده ميبينم. در سوي ديگر قضيه،R2 مثلا 998/0 نيز نگرانكننده است چون كه بيش از حد خوب است كه واقعي به نظر رسد و شايد به اين علت باشد كه هر دو متغير روند زماني يكساني دارند يا Y يك عنصر مشترك با X دارد.
4- جمعبندي مطالب
چون که اين بحث پيچيده است پس آن را مرور ميكنيم. فرض ميكنيم شما مقالهاي مينويسيد كه آيا طي ركود اقتصادي دولت بايد به صنعت ساختمان مسكوني كمك كند یا نه. تارنماي اين صنعت استدلال ميآورد هر گونه که ساختوساز مسكوني پيش برود اقتصاد ملي هم همان طور پيش ميرود و استدلال خود را با يك رگرسيون تقويت ميكند كه مقادير فصلي GDP (متغير وابسته) را به GDP فصل قبلي و به ساخت و ساز مسكوني آن فصل مرتبط ميكند. R2 وي 91/0 است. مساله عليت را به كنار ميگذاريم. آيا بايد تحت تاثير اینها قرار بگيریم؟ نه واقعا. چون كه GDP در هر فصلي، همبستگي بالايي با GDP فصل قبلي دارد، پس احتمال دارد R2 بالايي به دست آوريد حتي اگر نوسانات درجه حرارت در هند را به جاي ساخت و ساز مسكوني استفاده ميكرديد. بنابراين به ضريب رگرسيون ساخت و ساز
مسكوني نيز نگاه ميكنيد و متوجه ميشويد كه كاملا معنيدار است؛ يك دلاري كه خرج ساخت و ساز مسكوني ميشود GDP را 4 دلار بالا ميبرد. این كمي نامعقول به نظر ميرسد پس به مقدار t اين ضريب نگاه ميكنيد كه عدد 5/0 شده است. شما به درستي استدلال اين صنعت را رد ميكنيد.
حال موضوع را اندكي پيچيده ميكنيم. مقدار t، 9/1 بوده است، اینک چه ميگوييد؟ شما میتوانید همچنان سرسختي نشان دهید و بگوييد چون احتمال این كه مقدار واقعي ضريب صفر باشد بیشتر از 5 درصد هست، پس استدلال صنعت را نخواهيد پذيرفت. يا اينكه ميتوانيد بگوييد در حالي كه صنعت معيار اثبات علمي را رعايت نكرده است احتمال قابل توجهي ميرود كه مقدار واقعي ضريب بزرگتر از صفر باشد. پس شايد با احتياط استدلال صنعت را بپذيرید. در واقع شما بايد اينكار را بكنيد اگر فكر ميكنيد زيان پذيرفتن اين شاهد به نفع موضع صنعت وقتي كه واقعا نادرست است بيشتر از زيان نپذيرفتن آن وقتي كه واقعا درست است، نباشد.
5- نگاه كردن به دندانهاي اسب باركش
تحليل رگرسيون ابزار قدرتمندي است كه در بيشتر حوزهها و براي اهداف گوناگون استفاده ميشود، اما قابليت گمراه كردن را نيز دارد. چهار دام مهم عبارتند از:
خطر نسبت دادن روابط گذشته به آينده، نياز به گنجاندن متغيرهاي كنترل درست، احتمال به اشتباه افتادن با يك يا چند مشاهده پرت و خطر استنتاج عليت از وجود همبستگي.
با خواندن خطراتي كه ذكر شد، شايد اين احساس به شما دست دهد كه تحليل رگرسيون؛ بنابراين بيشتر تحليل اقتصاد تجربي بهعلاوه بسياري از پژوهشهاي ديگر علوم اجتماعي كارهاي بيارزشي هستند كه ما بهتر است به درك شهودي، احساس و قضاوت شخصي خود متكي باشيم. اين طور نيست. قطعا اين گونه نيست. چنين برداشتي به اندازه نظري درست است كه پس از خواندن كتابي درباره بيماريها پیدا میکنید: اينكه شما مبتلا به انواع بيماريها هستید. من به عنوان كسي كه بيشتر عمرش را در پژوهشهاي اقتصادي تجربي صرف كرده است، از جمله بسياري معادلات رگرسيوني انجام دادم، قطعا فكر نميكنم كه آنها بيفايده هستند.
گذشته، آينده نيست
ظاهرا اگر شما غيبگو نباشيد همه دادههايي كه در اختیار داريد از گذشته ميآيد و اگر بخواهيد فقط رويدادهاي گذشته را تبيين كنيد، بسيار خوب است و کسی با آن مخالفتي ندارد، اما بيشتر اوقات به آينده هم علاقهمند هستيم و اين فرض كه آينده دقيقا شبيه گذشته خواهد بود ميتواند فرضي مشكلآفرين باشد. براي مثال رگرسيونهايي كه در دهههاي 1960 و 1970 برآورد گرديدند رابطهاي ثابت بين عرضه پول و GDP اسمي نشان ميدادند، اما براي تغييرات در زمان كوتاهمدتتر در دهه 1980، اين رابطه تقريبا ناپديد شد، در دهه 80
نوآوريهاي مالي، مقرراتزدايي بازارهاي مالي و نرخهاي بهره بالا باعث شد تا شيوه پرداختهاي خانوارها و بنگاه و نيز شيوه مديريت داراييهاي مالي آنها تغيير كند (يك مثال كارتهاي اعتباري هستند). مشكل مشابهي در سال 8-2007 و در زماني بهوجود آمد كه اقتصاددانان سعي كردند آمدن يك ركود اقتصادي را پيشبيني كنند و اينكه در صورت وقوع چقدر عميق است. به علت زيانهايي كه نظام مالي از اوراق بهادار به پشتوانه وامهاي رهني و ساير داراييها ديده است، اين نظام بسيار شكنندهتر از هر زماني از هنگام بحران بزرگ تاكنون شده است؛ بنابراين مدلهاي اقتصادسنجي بر اساس رگرسيون كه به دادههای پس از جنگ جهاني دوم برازش ميشوند چيزهاي اندكي درباره چگونگي تاثيرگذاري چنين شكنندگي مالي بر اقتصاد به ما ميگويد. به همين ترتيب، پس از سقوط بازار سهام، معادله رگرسيوني كه در تخمينهاي پيشين قيمت سهام، برازشهاي خيلي خوبي داشته است اينك خودش را نه به شكل يك دوست قابل اعتماد، بلكه به شكل دشمني نابكار نشان خواهد داد.
حالت خاصي كه ضرايب رگرسيون بيثبات هستند زماني پيش ميآيد كه دولت سياست خود را تغيير ميدهد. فرض كنيد دولت قبلا مالياتها را فقط زماني كاهش ميداد كه قصد داشت آن را براي مدت طولاني در سطح پايينتري نگه دارد. يك اقتصاددان سپس يك رگرسيون را تخمین ميزند تا اثر كاهش مالياتها را بر مصرف اندازه بگيرد. او يك ضريب بزرگ و كاملا معنيدار پيدا ميكند. اين يافته دولت را تشويق به اقتباس يك سياست جديد ميكند. از اين به بعد، دولت مالياتها را طي دوره ركود كاهش خواهد داد تا مصرف را تقويت كند و سپس دوباره مالياتها را بالا ميبرد وقتي اقتصاد به حالت عادي برگشت.
اما پس از مدتي مردم متوجه قضيه ميشوند و ميدانند كه وقتي مالياتهايشان كاهش مييابد به زودي دوباره افزايش خواهد يافت. اكنون وقتي مالياتها كاهش مييابد آنها مصرفشان را تقريبا به همان اندازه قبل افزايش نخواهند داد؛ بنابراين برگزيدن سياست جديد، باعث ميشود تا ضرايب رگرسيون قبلي كهنه و بياستفاده شود كه سياست جديد هم روي آن بنا شده است. اين به «انتقاد لوكاس» مشهور شده است چون که نخستين بار رابرت لوكاس برنده جايزه نوبل آن را مطرح كرد. در حالي كه همه اصولا ميپذيرند حق با لوكاس است و تغيير سياست باعث قديمي شدن ضرايب رگرسيون قبلي ميشود درباره اهميت مقداري آن اختلاف نظر وجود دارد. بيشتر اقتصاددانان در حالي كه اعتبار منطقي انتقاد لوكاس را ميپذيرند، آن را براي مسائل عملي روزمره نسبتا بياهميت ميدانند چون آنها انتظار دارند عامه مردم انتظارات خود درباره سياست دولت را خيلي آهسته تغيير دهند. سايرين فكر ميكنند كه انتقاد لوكاس بيشتر پيشبينيهاي قبلا مرسوم از اثر تغييرات سياست دولت را بياعتبار ميسازد. انتقاد لوكاس براي برخي تغييرات سياسي بسيار مهمتر از ساير تغييرات سياستي است، اما در كل، هيات منصفه هنوز حكم قطعي صادر نكرده است. ضرايب بيثبات نه فقط براي مطالعاتي كه از دادههاي سري زماني استفاده ميكنند، بلكه براي مطالعاتي كه از دادههاي مقطعي استفاده ميكنند يعني دادههايي كه در يك لحظه خاص به دست آمده است از قبيل نظرسنجيها از بيكاري جاري نیز مشكلزا هستند. براي مثال اكنون كه مردم از خطرات سيگار كشيدن بسيار باخبرتر شدهاند، معادله رگرسيوني كه تفاوت مصرف سيگار را در دهه 1950 خيلي خوب تبيين ميكرد حالا ديگر شايد نتواند چنين كاری بكند.
انتخاب متغيرهاي كنترل
فرض ميكنيم كه شما فروش خودروي بيامو را روي قيمت آن رگرس ميكنيد. انتظار داريم ضريب رگرسيون منفي باشد چون كه عليالظاهر در قيمتهای بالاتر، خودروي كمتري خريداري ميشود، اما كامپيوتر شما در عوض يك ضريب مثبت تحويل ميدهد. دليل آن را اينجا آورديم. در آن زمانهايي كه درآمد مردم به سرعت افزايش مييابد بيامو بيشتري خريداري ميشود و اين زمان دقيقا موقعي است كه فروشندگان هم قيمتهاي خود را بالا ميبرند. (اگر بر اساس منحنيهاي عرضه و تقاضا بخواهيم صحبت كنيم منحني تقاضا به سمت بالا و راست جابهجا ميشود و اينك در قيمتهاي بيشتري منحني عرضه را قطع ميكند.) اما شما به كامپيوتر چيزي درباره افزايش درآمد مصرفكنندگان نگفتهايد و تعجبي ندارد كه كامپيوتر همه مشاهداتي كه نشان ميدهد هر دو قيمت و فروش در حال افزايش هستند به عنوان وجود رابطهاي مثبت بين قيمت و فروش تفسير كند. بيترديد، در اين بين مشاهداتي نيز وجود دارد كه قيمت بيامو بالا ميرود و فروش كاهش مييابد (كه اين را حركت روي منحني تقاضا ميگوييم) و اينها را به درستي به عنوان رابطهاي منفي بين قيمت و فروش تفسير ميكند، اما امكان دارد فقط يك ضريب رگرسيون به شما بدهد كه هر دو حالت را دربر ميگيرد. پس ضريبي تحويل شما ميدهد كه ملغمهاي بيمعنی بوده و امكان دارد مثبت يا منفي باشد.
مثال ديگري ميآوريم و فرض ميكنيم درآمد را فقط روي تحصيلات رگرس ميكنيد. با اينكار چيزهايي را از قلم مياندازيد. افرادي كه تحصيلات بيشتري دارند معمولا ضريب هوشي بالاتري دارند و نيز در هر سطحي از تحصيلات، كساني كه ضريب هوشي بالايي دارند معمولا درآمد بالاتري دارند، اما چون به كامپيوتر چيزي درباره ضريب هوشي نگفتهايد تمام كاري كه آن ميتواند بكند كل تفاوت درآمدي مردم با ميزان متفاوت تحصيلات را فقط به تحصيلات نسبت ميدهد. با انجام اين كار، كامپيوتر ضريب رگرسيوني بيرون ميدهد كه خيلي بالا است، چون كه اثر تفاوتها در ضريب هوشي را در كنار تفاوتها در تحصيل شامل ميكند.
مثال سومي هم برايتان آوردهايم: در برخي مناطق بالكان، تعداد بچههاي متولد شده همبستگي مثبتي با تعداد لكلكها دارد. دليل آن اين است كه در روستاهاي بزرگ بچههاي بيشتر به دنيا ميآيند و نيز دودكشهاي بخاري بيشتري دارند كه لكلكها روي آنها آشيانه ميسازند. باز هم بخواهیم مثال ديگري بياوريم، همبستگي بين اندازه پاي دانشآموزان دبستاني و نمرات درس انجيلخواني است. بچههاي بزرگتر پاهاي بزرگتري دارند.
براي اينكه از چنين سردرگمي تا حد امكان رهايي يابيم معمولا بايد در رگرسيون خود، برخي رگرسورهاي اضافي را اضافه كنيم كه «متغيرهاي مشروطسازي» يا «متغيرهاي كنترل» ناميده ميشوند و هيچ علاقه ذاتي به اين متغيرها نداريم، فقط به اين خاطر به آنها علاقه داريم كه ضرايب و مقادير t متغيرها را آلوده نخواهند كرد؛ بنابراين در مثال بالا، با گنجاندن متغير كنترلی ضريب هوشي، به كامپيوتر اين اجازه را ميدهيم تا اثرات ضريب هوشي را از ضريبي كه براي اثر تحصيل بر درآمد محاسبه ميكند دور نگه دارد.
تصميمگيري در اينباره كه چه متغيرهاي كنترلي را بگنجانيم اغلب اوقات دشوار است. تئوري اقتصادي به شما ميگويد كه- با فرض ثبات ساير شرايط- اگر X رخ ميدهد Y نتيجه آن خواهد بود، اما اغلب صحبت كافي نميكند كه چه چيزهايي را در فرض ثبات ساير شرايط حبس ميكنيم و بنابراين بايد به عنوان متغير كنترل بالقوه در نظر گرفت. يا اگر كه برخي از اين متغيرها را مشخص ميسازد آن را معمولا فقط با عبارات كلي از قبيل «درآمد» ذكر ميكند. آيا منظور از درآمد، فقط درآمد جاري است يا درآمد گذشته نيز هست و اگر بلي تا چه حد به عقب برويم؟ و درباره درآمدهاي انتظاري آينده چه ميگوييم؟
راهحل به نظر بديهي ميرسد: همه متغيرهاي كنترل بالقوه مرتبط و مهم را شامل كنيد: اما اين توصيه چندين مشكل را به همراه دارد. يكي اينكه برخي از اين متغيرها را نميتوان شامل كرد چون كه آنها قابل اندازهگيري نيستند. براي نمونه، در مثال پیشین تحصيل و درآمد، جاهطلبي يك شخص را بايد به عنوان متغير كنترل شامل كرد اما معمولا دادههايي نداريم كه آن را اندازهگيري كند.
علاوه بر اين اگر يك متغير كنترل داراي همبستگي مثبت قوي با رگرسوري باشد كه شما به آن علاقهمند هستيد، پس در يك نمونه كوچك، شامل كردن آن ميتواند مقدار t آن رگرسور را بهشدت پايين آورد چون كامپيوتر مقداري از اثرات رگرسوري را كه به آن علاقهمند هستيد به متغير كنترل نسبت ميدهد. بيشتر اقتصاددانها براي اينكه چنين مشكلي را برطرف كنند پس از تخمین رگرسيون با متغيرهاي كنترل بيشمار، همه آنهايي را كه از نظر آماري در سطح 5 درصد معنیدار نيستند حذف ميكنند و دوباره رگرسيون را تخمین ميزنند و فقط اين رگرسيون دوم را گزارش ميدهند.
مساله ديگر اين است كه آزمايش كردن با تركيباتي از متغيرهاي كنترل گوناگون، راه را روي آزمايش كردن تا زماني كه مجموعه متغيرهايي پيدا كنيد كه نتايج دلخواه و پشتيبانيكننده تئوري شما را بدهد باز ميكند- بحث دادهكاوي را كه پيشتر آورديم به خاطر آوريد.
دعوت به اقتصادخواني
تحليل رگرسيون: موتور حركت اقتصاد تجربي قسمت دوم
توماس مایر
مترجم: جعفر خیرخواهان
حدس نادرست كه كدام متغير كنترل را بگنجانيم نيز خطرناك است. حتي وقتي فقط در بين متغيرهاي كنترل ظاهرا معقول انتخاب ميكنيم، اندازه ضريبي كه به آن علاقهمند هستيد رابطه قوي با متغير كنترلي پيدا ميكند كه در رگرسيون گنجانيدهايد.
برخي اوقات وقتي متغيرهاي متفاوتي را شامل ميكنيد حتي علامت ضريب تغيير ميكند. يك مثال كلاسيك اين پرسش است كه آيا مجازات مرگ جلوي قتل را ميگيرد. بيشتر مطالعات نرخ خودكشي در ايالتهاي مختلف را روي يك متغير ساختگی رگرس كردهاند كه آيا آن ايالت مجازات اعدام را در كنار چندين متغير كنترل وضع كند يا خير. نتايج آنها يكسره تغيير ميكند از این حالت که مجازات اعدام عامل بازدارنده قوي خودكشي است تا اين حالت كه هيچ اثري ندارد يا حتي اثر مثبت بر نرخ خودكشي دارد.
هنگام استفاده از دادههاي سري زماني، خيلي آسان ميتوان به خاطر متغير كنترل مفقودي به اشتباه افتاد. در بيشتر سريهاي زماني مثل جمعيت هند، توليد ملي بلژيك و تعداد بازديدكنندگان از گالري اوفيزي در فلورانس و ... يك روند به سمت بالا داريم؛ بنابراين همبستگي وجود دارد. خوشبختانه، رگرس كردن تغييرات سال به سال، به جاي استفاده از سطح متغيرها، اغلب كافي است تا اين روند زماني مشترك را حذف كند.
در حالي كه همه اينها قطعا مسالهساز هستند، به اين معنی نيست كه بايد خود را به دامن نااميدي پستمدرنيسم بيندازيم و اعلان كنيم به همان اندازه كه مجازات اعدام مانع قتل ميشود، «درست» است به همان اندازه هم نادرست است يا خودمانيم لكلكها همراه خود نوزاد ميآورند و نميآورند، اما به اين معنی هست كه بايد نگران اين باشيم كه كدام متغير كنترل را شامل كنيم و كداميك را شامل نكنيم. يك روال كار مفيد اين است كه سعي كنيم چندين مجموعه رگرسيونها را امتحان كنيم كه شامل متغيرهاي كنترل متفاوت ميشود تا ببينيم نتايج ما با توجه به برخي انتخابهاي تقريبا دلبخواه متغيرهاي كنترل چقدر استحكام دارد. فقط در صورتي كه تمام اين «آزمونهاي استحكام» نتايج مشابهي در كل به دست دهد، ميتوانيم درباره نتايج احساس اطمينان كنيم.
پل زهوار دررفته (مغالطه) علت شمردن امر مقدم
اگر نوشتن و تلفظ «همبستگي» به «همرابطهاي» تغيير يابد بسياري از سردرگميها برطرف ميشود. با اين تغيير در نوشتن ميخواهيم روشن سازيم كه همبستگي به اين معنی است كه دو يا چند متغير يك رابطه خاص با هم دارند از اين قبيل كه Y هميشه بالا است وقتي كه X بالا باشد. بيشتر فيلسوفان (و فيلسوفان، نگهبانان مفهوم عليت مدنظر ما هستند) و اقتصاددانان (كه به عليت بسيار عليتر از فيلسوفان فكر ميكنند) توافق دارند كه چيزي بيش از چنين همرابطهاي نياز است تا ثبات شود كه x و y رابطه علّي با هم دارند. تعيين اينكه دقيقا به چه چيزي نياز است، يك مساله فلسفي عميق و فوقالعاده دشوار است. بگذاريد از اين مبحث رد شويم و در عوض استفاده روزمره اين اصطلاح با همه ابهام و گنگ بودن آن را بكار ببريم. اين مفهوم گنگ كافي است، زيرا همه آن كاري كه ميخواهم انجام دهم تقويت توانايي شما براي ايستادگي در برابر ادعاهايي است كه صرفا با نشان دادن اينكه همبستگي وجود دارد ثابت ميكنند يك رابطه علّي داريم.
اگر دادهها نشان ميدهد كه x و y همبستگي دارند ميتواند به دلايل زير باشد: (1) x واقعا باعث y ميشود همان طور كه ادعا شده است؛ (2) همزماني داریم يا به بيان ديگر، نمونه خيلي كوچك است؛ (3) كوتاهي در گنجاندن متغيرهاي كنترلي درست؛ و (4) y باعث x ميشود يا به اصطلاح «عليت معكوس» داریم. حالت نخست كه x واقعا علت y است كه ادعا هم ميشود مشكلي ايجاد نميكند و بنابراين نيازي به بحث ندارد. حالت دوم را كه همزماني است، ميتوان بهسرعت برطرف كرد با اشاره به اينكه اگر از سطح 5 درصد معنیدار بودن استفاده كنيم و اگر دادهها توزيع نرمال داشته باشند پس در حداكثر 5 درصد موارد بايد انتظار داشت كه يك رابطه معنیدار آماري- اما ساختگي- بين x و y پيدا كنيم. من در مطالب بالا به حالت سوم كه غيبت متغيرهاي كنترل درست است پرداختم؛ اگر z باعث هم x و y ميشود، پس رگرس كردن y صرفا روي x منجر به همبستگي ساختگي ميشود.
حالت چهارم، عليت معكوس، يك مشكل همه جا حاضر است. بارها و بارها رسانهها گزارشهايي از اين قبيل را منتشر ميكنند كه افرادي كه ورزش ميكنند تندرستتر هستند، ابدا تعجبي ندارد: شايد نشان ميدهد كه ورزش مردم را تندرست نگه ميدارد يا اينكه بيشتر افراد بيمار نميتوانند ورزش كنند.
مردان متاهل درآمد بيشتري نسبت به مردان مجرد دارند، پس ازدواج كردن شما را ثروتمندتر ميكند. بله به نظر قابل تامل ميآيد، اما اين نكته نيز قابل تامل است كه زنان، كمتر احتمال دارد با مرداني ازدواج كنند كه درآمد پاييني دارند. كشورهايي كه حمايت قوي از حقوق ماليكت ميكنند درآمد سرانه بالاتري نسبت به كشورهايي دارند كه چنين كاري نميكنند. آيا نتيجه ميگيريم كشورهايي كه حقوق مالكيت ضعيف دارند ميتوانند با تقويت اين حقوق، درآمدهايشان را افزايش دهند يا اينكه نتيجه ميگيريم ثروتمند شدن يك كشور را وادار ميكند تا از حقوق مالكيت حمايت كند؟ يا اينكه احتمالا يك كمي از هر دو درست است؟ اگر نامزدي كه كمكهاي انتخاباتي بيشتري دريافت ميكند معمولا برنده انتخابات ميشود، آيا منظور اين است كه كمكهاي انتخاباتي نتيجه انتخابات را تعيين ميكند يا اينكه نامزدهايي كه احتمال بيشتري براي برنده شدن دارند كمكهاي انتخاباتي بيشتري دريافت ميكنند؟ دادهها نشان ميدهد كه افراد خوشبين خوشحالتر هستند. آيا منظور اين است كه باورهاي خوشبينانه باعث ميشود مردم خوشحال شوند يا اينكه خوشحال بودن باعث ميشود تا شما بيشتر در معرض اين باور باشيد كه همه چيز خوب است؟ آيا قاعده طلايي، يعني آن كس كه طلا دارد قاعدهها را تعيين ميكند يا آن كسي كه قاعدهها را تعيين ميكند طلاها را به دست ميآورد؟ هر وقت با يك همبستگي گزارش شده برخورد كرديد بايد چنين پرسشي را هميشه بپرسيد:«اگر عليتي وجود دارد كدام علت و كدام معلول است؟»
چگونه ميتوان گفت كه آيا يك همبستگي پيام معتبر عليت را با خود حمل ميكند؟ در مواردي كه خودمان در بهوجود آوردن تغييرات در يكي از متغيرها دخالت داشتهايم كار آسان است، براي مثال با گرم كردن يك ماده شيميايي ميبينيم آيا آن ماده منفجر خواهد شد و يكي از دلايل مهم كه روش آزمايشگاهي، علوم طبيعي را اينقدر كارآمد ساخته است همين است. در شرايطي كه خودمان كاري نكرديم نيز ميدانيم كدام علت و كدام معلول است، وقتي دخالت توسط عاملي صورت ميگيرد كه نميتواند نتيجه متغيري باشد كه ما متغير وابسته در نظر گرفتيم. سقف فرو ميريزد چون توفان آمده است: فروريختن سقف باعث توفان نشده است. در علم اقتصاد چنين دخالتهاي آشكارا برونزا، اگر چه كاملا غايب نيستند نادر هستند، اما هر جا كه بتوان آنها را پيدا كرد قادر به حل عليت معكوس، بسيار بهتر از هر روش ديگري هستیم. براي مثال، همبستگي روشني بين تعداد سالهاي تحصيل و تندرستي وجود دارد، اما ميتواند به اين خاطر باشد كه تحصيلات مردم را وا ميدارد تا سبك زندگي سالمتري برگزينند يا اينكه دانشآموزان تندرست مدت زمان طولاني نسبت به دانشآموزان بيمار در مدرسه ميمانند. راهحل چيست: به ايالتهايي نگاه كنيد كه با بالا بردن سني كه دانشآموزان ميتوانند مدرسه را ترك كنند در اين فرآيند دخالت كردند و سپس ببينيد آيا تندرستي افزايش نيافت. اگر تندرستي افزايش يافته است پس ميتوان گفت تحصيل باعث افزايش تندرستي ميشود.
ساير روشهاي برقراري عليت، پيچيدهتر هستند. يك پاسخ كه اغلب آزمون شده است اتكا به اين اصل است كه علت مقدم بر معلوم است. فرض كنيد تغيير عرضه پول و سطح قيمت همبستگي دارند و تغيير عرضه پول زودتر از تغيير سطح قيمت باشد. پس، تفسير سرراست اين است كه تغيير عرضه پول، علت تورم است.
اما سرراست بودن، هميشه به معني درست بودن نيست. براي اينكه چنين آزمون زمانبندي معتبر باشد متغيرها بايد به درستي تعريف شوند. براي مثال، تئوري اقتصادي به ما ميگويد، يا چنين به نظر ميرسد كه به ما ميگويد وقتي فدرال رزرو، نرخ بهره وجوه فدرال (نرخ بهرهاي كه فدرال رزرو كنترل ميكند) را افزايش ميدهد ساير نرخهاي بهره نيز بايد افزايش يابد، اما فرض كنيد مشاهده ميشود اين نرخها پيش از افزايش نرخ بهره وجوه فدرال افزايش مييابند. آيا منظور اين است كه افزايش آنها باعث شد تا فدرال رزرو نرخ بهره وجوه را افزايش دهد؟ خير، تبيين محتملتر اين است كه بازار پيشبيني كرد فدرال رزرو ميخواهد چكار كند و نرخهاي بهره را درست در آن زمان افزايش داد. متغيري كه بايد دنبالش بگرديم اقدام فدرال رزرو نيست، بلكه پيشبيني بازار از آن اقدام است.
يا فرض كنيد مشاهده ميشود عرضه پول زودتر از توليد افزايش نمييابد، بلكه در حدود همان زمان افزايش مييابد. آيا به اين معنی است كه توليد تاثير زيادي از سياست پولي نميپذيرد؟ دوباره نه لزوما، چون آنچه كه ميتواند بر توليد تاثير گذارد سطح (میزان) عرضه پول نيست؛ بلكه نرخ تغيیر آن است و نرخ تغيير عرضه پول يك سري متحرك هموار شده داراي قلهها و درههايي است که در سطح آن سری دیده نمیشود. چنين مسالههايي كار را بغرنج ميكند.
مشكل ديگر در آزمون ساده زمانبندي اين است كه حتي اگر قلهها و درههاي هر سري آشكارا مرزبندي شوند، معمولا دشوار است كه ببينيم آيا يك قله خاص در يك سري بايد با قله قبلي يا بعدي در ساير سريها مطابقت يابد. اين مشكل وجود نداشت اگر ما ميدانستيم مثلا شش ماه زمان ميبرد تا يك متغير بر متغير ديگر تاثير گذارد، اما تئوري ما معمولا اينقدر خاص نيست و حتي ممكن است طوري بيان شود كه وقفه از موردي به مورد ديگر كاملا تغيير كند. اگر اين طور باشد پس در حالي كه كاملا درست نيست كه بگوييم در مطابقت دادن قلهها و درههاي دو سري هر چيزي امكان دارد، چيزهاي زيادي بيش از آنچه دوست داريم امكان وقوع دارد. با همه اين احوال، يك نگاه ساده به پيامدهاي قلهها و درهها احتمالا در غالب اوقات (و به درستي) به عنوان يك تقريب سرانگشتي استفاده ميشود
يك واكنش موشكافانه به مساله عليت «آزمون عليت گرنجر» است (كه از نام كلایو گرنجر برنده جايزه نوبل گرفته شده است.) در اين آزمون، رويداد x، علت رويداد ديگر y دانسته ميشود اگر وقوع x بسيار محتمل سازد كه متعاقب آن y نيز رخ خواهد داد، (در حاليكه در همان زمان با وقوع y احتمال رخ دادن x وجود نداشته باشد). مشخصتر بگوييم عواملي كه رفتار يك متغير اقتصادي را تعيين ميكنند معمولا از فصلي به فصل ديگر (يا حتي سال) تقريبا پايدار ميمانند به طوري كه رگرس كردن يك متغير روي مقادير گذشته آن اغلب اجازه ميدهد تا بيشتر رفتار مشاهده آن در فصل بعدي را پيشبيني كنيم. اكنون فرض كنيد وقتي مثلا نرخ تورم را روي مقادير گذشته آن در چند فصل قبل و نيز روي نرخ رشد پول در دوره پيش رگرس ميكنيد يك ضريب رگرسيون معنیدار و چشمگير براي نرخ رشد پول به دست ميآوريد، اما وقتي نرخ رشد پول را روي مقادير گذشته آن و روي نرخ تورم گذشته رگرس ميكنيد، ضريب نرخ تورم معنیدار نبوده يا علامت اشتباهي دارد. گرنجر استدلال ميكند كه نخستين اين يافتهها با اين فرضيه سازگار است كه تغييرات در نرخ رشد پول باعث تغييرات در نرخ تورم ميشود در حالي كه دومي با اين فرضيه ناسازگار است كه تغيير نرخ تورم باعث تغيير در نرخ رشد پول ميشود. بنابراين همبستگي مشاهده شده نرخ رشد پول و نرخ تورم بايد اينگونه تفسير شود كه اولي باعث دومي ميشود، اما اعتبار اين تفسير از عليت هنوز مناقشهبرانگيز است. بهعلاوه، كاربرد موفقيتآميز آزمون گرنجر مستلزم اين است كه x با وقفه در يك رگرسيون معنیدار باشد، در حالي كه y با وقفه با علامت درست در رگرسيون ديگر معنیدار نيست. اگر اينطور نباشد، پس آزمون گرنجر بيآزمون گرنجر.
آزمونهاي عليت گرنجر مثل ساير آزمونهاي زمانبندي، با اين مشكل مواجهند كه بيشتر سري دادههاي ما به حد كافي معين و محدود شده زماني نيستند؛ اگر چه دادههاي ساعتي تغيير قيمت سهام را داريم و ميتوان دادههاي دقيقه به دقيقه از نرخ ارز را به دست آورد، برخي سريها از قبيل توليد صنعتي يا بيكاري فقط ماهانه در دسترس هستند و دادههاي GDP فقط فصلي منتشر ميشوند؛ بنابراين برخي اوقات ما نميتوانيم بگوييم كدام متغير اول حركت كرد.
سه مشكل ديگر
در اينجا سه مشكل كوچكتر؛ اما هنوز مهم را آوردهايم: يكي اينكه با مجذور كردن انحرافات بين مقادير پيشبيني شده و واقعي y كه در محاسبهR2 صورت ميگيرد، اهميت چند انحراف بزرگ، نسبت به انحرافات كوچك را بزرگ ميكند. براي مثال انحراف 5 و انحراف 7 داراي ميانگين 6 است همانطور كه انحراف 2 و انحراف 10 ميانگين 6 دارند، اما ريشه دوم ميانگين انحراف مجذور شده در مورد اول 1/6 و در مورد دوم 2/7 است. براي اينكه اثر يك مشاهده پرت را نشان دهيم یك مشاهده پرت را به 63 مشاهده در شكل 1 اضافه كرديم (گوشه جنوب شرقي)، از 68/0 به 40/0 افت ميكند. در شکلی دیگر (بر اساس مجموعه متفاوتي از 30 مشاهده) مقدار R2 = 47/0، ضريب رگرسيون 46/0 و مقدار t = 2/5 است، اما كل همبستگي از دو مشاهده پرت ناشي ميشود. بدون وجود آنها،R2 به صفر ميرسد. كادر 4 بحث ميكند كه با متغيرهاي پرت چكار كنيم. دوم يك نكته پردردسر وجود دارد: در شكل 1 هفت مشاهده آخری در گوشه شمال شرقی يك رابطه منفي بين دو متغیر x و y را نشان ميدهند به جاي رابطه مثبتي كه در كل شكل ديده ميشود. آيا اين نتيجه صرفا به خاطر خطاي نمونهگيري است- كه اگر فقط 7 مشاهده داشته باشيم چنين اتفاقی ميافتد- يا اينكه دادهها به ما ميگويد رابطه مثبت بين x و y براي مقادير بسیار بالای x و y برقرار نيست؟ بدون انجام تحقيقات بيشتر چيزي نميتوان گفت، اما يك چيز روشن است: بايد با دقت به نمودار پراكنش نگاه كرد.
سوم، يكي از نااميدكنندهترين مسائل در علم اقتصاد اين است كه مدلهايي كه دادههاي گذشته را به خوبي برازش ميكردند اغلب موفق به پيشبيني خوب آينده نميشوند. دليل صرفا اين نيست كه همانطور كه بحث شد گذشته آينده نيست، بلكه احتمال دارد خوبي برازش بهدست آمده از دادههاي گذشته، نتيجه دادهكاوي باشد.
سرانجام به صورت خودكار فرض نكنيد تبيين (يعني تئوري) ارائه شده توسط معادله رگرسيون با بالاترينR2 و بهترين مقدار t لزوما بهترين تبيين است. خوبي برازش فقط يكي از چندين معيار در انتخاب بين تئوريها است. تعميمپذيري، فايدهمندي، امكان رديابي و مرتبط بودن با ساير تئوريها نيز اهميت دارد. براي مثال فرض كنيد بتوان افزايش دستمزد آتي را با يك معادله رگرسيون كه نرخ بيكاري را به عنوان رگرسور استفاده ميكند بهتر از رگرسيوني پيشبيني كرد كه افزايش دستمزد در هشت فصل قبل را به عنوان رگرسور در نظر ميگيرد. قطعا اولي تبيين عميقتر و معنیدارتري از دومي ارائه ميدهد.
6- نتيجهگيري
بخش زيادي از مطالبي كه در اين جا آورديم به ما هشدار ميداد كه چگونه هنگام خواندن استدلالي بر اساس آمار اقتصادي حواسمان جمع باشد. خوشبختانه چنين خواندن انتقادي معمولا نيازمند هيچ دانش زيادي از اقتصاد و آمار نيست. آنچه نیاز است اقتباس يك گرايش انتقادي به جاي سر فرود آوردن خاضعانه در برابر آمارهاي تعارف شده است. رسانهها به ما ميگويند همبستگي وجود دارد، اما نه فضاي نشريه اجازه ميدهد و نه رغبتي هست تا چنين «جزئياتي» مثل متغيرهاي كنترل مورد استفاده بحث شوند. در اينباره هيچ كاري نميتوان انجام داد مگر اينكه زمان كافي براي يافتن منبع اصلي داشته باشيم، اما ميتوان پرسيد آيا همبستگي پيشنهادي را بايد به صورت رابطه علي ديد و اگر اينطور است جهت عليت به كدام طرف است.
به طور كلي با توجه به اطلاعات ناقصی كه رسانهها درباره جزئيات مطالعات آماري گزارش شده به مخاطبان خود ميدهند، معقول است كه حداقل مقداري وزن براي عوامل انساني قائل شويم: اين نويسندگان احتمال دارد چه سوگيريهايي داشته باشند، با چه تنبيهي، در صورت وجود، برحسب اعتبار از دست رفته (كه براي افراد دانشگاهي و كادر موسسات پژوهشي ميتواند بسيار گران تمام شود) مواجه ميشوند اگر خطا كنند؟ آيا هيچ عبارت گمراهكننده يا سهلانگارانهاي از اين نويسندگان در گذشته ديدهايد؟ آيا اين بررسي در نشريهاي منتشر شده است كه اهل فن به آن ارجاع ميدهند؟
برخي اوقات تنها راهحل، تاييد ناداني و برخورد محتاطانه با اطلاعات در دسترس است. نه اينكه آن را صرفا به عنوان يك «واقعيت» ببينيم چون كه به شكل يك «عدد» درآمده است. اين عبارت كه كسري بودجه دولت طي پنج سال آينده 3/301 ميليارد دلار خواهد شد به همان اندازهاي «غير علمي» است كه بگوييم كسري بودجه زياد خواهد بود.
براي اينكه چنين نگاه توام با شك و ترديدي پيدا كنيد در فصول گذشته دامهاي بالقوه بسياري را پوشش داديم كه احتمال دارد برخي خوانندگان با خود فكر كنند در علم اقتصاد، نتايج آماري را هرگز نبايد جدي گرفت. اين فكر اشتباهي است. جايگزين اتكا كردن به آمار اقتصادي، كور شدن اشتهاي علمي است: اتكا به تاكيدات صرف، حكايات، درسهايي از يك يا چند رويداد مهم نادر يا به تئوريسازي آزمون نشده.
بهعلاوه، آمارهاي مشكوك در علوم طبيعي نيز ناشناخته نيستند و در عين حال اين علوم پيشرفتهاي خيرهكنندهاي كردهاند. همچنين همان طور كه در فصل بعدي با مثالهايي مشخص نشان خواهيم داد، به رغم مشكلات بيشماري كه در اين فصل و فصول قبلي بحث شد، تحليل اقتصادسنجي قابليت ارائه دانشهاي ارزشمندي به ما دارد. سرانجام بحث انتقادي استدلال شفاهي و حقههاي خطابههاي آن نيز ميتواند اين تاثير را بر جا گذارد كه آنها را هم نبايد جدي گرفت. «هشدار سخنران يا شنونده بايد عاقل باشد» در هر جايي و نه فقط در كارهاي اقتصاد سنجي كاربرد دارد، اما آنچه اين عبارت معنی ميدهد «خواننده آگاه باشد» است نه اينكه «خواندن را متوقف كند.»
كادر1- ضريب تعيين و ضريب همبستگي
براي محاسبهR2، دو حدس درباره مقدار هر كدام از yها مقايسه ميشود. يكي حدسی كه شما ميزنيد اگر اصلا هيچ شناختي درباره رابطه x و y نداشتيد و ديگري حدسي است كه شما ميزنيد وقتي معادله رگرسيوني داريد كه x را به y در دسترس ارتباط ميدهد و مقادير هر كدام از xها را ميدانيد. براي مثال، اگر ميخواهيد مخارج مصرف سالانه يك خانواده خاص را حدس بزنيد كه هيچ چيز درباره آن نميدانيد، بهترين كاري كه ميتوانيد انجام دهيد استفاده از ميانگين مخارجي همه خانوادهها است. اكنون فرض ميكنيم درآمد خانواده به شما گفته شده است و نيز معادله رگرسيون را داريد:
مخارج مصرفي = (000/20) + (8/0) درآمد است. سپس شما با اين اطلاعات ميتوانيد مصرف خانواده را تخمين بزنيد.
در اين مورد و همچنين موردي كه معادله رگرسيون را در اختيار نداريم و فقط ميانگين مخارج مصرفي همه خانوادهها را استفاده ميكنيم، تخمين به دست آمده مقداري خطا خواهد داشت و اندازه نسبي خطا در اين دو مورد به ما ميگويد كه معادله رگرسيون چقدر توانسته است تخمين ما را بهبود ببخشد. بنابراين ميتوان از نسبتي استفاده كرد كه در صورت آن، ميزان خطا باشد وقتي معادله را داريم و در مخرج آن، ميزان خطا باشد وقتي معادله را نداريم. اگر معادله يك برازش كامل باشد خطاي ما وقتي معادله را استفاده ميكنيم صفر خواهد بود و نسبت آنها 1 خواهد شد، اما اينكه بخواهيم از نسبتي استفاده كنيم كه خوبي برازش معادله رگرسيون را با پايين بودن آن به نشانه بهتر بودن معادله نشان دهد چندان جالب به نظر نميرسد پس يك كلك ميزنيم كه سنجه همبستگي را نه با نسبت بالا بلكه با 1 منهاي آن نسبت بيان ميكنيم. پس بيدرنگ ميتوان نتيجه گرفت: اكنون همبستگي بهتر زماني است كه سنجه همبستگي بالاتر باشد. به يك گام بيشتر نياز داريم. به دلايل فني، بهتر است خطاهاي ميانگين كه با استفاده و بدون استفاده از معادله به دست آورديم را مقايسه نكنيم بلكه در عوض ميانگين مجذور خطاها را مقايسه كنيم كه اين همان R2 است.
كادر 2- اندازهگيري روندها
يكي از كاربردهاي رايج رگرسیون، يافتن روند يك سري از قبيل GDP است. تمام كاري كه بايد بكنيد واگذاري اعداد پشت سرهم (مثلا 1، 2، 3، .... n) به هر كدام از مشاهدات پيدرپي (مثلا سالانه) و سپس رگرس كردن متغير y روي اين اعداد است. اندازهگيري روندها نه فقط براي پيشبيني مفيد است، بلكه همچنين براي نشان دادن اينكه چگونه تغيير متغير طي يك دوره خاص را با تغيير معمولي آن مقايسه كنيم. براي مثال معنیدار ساختن يك گزارش به اين شيوه آسانتر است كه «اشتغال در ماه گذشته، اندكي بيش از روند خود رشد كرد» تا اينكه گزارش را چنين تفسير كنيم كه «میزان اشتغال 110 هزار تا رشد كرد». خواننده نميداند آيا 110 هزار شغل، افزايش «بزرگ» يا «كوچكي» است.
روش ديگر شنيدن صداي آرام اما استوار تغيير بلندمدت از طريق حركات پياپي كوتاه مدت، برازش يك ميانگين متحرك روي دادهها است. ايده اساسي اين است كه ما فهم بهتري در مورد برخي دادهها، مثلا قيمت سهام به دست ميآوريم اگر صرفا به مقدار جاري آنها نگاه نكنيم بلكه به مقدار ميانگين آنها طي يك مدت زمان نگاه كنيم. بنابراين يك دوره با طول زماني معين (اغلب به دلخواه خود) مثلا پنج سال انتخاب كنيد و ميانگين را براي اين پنج سال به دست آوريد و اين ميانگين را در سال وسط دوره پنج ساله نقطهگذاري كنيد. سپس سال اول را حذف كرده و يك سال به انتها ميافزاييم و اين را به صورت نقطهاي براي سال بعد ميگذاريم و الی آخر. چنين ميانگين متحركي بيشتر نوسانات دوره به دوره را حذف كرده، اما به خشكي روند خط راست نيست.
اينجا دو هشدار درباره روندها میدهیم. نخست، ارزش ضريب روند را برخي اوقات ميتوان با انتخاب تاريخ شروع يا پايان خاص دستكاري كرد. اگر با سالي شروع كنيم كه متغير به نحو غيرعادي پايين بوده است نرخ رشد سريعتري به دست ميآوريم نسبت به حالتي كه یک سال با بالا بودن غيرعادي متغير را انتخاب كنيم. دوم اينكه روند، سرنوشت محتوم نيست. به هشدار پيشگويان بدبين يا وعدههاي شتابزده افراد خيالپرداز كه روندهاي جاري را براي آينده پيشبيني ميكنند اعتنايي نكنيد. اگر بازار سهام در سه سال گذشته هر سال 30 درصد رشد كرده است قطعا براي ده سال آينده ادامه نخواهد يافت.
در اينباره متاسفم.
بدبختانه، در حالي كه پيشبيني آنچه اتفاق خواهد افتاد يا تحليل عوامل زيربنايي آن كاري مشكل است، پيشبيني يك روند آسان بوده و اغلب به نتيجهگيري شگرف و بنابراين با ارزشي منجر ميشود، به خصوص اگر خوانندگان اين شرط را فراموش كنند: «اگر روندهاي جاري ادامه يابد.» واكنش مناسب به شيفتگان روند اين است كه بگوييم بسيار زودتر از آن زماني كه پيشبينيها به آزمون گذاشته شود همه ما مردهايم یا به وسيله يك گربه غولآسا بلعيده شدهايم. يك بچه گربه در همسايگي ما هست كه جثهاش اكنون دو برابر هفته قبل شده است. اين روند را براي پنج سال آينده پيشبيني كنيد.
كادر3- استفاده از رگرسيون براي رديابي تبعيض جنسيت
يك شيوه استاندارد براي رديابي تبعيض شغلي، استفاده از تحليل رگرسيون براي تعيين اين است كه آيا نژاد يا جنسيت شخص، به تبيين حقوق وي نسبت به حقوق ساير كاركنان با شايستگيهاي مشابه كمك ميكند. بياييد ببينيم چگونه آزمون تعيين تبعيض عليه اساتيد زن را انجام ميدهيم. نخست درباره همه متغيرهايي كه حقوق اساتيد را تعيين ميكنند فكر ميكنيم. سپس معادلهاي مثل زير را مينويسيم:
y= a +bx1 +cx2 +dx3 +ex4 +fx5 +gx6 +hx7
در اينجا y حقوق هر پروفسور در نمونه، a عدد ثابت، X1 سنجه كيفيت دانشگاهي است كه استاد مدرك دكتري خود را گرفته است، X2تعداد سالهاي پس از گرفتن مدرك دكتري است، X3 رشته تحصيلي استاد، X4 ارزيابيهاي عملكرد تدريس وي، X5 شاخص نشريات، X6جنسيت و X7 همه متغيرهاي ديگري است كه بايد شامل ميشد؛ اما ناديده گرفته شده است چون كه شناخته شده نيستند يا قابل اندازهگيري نيستند؛ معنیدار بودن آماري و محتوايي g خواهد گفت كه آيا تبعيض جنسي وجود دارد و چقدر بزرگ است.
هنگام برازش اين معادله به دادهها، متغير اسرارآميزX7 البته بايد حذف شود. اگر و فقط اگر همبستگي مثبت يا منفي با X6 متغير جنسيت نداشته باشد يا اگرX7 اثر اندكی بر حقوق اساتيد داشته باشد، g يك تخمين بدون سوگیری از دامنه تبعيض جنسيتي خواهد بود. چنین برمیآید كه اين مطالعات قابليت اتكاي بالايي ندارند؛ اما آيا روشهاي بهتري براي پاسخ دادن به اين پرسش وجود دارد؟
كادر4- با مشاهدات پرت چكار كنيم؟
يك موضع افراطي اين است كه چون مشاهدات پرت با بقيه دادهها همخواني ندارند بايد اشتباهي در رابطه با آنها شده باشد؛ بنابراين ميتوان آنها را بدون حتي گفتن به خواننده كنار گذاشت. براي اينكه دفاع قوي از اين ادعا بشود، فرض كنيد مجموعه دادههاي ساعتي كارگران منسوجات را داريم و در جلوی يكی از مشاهدات عدد 1 ميليون دلار نوشته شده است، اما بيشتر مشاهدات پرت ظاهرا بيمصرف نيستند و كنار گذاشتن مشاهدات پرت ميتواند به كنار گذاشتن مشاهداتي تنزل نمايد كه از فرضيه پژوهشگر پشتيباني نميكنند. اگر كمترين ترديد درباره توجيه براي كنار گذاشتن يك مشاهده پرت داريم، به خوانندگان بايد گفته شود كه آن را كنار گذاشتيم و چرا.
موضع افراطي ديگر اين است كه بگوييم «خب، اين آن چيزي است كه دادهها نشان ميدهند و همين كه هست، اما اين كار غيرواقعبينانه است. وقتي يك مشاهده پرت داريد به درستي احساس ميشود كه بايد آن را بررسي كرد. از اين گذشته احتمال دارد كه آن به خاطر خطاي در ثبت اعداد باشد. يا احتمال دارد كه عددی واقعي اما يك مورد خاص باشد. براي مثال اگر متغير وابسته ما، تعداد سفرهای هوايي باشد، مشاهده پرت مثلا بيانگر اعتصاب در يك شركت مهم هواپيمايي است. اگر بتوان دفاع معقول كرد كه مشاهده پرت مورد خاصي است، پس ميتوان نتايج رگرسيون را با و بدون آن گزارش داد. تكنيكهاي رياضي براي تشخيص مشاهدات پرت وجود دارد، اما حتي با اينحال اينكه كجا خط را بكشيم گاهي اوقات يك مساله پيچيده است. چنين وابستهبودنی به قضاوت شخصي، عمل «غيرعلمي» نيست.
ماخذ:دنياي اقتصاد