توماس مایر
مترجم: جعفر خیرخواهان
در جایگاه قضاوت نشستن، باعث مي‌شود تا شخص بیش از آن که به سطح معنی‌دار بودن آماري توجه کند نگران روابط آماري باشد. معنی‌دار بودن نتايج فقط در صورتي قابل تاييد است كه درك عميقي از همه جنبه‌هاي مساله داشته باشيم.

بايد شناخت کافی از همه تئوري‌هاي مرتبط با موضوع داشت و ادبيات گسترده درباره آن موضوع و نهادهايي را كه نقش مهمي در مساله مورد بررسي دارند، شناخت.
(ديويد كلاندر، «چگونگی شکل‌گیری اقتصاددان»، ص 243)

ابزار اصلي آماری كه در علم اقتصاد استفاده مي‌شود تحليل رگرسيوني است. در اين شيوه به دو يا چند سري آماري نگاه می‌کنیم كه آيا به نحوي سازگار با هم در يك جهت يا در جهت مقابل حركت مي‌كنند و اگر اين‌طور است وقتي يكي از سري‌ها تغيير مي‌كند سري ديگر چقدر تغيير خواهد كرد: به عبارت ديگر هم‌ارتباطي آنها چگونه بوده و چقدر دقيق است. فرض كنيد قصد داريم فروش یخچال را تبيين يا پيش‌بيني كنيم. فروش یخچال را «متغير وابسته» مي‌ناميم چون كه مي‌خواهيم بدانيم به چه متغيرهايي وابسته است. سپس به تئوري اقتصادي يا به فهم مشترك عمومي متوسل مي‌شويم تا به ما بگويد عوامل تعيين‌كننده- كه آنها را «متغير مستقل» يا گاهي اوقات «رگرسورها» مي‌نامند- چه هستند. آنها را «متغير مستقل» مي‌نامند چون در حالي كه روی فروش یخچال تاثير مي‌گذارند فرض مي‌كنيم فروش یخچال در مقابل تاثيري بر آنها نمي‌گذارد. (اين امكان نيز هست كه مجموعه معادلات رگرسيون را به طور همزمان حل كنيم كه متغير وابسته در يك معادله، متغير مستقل در معادله ديگر مي‌شود.)
در علوم طبيعي اغلب اوقات، دو متغير رابطه دقيق دارند كه مي‌توان به صورت يك قانون علمي بيان كرد. براي مثال. متغير y هميشه دقيقا b برابر متغير ديگر x است. در اين حالت، نيازي به تحليل رگرسيوني نیست. تمام كاري كه بايد انجام داد دقت در مقادير هر جفت x و y است و با استفاده از اينها می‌توان مقدار b را حساب کرد، اما اگر x تنها متغيري نباشد كه بر y تاثير مي‌گذارد چنین روشی نتيجه نمي‌دهد. همان طور كه در شكل 1 ديده مي‌شود رابطه بين x و y دقيق نيست.

شكل 1- رابطه بين دو متغير
جایگاه متغير x را روي محور افقي در نظر بگيريد. برخي نقاط در جايگاه بسيار بالايي روي محور عمودي قرار دارند و برعكس. يك شيوه فهمیدن تحليل رگرسيوني اين است كه تصور كنيم رابطه زيربنايي دقيقي بين x و y وجود دارد، چنان كه y برابر 3x است، اما پیش از اينكه داده‌ها به دست شما برسد يك نفر شيطنت كرده است و مقداري اعداد تصادفي مثبت و منفي روي yها انداخته است. وظيفه شما پي‌بردن به روابط واقعي x و y از ميان مشاهدات آلوده‌شده‌اي است كه به شما داده شده است. مشخصا اين كارها را بايد بكنيد: (1) میزان تاثیری را كه يك واحد تغيير x روي y مي‌گذارد تعيين كنيد؛ (2) ارزيابي كنيد كه آيا اين اثر از نظر آماري معنی‌دار است و (3) برآورد كنيد چه نسبتي از تغيير در y كه مشاهده كرده‌ايم به خاطر تغييرات در x بوده است.

1- ضريب رگرسيون
براي سادگي فرض كنيد رابطه بين x و y را مي‌توان با يك خط راست نشان داد. معادله خط راست با وجود تنها يك متغير مستقل به این صورت درمی‌آید:
y = a + bx كه a و b اعداد ثابت هستند؛ يعني اعدادي مثل 34 يا 8 كه تغيير نمي‌كنند. پس b به شما مي‌گويد كه اگر x به ميزان 1 واحد تغيير كند، y به اندازه 8 واحد تغيير مي‌كند. b شبيه چرخ دنده است كه تغييرات از x را به y انتقال مي‌دهد.
پس آنچه رگرسيون x روي y انجام مي‌دهد انتخاب مقادير خاصي براي a و b است كه بهترين پيش‌بيني از y را كه با دانستن مقدار x مي‌توانيد به دست آوريد به شما مي‌دهد. دقيق‌تر اينكه بگوييم كامپيوتر آن مقاديري را براي a و b انتخاب مي‌كند كه مجذور تفاوت‌هاي بين مقادير واقعي y و مقادير y كه رگرسيون پيش‌بيني مي‌كند به حداقل مي‌رساند. براي ساده‌سازي بحث، لحظه‌اي مجذور كردن و نيز عدد ثابت a را فراموش کرده و فكر کنید چگونه وضعيتي را توصيف مي‌كنيد كه به صورت يك قاعده كلي هر وقت x به ميزان 1 واحد افزايش يافت، y به اندازه 3 واحد افزايش مي‌يابد، اما برخي اوقات يك كمي بيشتر و برخي اوقات يك كمي كمتر افزايش مي‌يابد. آيا منطقي نخواهد بود كه بگوييم: y برابر با 3x به علاوه يا منهاي يك عامل سرهم كردني است؟ اين عامل سرهم كردني را «جمله خطا» مي‌ناميم. مادامي كه اين حالت از خطاهاي نمونه‌گيري تصادفي ناشي مي‌شود، در نمونه به حدي كافي بزرگ جمله خطا توزيع نرمال خواهد داشت. همان طور كه نمونه بزرگ‌تر و بزرگ‌تر مي‌شود با داشتن اعداد مثبت و منفي كه ميل به حذف كردن هم دارند، عامل سرهم كردني به صفر نزديك مي‌گردد، اما مادامي كه وجود عامل سرهم كردني به علت تاثیر برخي متغيرهاي مستقل اضافي نباشد كه به اشتباه حذف كرده‌ايم، ما همچنين فرض مي‌كنيم، يا درست‌تر اينكه بگوييم اميدوار هستيم اين خطاها نيز به صورت نرمال توزيع شده باشند؛ بنابراين تقريبا همديگر را خنثي نمايند.
فرض كنيد كامپيوتر حساب مي‌كند كه a مثلا 10 و b مثلا 3 شده است. وجود خطاهاي نمونه‌گيري و ساير خطاها (يعني عامل سرهم كردني) به ما اجازه نمي‌دهد كه بگوييم هر وقت x مساوي 1 است y بايد 13 باشد، اما مادامي كه اين خطاها تصادفي باشند، از بخش‌هاي بعدي مي‌دانيم در اين‌باره چه كار بايد كرد. ما به خطاهاي معيار نگاه مي‌كنيم (يعني انحراف معيار) تا دامنه‌اي كه به نحو معقولي مي‌توان انتظار داشت a و b در آن محدوده جاي گيرند به دست آيد، (معمولا تا منها و به علاوه دو خطاي معيار پيش مي‌رود تا سطح احتمال 5 درصد به دست آيد). يا اگر ما صرفا مي‌خواهيم بدانيم آيا احتمال كمتر از 5 درصدي وجود دارد كه در جامعه، a يا b واقعا صفر هستند، مقادير آنها را كه «برآوردهاي نقطه‌اي» ناميده مي‌شوند بازبيني مي‌كنيم كه آيا از صفر به اندازه بيشتر از دو خطاي معيار تفاوت دارند يعني مقدار t آنها 2 يا بزرگ‌تر از 2 باشد.
اين a و b واقعا چه چيزي را اندازه‌گيري مي‌كنند؟ از آنجا كه a يك عدد ثابت است؛ يعني بدون توجه به مقداري كه x مي‌گيرد مقدار آن فرقي نمي‌كند، آن را مي‌توان اينگونه تفسير كرد: مقدار y، وقتي x صفر باشد. به طوري كه مي‌تواند منفي، مثبت يا صفر باشد. از آنجا كه ما عمدتا مي‌خواهيم بدانيم چگونه x بر y تاثير مي‌گذارد و نه اينكه وقتي x صفر است y چه مقدار مي‌شود، به اين جمله ثابت معمولا علاقه‌اي نشان داده نمي‌شود. به جاي آن، علاقه زيادي به ضريب b داريم كه «ضريب رگرسيون» ناميده مي‌شود. به شكل نموداري، b شيب خط رگرسيون است؛ يعني خطي كه از ميان خوشه نقاط (مشاهدات) كشيده شده است به طوري كه مربعات انحرافات اين نقاط از خط را به حداقل مي‌رساند و با اين معنی، بهترين تصوير از مشاهدات است.
تا اينجا فرض كردم رابطه بين x و y را مي‌توان با يك خط راست توصيف كرد. اگر بخواهيم علمي سخن بگوييم دليلي ندارد كه چرا بايد اينگونه باشد، اما معمولا آن خط، تقريب كافي و نزديكي است كه ما بتوانيم استفاده كنيم. همچنين امكان استفاده از معادلات رگرسيوني كه رگرسورهاي غيرخطي از قبيلX2 دارند هست، اما برخي اوقات باعث مي‌شود تا برنامه كامپيوتري به هم بريزد و وقتي داده‌ها با رسم خط راستی از اعداد طبيعي به خوبي قابل توصيف نباشند ما رگرسيون را روي لگاريتم آنها برازش مي‌كنيم. استفاده از لگاريتم اين مزيت را دارد كه تغييرات در هر دو متغيرهاي وابسته و مستقل را مي‌توان به صورت درصد تغييرات خواند.
تا اينجا ما فقط با يك رگرسور كار كرديم، اما معمولا اوضاع و احوال پيچيده‌تر است چون كه رفتار y وابسته به عوامل بسياري است؛ براي مثال، تقاضا براي خودرو نه فقط به قيمت خودرو، بلكه به قيمت بنزين و حمل و نقل عمومي، قيمت كالاهاي رقيب و جانشين، به درآمد و به عشق و علاقه مردم به داشتن خودرو نيز بستگي دارد. بنابراين اغلب اوقات نياز است تا رگرسورهاي بيشتري را بگنجانيم: مثلا اگر پنج متغير مستقل، اثر چشمگيری بر متغير وابسته داشته باشند بايد معادله رگرسيون را به اين صورت بنويسيم:
y=a +bx1 +cx2 +dx3 +ex4 +fx5 +e
كه پايين‌نويس‌هاي هر x بيانگر رگرسورهاي متفاوت است و e جمله خطا مي‌باشد. مي‌توان متغيرهاي مستقل بسياري را در رگرسيون جاي داد به شرط اينكه مشاهدات كافي داشته باشيم. بيشتر رگرسيون‌ها اينك از بيش از يك رگرسور استفاده مي‌كنند، اما براي اينكه بحث را ساده نگه داريم در اينجا فقط درباره يك رگرسور صحبت مي‌كنيم.

2- تعيين خوبي برازش رگرسيون با داده‌ها
فرض كنيد با محاسبات كامپيوتری معلوم می‌شود وقتي نرخ بهره وام خودرو يك درصد افزايش يابد فروش خودرو 5 درصد كاهش مي‌يابد. اين اطلاعات مفيدي است اگر كه شما در واحد بازاريابي يك شركت خودروسازي كار مي‌كنيد، اما اين اطلاعات به شما نمي‌گويد تغييرات در فروش خودرو كه مشاهده مي‌كنيد تا چه حد با تغييرات نرخ بهره قابل تبيين است به جاي اينكه با ساير عوامل از قبيل تغيير درآمد مصرف‌كننده قابل تبيين باشد. امكان اين هست که پيش‌بيني هر يك درصد تغيير در نرخ بهره، فروش خودرو را 5 درصد كاهش مي‌دهد كاملا درست باشد و درعين حال مي‌توان بيشتر تغييرات واقعا مشاهده شده در فروش خودرو را با عواملی به غير از تغيير نرخ بهره تبيين كرد.
اقتصاددانان و آماردانان، خوبي برازش معادله رگرسيون با داده‌ها را اندازه‌گيري مي‌كنند يعني با چه دقتي مي‌توان y (فروش خودرو) را به صرف دانستن x (نرخ بهره) پيش‌بيني كرد. آنها اين كار را با استفاده از ضريب همبستگي، R يا در بيشتر اوقات با پسر عموي آن، R2 ضريب تعيين، انجام می‌دهند. R و R2 در دامنه صفر تا يك هستند و با توجه به شرط مهمي كه در زير بحث می‌شود، نسبت نوسانات در y– يا دقيق‌تر نسبت مربع نوسانات y– را كه با نوسانات در x تبيين شده باشد اندازه‌گيري مي‌كند؛ اگر چه R2 نمي‌تواند منفي باشد چون كه مجذور يك عدد طبيعي نمي‌تواند عدد منفي به دست آيد، برخي اوقات با بي‌قيدي به صورت منفي گزارش مي‌شود تا به خواننده گوشزد كند رابطه بين x و y منفي است.
بنابراين، با فرض ثبات ساير چيزها، اگر مي‌خواهيد عواملي را پيدا كنيد كه به بهترين نحو تغييرات مشاهده شده در متغير وابسته شما را تبيين مي‌كنند بايد يك معادله رگرسيون انتخاب كنيد كه R2 مثلا 8/0 دارد نسبت به يك معادله رگرسيون كه R2 فقط 5/0 دارد، اما در اين كار زياده‌روي نكنيد: تفاوت كوچك در R2 از قبيل تفاوت بين مثلا 834/0 و 830/0 بي‌معني است و شايد حتي معكوس شود اگر برنامه كامپيوتري متفاوتي استفاده مي‌كرديد و علاوه بر اين، ساير چيزها اغلب اوقات برابر نيستند.

3- در رگرسيون بايد به دنبال چه چيزي باشيم؟
كداميك از اين سنجه‌ها مهم‌تر است، R2 ،ضريب رگرسيون يا مقدار t؟ پاسخ اين است: «هر سه تا». هر سه مهم هستند چون كه آنها به پرسش‌هاي متفاوتي پاسخ مي‌دهند. فرض كنيد از شما پرسيده مي‌شود رگرسورهاي مدل چقدر رفتار y را تبيين يا پيش‌بيني مي‌كند. پس همان طور كه در بالا بحث شد R2 سنجه مناسب خواهد بود، اما اگر پرسش شما اين است كه آيا يك واحد نوسان رگرسور، اثر چشمگيري بر متغير وابسته دارد، پس بايد ابتدا به مقدار t ضريب مربوطه نگاه كنيد تا از خطر نسبت دادن اهميت به نتيجه خطاي صرف نمونه‌گيري جلوگيري كنيد و نيز بايد به معنی‌دار بودن محتوايي ضريب نگاه كنيد تا معلوم شود آيا اين اثر به حد كافي بزرگ و مهم هست. در اينجا بايد به واحدهايي كه x و y اندازه‌گيري مي‌شوند توجه کرد. براي مثال اگر در تخمين عوامل تعيين‌كننده نرخ تورم، ضريب رگرسيون كسري فدرال، مثلا 001/0 است، فرق است بين اينكه آيا منظور اين است نرخ بهره 001/0 درصد افزايش مي‌يابد وقتي كسري به ميزان يك ميليون دلار افزايش مي‌يابد يا اين افزايش نتيجه يك افزايش يك‌ميليارد دلاري در كسري فدرال است.
توجه به واحدهاي اندازه‌گيري لازم اما نه كافي است تا ثابت شود كه آيا ضريب «بزرگ» بوده يا چنان كوچك است كه اهميتي ندارد. در اينجا هيچ قاعده مكانيكي مثل قرار 5 درصد معنی‌دار بودن آماري نداريم. آنچه نياز است قضاوت شما و نه قضاوت كامپيوتر است.
هنگام نگاه به ضريب رگرسور بايد اين دقت را نيز داشت كه اندازه آن يا مقدار t آن را با اهميتش در تبيين تغييرات مشاهده شده در y قاطي نكنيد. براي تبيين اين تغييرات، آنچه اهميت دارد نه فقط اندازه ضريب رگرسيون، بلكه اينكه چقدر خود رگرسور تغيير مي‌كند نيز هست. حتي اگر ضريب رگرسيون X1 بسيار بزرگ‌تر از ضريب رگرسيون X2 باشد اگر X2 بسيار بيشتر از X1 تغيير مي‌كند پس نوسانات احتمالا مي‌تواند نسبت بزرگ‌تري از تغييرات مشاهده شده در y را توضيح دهد. فرض كنيد در رگرسيوني كه درصد درآمد پس‌انداز شده خانواده‌ها را تبيين مي‌كند يك رگرسور X8 را شامل مي‌كنيد براي اينكه آيا خانواده در آن سال يك بچه‌ دارد يا خير. ضريب رگرسيون براي اين رگرسور احتمالا بزرگ است، اما بيشتر نوسانات در درصد درآمد پس‌انداز شده خانواده‌ها در نمونه شما را تبيين نخواهد كرد چون كه در هر سال خاص، X8 بيشتر خانواده‌ها صفر خواهد بود.
حتي اگر فقط علاقه‌مند به اين هستيد كه رگرسيون شما چقدر خوب مي‌تواند متغير وابسته را تبيين و پيش‌بيني كند بايد نه فقط به R2 بلكه همچنين به يكايك ضرايب رگرسيون و مقادير t آنها نگاه كنيد. فرض مي‌كنيم فروش كارت‌هاي كريسمس را روي نرخ بيكاري رگرس مي‌كنيد و عامل فصلي بودن را در نظر مي‌گيريد و نيز يك رگرسور اضافي كه به اصطلاح «متغير بدلي يا ساختگی» است كه در اين مورد خاص مقدار 1 را براي ماه دسامبر و مقدار صفر را براي ساير ماه‌ها مي‌گيرد. R2 بالايي به دست مي‌آوريد، اما اين به شما نمي‌گويد كه تغيير بيكاري اثر زيادي بر فروش كارت كريسمس دارد- شما همچنين يك R2 بالا به دست مي‌آوريد حتي اگر به جاي نرخ بيكاري، تعداد گربه‌هاي به دنيا آمده در آن ماه را استفاده مي‌كرديد چون كه در اين مورد، متغير بدلي فصلي بودن و نه نرخ بيكاري است كه تاثير مي‌گذارد. داستاني درباره يك فروشنده دوره‌گرد گفته مي‌شود كه به يك روستا رفت و اعلام كرد سنگ مخصوصی براي فروش دارد كه با آن مي‌توان سوپ خوشمزه‌اي درست كرد و حاضر به اثبات آن شد. در حيني كه سنگ را با آبجوش مي‌پخت به روستاييان گفت سوپ سنگي خيلي خوشمزه است، اما مزه حتي بهتري پيدا مي‌كند اگر مقداري هويج به آن اضافه شود. پس روستاييان مقداري هويج به درون قابلمه ريختند. در حيني كه هويج پخته مي‌شد به آنها گفت اضافه كردن مقداري پياز سوپ را حتي خوشمزه‌تر مي‌كند و پس از افزودن پياز به آنها گفت براي اينكه سوپ سنگي خيلي بهتري به دست آيد آنها بايد مقداري گوشت هم اضافه كنند!
سرانجام فرض می‌کنیم شما فقط علاقه‌مند به اثري كه يك رگرسور معين روي Y دارد هستيد و نه به تبيين اينكه چه چيز بيشتر تغييرات در Y را تعيين مي‌كند. با اين حال، بايد به R2 نگاه كنيد تا ببينيد آيا رگرسيون به حد كافي معني‌دار بودن نوسان در Y را تبيين مي‌كند. اگر يك رگرسيون، 98 درصد تغييرات در Y را تبيين نشده باقي مي‌گذارد پس نمي‌توان اعتماد زيادي به آن كرد.
پس R2 بايد چقدر بزرگ باشد تا ضرايب رگرسيون معنی‌دار باشند؟ پرسش خوبي است، اما پرسشي است كه پاسخ خوبي ندارد. تا حدي بستگي به اين دارد كه R2رگرسيون‌هاي رقيب چقدر بالا بوده‌اند. آن همچنين به مشخصات متغير وابسته بستگي دارد. براي مثال فرض كنيم قصد تبيين نرخ پس‌انداز خانواده‌ها را داريد. اگر متغير وابسته شما نرخ پس‌انداز هر كدام از خانواده‌ها باشد R2 پاييني به دست خواهيد آورد، چون كه بسياري عوامل شخصي‌شده كه در معادله رگرسيون شما وجود ندارند از قبيل از دست دادن شغل، دريافت يك هديه با ارزش و غيره بر نسبت پس‌انداز خانواده‌هاي خاصي تاثير خواهند گذاشت، اما اگر داده‌هاي شما ميانگين نرخ پس‌انداز خانواده‌هايي باشد كه درون طبقات درآمدي گوناگون مرتب شده‌اند اين عوامل شخصي شده اساسا حذف خواهد شد، به طوري كه بايد R2 بالاتري به دست آوريد. برخي بررسي‌ها كهR2، 2/0 يا حتي كمتر داشتند در نشريات كاملا معتبر علمي منتشر شدند اگر چه خود منR2 چنين پاييني را تا حدي نگران‌كننده مي‌بينم. در سوي ديگر قضيه،R2 مثلا 998/0 نيز نگران‌كننده است چون كه بيش از حد خوب است كه واقعي به نظر رسد و شايد به اين علت باشد كه هر دو متغير روند زماني يكساني دارند يا Y يك عنصر مشترك با X دارد.

4- جمع‌بندي مطالب
چون که اين بحث پيچيده است پس آن را مرور مي‌كنيم. فرض مي‌كنيم شما مقاله‌اي مي‌نويسيد كه آيا طي ركود اقتصادي دولت بايد به صنعت ساختمان مسكوني كمك كند یا نه. تارنماي اين صنعت استدلال مي‌آورد هر گونه که ساخت‌وساز مسكوني پيش برود اقتصاد ملي هم همان طور پيش مي‌رود و استدلال خود را با يك رگرسيون تقويت مي‌كند كه مقادير فصلي GDP (متغير وابسته) را به GDP فصل قبلي و به ساخت و ساز مسكوني آن فصل مرتبط مي‌كند. R2 وي 91/0 است. مساله عليت را به كنار مي‌گذاريم. آيا بايد تحت تاثير اینها قرار بگيریم؟ نه واقعا. چون كه GDP در هر فصلي، همبستگي بالايي با GDP فصل قبلي دارد، پس احتمال دارد R2 بالايي به دست آوريد حتي اگر نوسانات درجه حرارت در هند را به جاي ساخت و ساز مسكوني استفاده مي‌كرديد. بنابراين به ضريب رگرسيون ساخت و ساز
مسكوني نيز نگاه مي‌كنيد و متوجه مي‌شويد كه كاملا معني‌دار است؛ يك دلاري كه خرج ساخت و ساز مسكوني مي‌شود GDP را 4 دلار بالا مي‌برد. این كمي نامعقول به نظر مي‌رسد پس به مقدار t اين ضريب نگاه مي‌كنيد كه عدد 5/0 شده است. شما به درستي استدلال اين صنعت را رد مي‌كنيد.
حال موضوع را اندكي پيچيده مي‌كنيم. مقدار t، 9/1 بوده است، اینک چه مي‌گوييد؟ شما می‌توانید همچنان سرسختي نشان دهید و بگوييد چون احتمال این كه مقدار واقعي ضريب صفر باشد بیشتر از 5 درصد هست، پس استدلال صنعت را نخواهيد پذيرفت. يا اينكه مي‌توانيد بگوييد در حالي كه صنعت معيار اثبات علمي را رعايت نكرده است احتمال قابل توجهي مي‌رود كه مقدار واقعي ضريب بزرگ‌تر از صفر باشد. پس شايد با احتياط استدلال صنعت را بپذيرید. در واقع شما بايد اينكار را بكنيد اگر فكر مي‌كنيد زيان پذيرفتن اين شاهد به نفع موضع صنعت وقتي كه واقعا نادرست است بيشتر از زيان نپذيرفتن آن وقتي كه واقعا درست است، نباشد.

5- نگاه كردن به دندان‌هاي اسب باركش
تحليل رگرسيون ابزار قدرتمندي است كه در بيشتر حوزه‌ها و براي اهداف گوناگون استفاده مي‌شود، اما قابليت گمراه كردن را نيز دارد. چهار دام مهم عبارتند از:
خطر نسبت دادن روابط گذشته به آينده، نياز به گنجاندن متغيرهاي كنترل درست، احتمال به اشتباه افتادن با يك يا چند مشاهده پرت و خطر استنتاج عليت از وجود همبستگي.
با خواندن خطراتي كه ذكر شد، شايد اين احساس به شما دست دهد كه تحليل رگرسيون؛ بنابراين بيشتر تحليل اقتصاد تجربي به‌علاوه بسياري از پژوهش‌هاي ديگر علوم اجتماعي كارهاي بي‌ارزشي هستند كه ما بهتر است به درك شهودي، احساس و قضاوت شخصي خود متكي باشيم. اين طور نيست. قطعا اين گونه نيست. چنين برداشتي به اندازه نظري درست است كه پس از خواندن كتابي درباره بيماري‌ها پیدا می‌کنید: اينكه شما مبتلا به انواع بيماري‌ها هستید. من به عنوان كسي كه بيشتر عمرش را در پژوهش‌هاي اقتصادي تجربي صرف كرده است، از جمله بسياري معادلات رگرسيوني انجام دادم، قطعا فكر نمي‌كنم كه آنها بي‌فايده هستند.

گذشته، آينده نيست
ظاهرا اگر شما غيبگو نباشيد همه داده‌هايي كه در اختیار داريد از گذشته مي‌آيد و اگر بخواهيد فقط رويدادهاي گذشته را تبيين كنيد، بسيار خوب است و کسی با آن مخالفتي ندارد، اما بيشتر اوقات به آينده هم علاقه‌مند هستيم و اين فرض كه آينده دقيقا شبيه گذشته خواهد بود مي‌تواند فرضي مشكل‌آفرين باشد. براي مثال رگرسيون‌هايي كه در دهه‌هاي 1960 و 1970 برآورد گرديدند رابطه‌اي ثابت بين عرضه پول و GDP اسمي نشان مي‌دادند، اما براي تغييرات در زمان كوتاه‌مدت‌تر در دهه 1980، اين رابطه تقريبا ناپديد شد، در دهه 80
نوآوري‌هاي مالي، مقررات‌زدايي بازارهاي مالي و نرخ‌هاي بهره بالا باعث شد تا شيوه پرداخت‌هاي خانوارها و بنگاه و نيز شيوه مديريت دارايي‌هاي مالي آنها تغيير كند (يك مثال كارت‌هاي اعتباري هستند). مشكل مشابهي در سال 8-2007 و در زماني به‌وجود آمد كه اقتصاددانان سعي كردند آمدن يك ركود اقتصادي را پيش‌بيني كنند و اينكه در صورت وقوع چقدر عميق است. به علت زيان‌هايي كه نظام مالي از اوراق بهادار به پشتوانه وام‌هاي رهني و ساير دارايي‌ها ديده است، اين نظام بسيار شكننده‌تر از هر زماني از هنگام بحران بزرگ تاكنون شده است؛ بنابراين مدل‌هاي اقتصادسنجي بر اساس رگرسيون كه به داده‌های پس از جنگ جهاني دوم برازش مي‌شوند چيزهاي اندكي درباره چگونگي تاثيرگذاري چنين شكنندگي مالي بر اقتصاد به ما مي‌گويد. به همين ترتيب، پس از سقوط بازار سهام، معادله رگرسيوني كه در تخمين‌هاي پيشين قيمت سهام، برازش‌هاي خيلي خوبي داشته است اينك خودش را نه به شكل يك دوست قابل اعتماد، بلكه به شكل دشمني نابكار نشان خواهد داد.
حالت خاصي كه ضرايب رگرسيون بي‌ثبات هستند زماني پيش مي‌آيد كه دولت سياست خود را تغيير مي‌دهد. فرض كنيد دولت قبلا ماليات‌ها را فقط زماني كاهش مي‌داد كه قصد داشت آن را براي مدت طولاني در سطح پايين‌تري نگه دارد. يك اقتصاددان سپس يك رگرسيون را تخمین مي‌زند تا اثر كاهش ماليات‌ها را بر مصرف اندازه بگيرد. او يك ضريب بزرگ و كاملا معني‌دار پيدا مي‌كند. اين يافته دولت را تشويق به اقتباس يك سياست جديد مي‌كند. از اين به بعد، دولت ماليات‌ها را طي دوره ركود كاهش خواهد داد تا مصرف را تقويت كند و سپس دوباره ماليات‌ها را بالا مي‌برد وقتي اقتصاد به حالت عادي برگشت.
اما پس از مدتي مردم متوجه قضيه مي‌شوند و مي‌دانند كه وقتي ماليات‌هايشان كاهش مي‌يابد به زودي دوباره افزايش خواهد يافت. اكنون وقتي ماليات‌ها كاهش مي‌يابد آنها مصرف‌شان را تقريبا به همان اندازه قبل افزايش نخواهند داد؛ بنابراين برگزيدن سياست جديد، باعث مي‌شود تا ضرايب رگرسيون قبلي كهنه و بي‌استفاده شود كه سياست جديد هم روي آن بنا شده است. اين به «انتقاد لوكاس» مشهور شده است چون که نخستين بار رابرت لوكاس برنده جايزه نوبل آن را مطرح كرد. در حالي كه همه اصولا مي‌پذيرند حق با لوكاس است و تغيير سياست باعث قديمي شدن ضرايب رگرسيون قبلي مي‌شود درباره اهميت مقداري آن اختلاف نظر وجود دارد. بيشتر اقتصاددانان در حالي كه اعتبار منطقي انتقاد لوكاس را مي‌پذيرند، آن را براي مسائل عملي روزمره نسبتا بي‌اهميت مي‌دانند چون آنها انتظار دارند عامه مردم انتظارات خود درباره سياست دولت را خيلي آهسته تغيير دهند. سايرين فكر مي‌كنند كه انتقاد لوكاس بيشتر پيش‌بيني‌هاي قبلا مرسوم از اثر تغييرات سياست دولت را بي‌اعتبار مي‌سازد. انتقاد لوكاس براي برخي تغييرات سياسي بسيار مهم‌تر از ساير تغييرات سياستي است، اما در كل، هيات منصفه هنوز حكم قطعي صادر نكرده است. ضرايب بي‌ثبات نه فقط براي مطالعاتي كه از داده‌هاي سري زماني استفاده مي‌كنند، بلكه براي مطالعاتي كه از داده‌هاي مقطعي استفاده مي‌كنند يعني داده‌هايي كه در يك لحظه خاص به دست آمده است از قبيل نظرسنجي‌ها از بيكاري جاري نیز مشكل‌زا هستند. براي مثال اكنون كه مردم از خطرات سيگار كشيدن بسيار باخبرتر شده‌اند، معادله رگرسيوني كه تفاوت مصرف سيگار را در دهه 1950 خيلي خوب تبيين مي‌كرد حالا ديگر شايد نتواند چنين كاری بكند.

انتخاب متغيرهاي كنترل
فرض مي‌كنيم كه شما فروش خودروي بي‌ام‌و را روي قيمت آن رگرس مي‌كنيد. انتظار داريم ضريب رگرسيون منفي باشد چون كه علي‌الظاهر در قيمت‌های بالاتر، خودروي كمتري خريداري مي‌شود، اما كامپيوتر شما در عوض يك ضريب مثبت تحويل مي‌دهد. دليل آن را اينجا آورديم. در آن زمان‌هايي كه درآمد مردم به سرعت افزايش مي‌يابد بي‌ام‌و بيشتري خريداري مي‌شود و اين زمان دقيقا موقعي است كه فروشندگان هم قيمت‌هاي خود را بالا مي‌برند. (اگر بر اساس منحني‌هاي عرضه و تقاضا بخواهيم صحبت كنيم منحني تقاضا به سمت بالا و راست جابه‌جا مي‌شود و اينك در قيمت‌هاي بيشتري منحني عرضه را قطع مي‌كند.) اما شما به كامپيوتر چيزي درباره افزايش درآمد مصرف‌كنندگان نگفته‌ايد و تعجبي ندارد كه كامپيوتر همه مشاهداتي كه نشان مي‌دهد هر دو قيمت و فروش در حال افزايش هستند به عنوان وجود رابطه‌اي مثبت بين قيمت و فروش تفسير كند. بي‌ترديد، در اين بين مشاهداتي نيز وجود دارد كه قيمت بي‌ام‌و بالا مي‌رود و فروش كاهش مي‌يابد (كه اين را حركت روي منحني تقاضا مي‌گوييم) و اينها را به درستي به عنوان رابطه‌اي منفي بين قيمت و فروش تفسير مي‌كند، اما امكان دارد فقط يك ضريب رگرسيون به شما بدهد كه هر دو حالت را دربر مي‌گيرد. پس ضريبي تحويل شما مي‌دهد كه ملغمه‌اي بي‌معنی بوده و امكان دارد مثبت يا منفي باشد.
مثال ديگري مي‌آوريم و فرض مي‌كنيم درآمد را فقط روي تحصيلات رگرس مي‌كنيد. با اين‌كار چيزهايي را از قلم مي‌اندازيد. افرادي كه تحصيلات بيشتري دارند معمولا ضريب هوشي بالاتري دارند و نيز در هر سطحي از تحصيلات، كساني كه ضريب هوشي بالايي دارند معمولا درآمد بالاتري دارند، اما چون به كامپيوتر چيزي درباره ضريب هوشي نگفته‌ايد تمام كاري كه آن مي‌تواند بكند كل تفاوت درآمدي مردم با ميزان متفاوت تحصيلات را فقط به تحصيلات نسبت مي‌دهد. با انجام اين كار، كامپيوتر ضريب رگرسيوني بيرون مي‌دهد كه خيلي بالا است، چون كه اثر تفاوت‌ها در ضريب هوشي را در كنار تفاوت‌ها در تحصيل شامل مي‌كند.
مثال سومي هم برايتان آورده‌ايم: در برخي مناطق بالكان، تعداد بچه‌هاي متولد شده همبستگي مثبتي با تعداد لك‌لك‌ها دارد. دليل آن اين است كه در روستاهاي بزرگ بچه‌هاي بيشتر به دنيا مي‌آيند و نيز دودكش‌هاي بخاري بيشتري دارند كه لك‌لك‌ها روي آنها آشيانه مي‌سازند. باز هم بخواهیم مثال ديگري بياوريم، همبستگي بين اندازه پاي دانش‌آموزان دبستاني و نمرات درس انجيل‌خواني است. بچه‌هاي بزرگ‌تر پاهاي بزرگ‌تري دارند.
براي اينكه از چنين سردرگمي تا حد امكان رهايي يابيم معمولا بايد در رگرسيون خود، برخي رگرسورهاي اضافي را اضافه كنيم كه «متغيرهاي مشروط‌سازي» يا «متغيرهاي كنترل» ناميده مي‌شوند و هيچ علاقه ذاتي به اين متغيرها نداريم، فقط به اين خاطر به آنها علاقه داريم كه ضرايب و مقادير t متغيرها را آلوده نخواهند كرد؛ بنابراين در مثال بالا، با گنجاندن متغير كنترلی ضريب هوشي، به كامپيوتر اين اجازه را مي‌دهيم تا اثرات ضريب هوشي را از ضريبي كه براي اثر تحصيل بر درآمد محاسبه مي‌كند دور نگه دارد.
تصميم‌گيري در اين‌باره كه چه متغيرهاي كنترلي را بگنجانيم اغلب اوقات دشوار است. تئوري اقتصادي به شما مي‌گويد كه- با فرض ثبات ساير شرايط- اگر X رخ مي‌دهد Y نتيجه آن خواهد بود، اما اغلب صحبت كافي نمي‌كند كه چه چيزهايي را در فرض ثبات ساير شرايط حبس مي‌كنيم و بنابراين بايد به عنوان متغير كنترل بالقوه در نظر گرفت. يا اگر كه برخي از اين متغيرها را مشخص مي‌سازد آن را معمولا فقط با عبارات كلي از قبيل «درآمد» ذكر مي‌كند. آيا منظور از درآمد، فقط درآمد جاري است يا درآمد گذشته نيز هست و اگر بلي تا چه حد به عقب برويم؟ و درباره درآمدهاي انتظاري آينده چه مي‌گوييم؟
راه‌حل به نظر بديهي مي‌رسد: همه متغيرهاي كنترل بالقوه مرتبط و مهم را شامل كنيد: اما اين توصيه چندين مشكل را به همراه دارد. يكي اينكه برخي از اين متغيرها را نمي‌توان شامل كرد چون كه آنها قابل اندازه‌گيري نيستند. براي نمونه، در مثال پیشین تحصيل و درآمد، جاه‌طلبي يك شخص را بايد به عنوان متغير كنترل شامل كرد اما معمولا داده‌هايي نداريم كه آن را اندازه‌گيري كند.
علاوه بر اين اگر يك متغير كنترل داراي همبستگي مثبت قوي با رگرسوري باشد كه شما به آن علاقه‌مند هستيد، پس در يك نمونه كوچك، شامل كردن آن مي‌تواند مقدار t آن رگرسور را به‌شدت پايين آورد چون كامپيوتر مقداري از اثرات رگرسوري را كه به آن علاقه‌مند هستيد به متغير كنترل نسبت مي‌دهد. بيشتر اقتصاددان‌ها براي اينكه چنين مشكلي را برطرف كنند پس از تخمین رگرسيون با متغيرهاي كنترل بيشمار، همه آنهايي را كه از نظر آماري در سطح 5 درصد معنی‌دار نيستند حذف مي‌كنند و دوباره رگرسيون را تخمین مي‌زنند و فقط اين رگرسيون دوم را گزارش مي‌دهند.
مساله ديگر اين است كه آزمايش كردن با تركيباتي از متغيرهاي كنترل گوناگون، راه را روي آزمايش كردن تا زماني كه مجموعه متغيرهايي پيدا كنيد كه نتايج دلخواه و پشتيباني‌كننده تئوري شما را بدهد باز مي‌كند- بحث داده‌كاوي را كه پيشتر آورديم به خاطر آوريد.

دعوت به اقتصادخواني
تحليل رگرسيون: موتور حركت اقتصاد تجربي قسمت دوم

توماس مایر
مترجم: جعفر خیرخواهان
حدس نادرست كه كدام متغير كنترل را بگنجانيم نيز خطرناك است. حتي وقتي فقط در بين متغيرهاي كنترل ظاهرا معقول انتخاب مي‌كنيم، اندازه ضريبي كه به آن علاقه‌مند هستيد رابطه قوي با متغير كنترلي پيدا مي‌كند كه در رگرسيون گنجانيده‌ايد.

برخي اوقات وقتي متغيرهاي متفاوتي را شامل مي‌كنيد حتي علامت ضريب تغيير مي‌كند. يك مثال كلاسيك اين پرسش است كه آيا مجازات مرگ جلوي قتل را مي‌گيرد. بيشتر مطالعات نرخ خودكشي در ايالت‌هاي مختلف را روي يك متغير ساختگی رگرس كرده‌اند كه آيا آن ايالت مجازات اعدام را در كنار چندين متغير كنترل وضع كند يا خير. نتايج آنها يكسره تغيير مي‌كند از این حالت که مجازات اعدام عامل بازدارنده قوي خودكشي است تا اين حالت كه هيچ اثري ندارد يا حتي اثر مثبت بر نرخ خودكشي دارد.
هنگام استفاده از داده‌هاي سري زماني، خيلي آسان مي‌توان به خاطر متغير كنترل مفقودي به اشتباه افتاد. در بيشتر سري‌هاي زماني مثل جمعيت هند، توليد ملي بلژيك و تعداد بازديدكنندگان از گالري اوفيزي در فلورانس و ... يك روند به سمت بالا داريم؛ بنابراين همبستگي وجود دارد. خوشبختانه، رگرس كردن تغييرات سال به سال، به جاي استفاده از سطح متغيرها، اغلب كافي است تا اين روند زماني مشترك را حذف كند.
در حالي كه همه اينها قطعا مساله‌ساز هستند، به اين معنی نيست كه بايد خود را به دامن نااميدي پست‌مدرنيسم بيندازيم و اعلان كنيم به همان اندازه كه مجازات اعدام مانع قتل مي‌شود، «درست» است به همان اندازه هم نادرست است يا خودمانيم لك‌لك‌ها همراه خود نوزاد مي‌آورند و نمي‌آورند، اما به اين معنی هست كه بايد نگران اين باشيم كه كدام متغير كنترل را شامل كنيم و كداميك را شامل نكنيم. يك روال كار مفيد اين است كه سعي كنيم چندين مجموعه رگرسيون‌ها را امتحان كنيم كه شامل متغيرهاي كنترل متفاوت مي‌شود تا ببينيم نتايج ما با توجه به برخي انتخاب‌هاي تقريبا دلبخواه متغيرهاي كنترل چقدر استحكام دارد. فقط در صورتي كه تمام اين «آزمون‌هاي استحكام» نتايج مشابهي در كل به دست دهد، مي‌توانيم درباره نتايج احساس اطمينان كنيم.


پل زهوار دررفته (مغالطه) علت شمردن امر مقدم
اگر نوشتن و تلفظ «همبستگي» به «هم‌رابطه‌اي» تغيير يابد بسياري از سردرگمي‌ها برطرف مي‌شود. با اين تغيير در نوشتن مي‌خواهيم روشن سازيم كه همبستگي به اين معنی است كه دو يا چند متغير يك رابطه خاص با هم دارند از اين قبيل كه Y هميشه بالا است وقتي كه X بالا باشد. بيشتر فيلسوفان (و فيلسوفان، نگهبانان مفهوم عليت مدنظر ما هستند) و اقتصاددانان (كه به عليت بسيار علي‌تر از فيلسوفان فكر مي‌كنند) توافق دارند كه چيزي بيش از چنين هم‌رابطه‌اي نياز است تا ثبات شود كه x و y رابطه علّي با هم دارند. تعيين اينكه دقيقا به چه چيزي نياز است، يك مساله فلسفي عميق و فوق‌العاده دشوار است. بگذاريد از اين مبحث رد شويم و در عوض استفاده روزمره اين اصطلاح با همه ابهام و گنگ بودن آن را بكار ببريم. اين مفهوم گنگ كافي است، زيرا همه آن كاري كه مي‌خواهم انجام دهم تقويت توانايي شما براي ايستادگي در برابر ادعاهايي است كه صرفا با نشان دادن اينكه همبستگي وجود دارد ثابت مي‌كنند يك رابطه علّي داريم.
اگر داده‌ها نشان مي‌دهد كه x و y همبستگي دارند مي‌تواند به دلايل زير باشد: (1) x واقعا باعث y مي‌شود همان طور كه ادعا شده است؛ (2) همزماني داریم يا به بيان ديگر، نمونه خيلي كوچك است؛ (3) كوتاهي در گنجاندن متغيرهاي كنترلي درست؛ و (4) y باعث x مي‌شود يا به اصطلاح «عليت معكوس» داریم. حالت نخست كه x واقعا علت y است كه ادعا هم مي‌شود مشكلي ايجاد نمي‌كند و بنابراين نيازي به بحث ندارد. حالت دوم را كه همزماني است، مي‌توان به‌سرعت برطرف كرد با اشاره به اينكه اگر از سطح 5 درصد معنی‌دار بودن استفاده كنيم و اگر داده‌ها توزيع نرمال داشته باشند پس در حداكثر 5 درصد موارد بايد انتظار داشت كه يك رابطه معنی‌دار آماري- اما ساختگي- بين x و y پيدا كنيم. من در مطالب بالا به حالت سوم كه غيبت متغيرهاي كنترل درست است پرداختم؛ اگر z باعث هم x و y مي‌شود، پس رگرس كردن y صرفا روي x منجر به همبستگي ساختگي مي‌شود.
حالت چهارم، عليت معكوس، يك مشكل همه جا حاضر است. بارها و بارها رسانه‌ها گزارش‌هايي از اين قبيل را منتشر مي‌كنند كه افرادي كه ورزش مي‌كنند تندرست‌تر هستند، ابدا تعجبي ندارد: شايد نشان مي‌دهد كه ورزش مردم را تندرست نگه مي‌دارد يا اينكه بيشتر افراد بيمار نمي‌توانند ورزش كنند.
مردان متاهل درآمد بيشتري نسبت به مردان مجرد دارند، پس ازدواج كردن شما را ثروتمندتر مي‌كند. بله به نظر قابل تامل مي‌آيد، اما اين نكته نيز قابل تامل است كه زنان، كمتر احتمال دارد با مرداني ازدواج كنند كه درآمد پاييني دارند. كشورهايي كه حمايت قوي از حقوق ماليكت مي‌كنند درآمد سرانه بالاتري نسبت به كشورهايي دارند كه چنين كاري نمي‌كنند. آيا نتيجه مي‌گيريم كشورهايي كه حقوق مالكيت ضعيف دارند مي‌توانند با تقويت اين حقوق، درآمدهايشان را افزايش دهند يا اينكه نتيجه مي‌گيريم ثروتمند شدن يك كشور را وادار مي‌كند تا از حقوق مالكيت حمايت كند؟ يا اينكه احتمالا يك كمي از هر دو درست است؟ اگر نامزدي كه كمك‌هاي انتخاباتي بيشتري دريافت مي‌كند معمولا برنده انتخابات مي‌شود، آيا منظور اين است كه كمك‌هاي انتخاباتي نتيجه انتخابات را تعيين مي‌كند يا اينكه نامزدهايي كه احتمال بيشتري براي برنده شدن دارند كمك‌هاي انتخاباتي بيشتري دريافت مي‌كنند؟ داده‌ها نشان مي‌دهد كه افراد خوشبين خوشحال‌تر هستند. آيا منظور اين است كه باورهاي خوشبينانه باعث مي‌شود مردم خوشحال شوند يا اينكه خوشحال بودن باعث مي‌شود تا شما بيشتر در معرض اين باور باشيد كه همه چيز خوب است؟ آيا قاعده طلايي، يعني آن كس كه طلا دارد قاعده‌ها را تعيين مي‌كند يا آن كسي كه قاعده‌ها را تعيين مي‌كند طلاها را به دست مي‌آورد؟ هر وقت با يك همبستگي گزارش شده برخورد كرديد بايد چنين پرسشي را هميشه بپرسيد:‌«اگر عليتي وجود دارد كدام علت و كدام معلول است؟»
چگونه مي‌توان گفت كه آيا يك همبستگي پيام معتبر عليت را با خود حمل مي‌كند؟ در مواردي كه خودمان در به‌وجود آوردن تغييرات در يكي از متغيرها دخالت داشته‌ايم كار آسان است، براي مثال با گرم كردن يك ماده شيميايي مي‌بينيم آيا آن ماده منفجر خواهد شد و يكي از دلايل مهم كه روش آزمايشگاهي، علوم طبيعي را اينقدر كارآمد ساخته است همين است. در شرايطي كه خودمان كاري نكرديم نيز مي‌دانيم كدام علت و كدام معلول است، وقتي دخالت توسط عاملي صورت مي‌گيرد كه نمي‌تواند نتيجه متغيري باشد كه ما متغير وابسته در نظر گرفتيم. سقف فرو مي‌ريزد چون توفان آمده است: فروريختن سقف باعث توفان نشده است. در علم اقتصاد چنين دخالت‌هاي آشكارا برونزا، اگر چه كاملا غايب نيستند نادر هستند، اما هر جا كه بتوان آنها را پيدا كرد قادر به حل عليت معكوس، بسيار بهتر از هر روش ديگري هستیم. براي مثال، همبستگي روشني بين تعداد سال‌هاي تحصيل و تندرستي وجود دارد، اما مي‌تواند به اين خاطر باشد كه تحصيلات مردم را وا مي‌دارد تا سبك زندگي سالم‌تري برگزينند يا اينكه دانش‌آموزان تندرست مدت زمان طولاني نسبت به دانش‌آموزان بيمار در مدرسه مي‌مانند. راه‌حل چيست: به ايالت‌هايي نگاه كنيد كه با بالا بردن سني كه دانش‌آموزان مي‌توانند مدرسه را ترك كنند در اين فرآيند دخالت كردند و سپس ببينيد آيا تندرستي افزايش نيافت. اگر تندرستي افزايش يافته است پس مي‌توان گفت تحصيل باعث افزايش تندرستي مي‌شود.
ساير روش‌هاي برقراري عليت، پيچيده‌تر هستند. يك پاسخ كه اغلب آزمون شده است اتكا به اين اصل است كه علت مقدم بر معلوم است. فرض كنيد تغيير عرضه پول و سطح قيمت همبستگي دارند و تغيير عرضه پول زودتر از تغيير سطح قيمت باشد. پس، تفسير سرراست اين است كه تغيير عرضه پول، علت تورم است.
اما سرراست بودن، هميشه به معني درست بودن نيست. براي اينكه چنين آزمون زمان‌بندي معتبر باشد متغيرها بايد به درستي تعريف شوند. براي مثال، تئوري اقتصادي به ما مي‌گويد، يا چنين به نظر مي‌رسد كه به ما مي‌گويد وقتي فدرال رزرو، نرخ بهره وجوه فدرال (نرخ بهره‌اي كه فدرال رزرو كنترل مي‌كند) را افزايش مي‌دهد ساير نرخ‌هاي بهره نيز بايد افزايش يابد، اما فرض كنيد مشاهده مي‌شود اين نرخ‌ها پيش از افزايش نرخ بهره وجوه فدرال افزايش مي‌يابند. آيا منظور اين است كه افزايش آنها باعث شد تا فدرال رزرو نرخ بهره وجوه را افزايش دهد؟ خير، تبيين محتمل‌تر اين است كه بازار پيش‌بيني كرد فدرال رزرو مي‌خواهد چكار كند و نرخ‌هاي بهره را درست در آن زمان افزايش داد. متغيري كه بايد دنبالش بگرديم اقدام فدرال رزرو نيست، بلكه پيش‌بيني بازار از آن اقدام است.
يا فرض كنيد مشاهده مي‌شود عرضه پول زودتر از توليد افزايش نمي‌يابد، بلكه در حدود همان زمان افزايش مي‌يابد. آيا به اين معنی است كه توليد تاثير زيادي از سياست پولي نمي‌پذيرد؟ دوباره نه لزوما، چون آنچه كه مي‌تواند بر توليد تاثير گذارد سطح (میزان) عرضه پول نيست؛ بلكه نرخ تغيیر آن است و نرخ تغيير عرضه پول يك سري متحرك هموار شده داراي قله‌ها و دره‌هايي است که در سطح آن سری دیده نمی‌شود. چنين مساله‌هايي كار را بغرنج مي‌كند.
مشكل ديگر در آزمون ساده زمانبندي اين است كه حتي اگر قله‌ها و دره‌هاي هر سري آشكارا مرزبندي شوند، معمولا دشوار است كه ببينيم آيا يك قله خاص در يك سري بايد با قله قبلي يا بعدي در ساير سري‌ها مطابقت يابد. اين مشكل وجود نداشت اگر ما مي‌دانستيم مثلا شش ماه زمان مي‌برد تا يك متغير بر متغير ديگر تاثير گذارد، اما تئوري ما معمولا اين‌قدر خاص نيست و حتي ممكن است طوري بيان شود كه وقفه از موردي به مورد ديگر كاملا تغيير كند. اگر اين طور باشد پس در حالي كه كاملا درست نيست كه بگوييم در مطابقت دادن قله‌ها و دره‌هاي دو سري هر چيزي امكان دارد، چيزهاي زيادي بيش از آنچه دوست داريم امكان وقوع دارد. با همه اين احوال، يك نگاه ساده به پيامدهاي قله‌ها و دره‌ها احتمالا در غالب اوقات (و به درستي) به عنوان يك تقريب سرانگشتي استفاده مي‌شود
يك واكنش موشكافانه به مساله عليت «آزمون عليت گرنجر» است (كه از نام كلایو گرنجر برنده جايزه نوبل گرفته شده است.) در اين آزمون، رويداد x، علت رويداد ديگر y دانسته مي‌شود اگر وقوع x بسيار محتمل سازد كه متعاقب آن y نيز رخ خواهد داد، (در حالي‌كه در همان زمان با وقوع y احتمال رخ دادن x وجود نداشته باشد). مشخص‌تر بگوييم عواملي كه رفتار يك متغير اقتصادي را تعيين مي‌كنند معمولا از فصلي به فصل ديگر (يا حتي سال) تقريبا پايدار مي‌مانند به طوري كه رگرس كردن يك متغير روي مقادير گذشته آن اغلب اجازه مي‌دهد تا بيشتر رفتار مشاهده آن در فصل بعدي را پيش‌بيني كنيم. اكنون فرض كنيد وقتي مثلا نرخ تورم را روي مقادير گذشته آن در چند فصل قبل و نيز روي نرخ رشد پول در دوره پيش رگرس مي‌كنيد يك ضريب رگرسيون معنی‌دار و چشمگير براي نرخ رشد پول به دست مي‌آوريد، اما وقتي نرخ رشد پول را روي مقادير گذشته آن و روي نرخ تورم گذشته رگرس مي‌كنيد، ضريب نرخ تورم معنی‌دار نبوده يا علامت اشتباهي دارد. گرنجر استدلال مي‌كند كه نخستين اين يافته‌ها با اين فرضيه سازگار است كه تغييرات در نرخ رشد پول باعث تغييرات در نرخ تورم مي‌شود در حالي كه دومي با اين فرضيه ناسازگار است كه تغيير نرخ تورم باعث تغيير در نرخ رشد پول مي‌شود. بنابراين همبستگي مشاهده شده نرخ رشد پول و نرخ تورم بايد اينگونه تفسير شود كه اولي باعث دومي مي‌شود، اما اعتبار اين تفسير از عليت هنوز مناقشه‌برانگيز است. به‌علاوه، كاربرد موفقيت‌آميز آزمون گرنجر مستلزم اين است كه x با وقفه در يك رگرسيون معنی‌دار باشد، در حالي كه y با وقفه با علامت درست در رگرسيون ديگر معنی‌دار نيست. اگر اينطور نباشد، پس آزمون گرنجر بي‌آزمون گرنجر.
آزمون‌هاي عليت گرنجر مثل ساير آزمون‌هاي زمان‌بندي، با اين مشكل مواجهند كه بيشتر سري داده‌هاي ما به حد كافي معين و محدود شده زماني نيستند؛ اگر چه داده‌هاي ساعتي تغيير قيمت سهام را داريم و مي‌توان داده‌هاي دقيقه به دقيقه از نرخ ارز را به دست آورد، برخي سري‌ها از قبيل توليد صنعتي يا بيكاري فقط ماهانه در دسترس هستند و داده‌هاي GDP فقط فصلي منتشر مي‌شوند؛ بنابراين برخي اوقات ما نمي‌توانيم بگوييم كدام متغير اول حركت كرد.

سه مشكل ديگر
در اينجا سه مشكل كوچك‌تر؛ اما هنوز مهم را آورده‌ايم: يكي اينكه با مجذور كردن انحرافات بين مقادير پيش‌بيني شده و واقعي y كه در محاسبهR2 صورت مي‌گيرد، اهميت چند انحراف بزرگ، نسبت به انحرافات كوچك را بزرگ مي‌كند. براي مثال انحراف 5 و انحراف 7 داراي ميانگين 6 است همانطور كه انحراف 2 و انحراف 10 ميانگين 6 دارند، اما ريشه دوم ميانگين انحراف مجذور شده در مورد اول 1/6 و در مورد دوم 2/7 است. براي اينكه اثر يك مشاهده پرت را نشان دهيم یك مشاهده پرت را به 63 مشاهده در شكل 1 اضافه كرديم (گوشه جنوب شرقي)، از 68/0 به 40/0 افت مي‌كند. در شکلی دیگر (بر اساس مجموعه متفاوتي از 30 مشاهده) مقدار R2 = 47/0، ضريب رگرسيون 46/0 و مقدار t = 2/5 است، اما كل همبستگي از دو مشاهده پرت ناشي مي‌شود. بدون وجود آنها،R2 به صفر مي‌رسد. كادر 4 بحث مي‌كند كه با متغيرهاي پرت چكار كنيم. دوم يك نكته پردردسر وجود دارد: در شكل 1 هفت مشاهده آخری در گوشه شمال شرقی يك رابطه منفي بين دو متغیر x و y را نشان مي‌دهند به جاي رابطه مثبتي كه در كل شكل ديده مي‌شود. آيا اين نتيجه صرفا به خاطر خطاي نمونه‌‌گيري است- كه اگر فقط 7 مشاهده داشته باشيم چنين اتفاقی مي‌افتد- يا اينكه داده‌ها به ما مي‌گويد رابطه مثبت بين x و y براي مقادير بسیار بالای x و y برقرار نيست؟ بدون انجام تحقيقات بيشتر چيزي نمي‌توان گفت، اما يك چيز روشن است: بايد با دقت به نمودار پراكنش نگاه كرد.
سوم، يكي از نااميدكننده‌ترين مسائل در علم اقتصاد اين است كه مدل‌هايي كه داده‌هاي گذشته را به خوبي برازش مي‌كردند اغلب موفق به پيش‌بيني خوب آينده نمي‌شوند. دليل صرفا اين نيست كه همانطور كه بحث شد گذشته آينده نيست، بلكه احتمال دارد خوبي برازش به‌دست آمده از داده‌هاي گذشته، نتيجه داده‌كاوي باشد.
سرانجام به صورت خودكار فرض نكنيد تبيين (يعني تئوري) ارائه شده توسط معادله رگرسيون با بالاترينR2 و بهترين مقدار t لزوما بهترين تبيين است. خوبي برازش فقط يكي از چندين معيار در انتخاب بين تئوري‌ها است. تعميم‌پذيري، فايده‌مندي، امكان رديابي و مرتبط بودن با ساير تئوري‌ها نيز اهميت دارد. براي مثال فرض كنيد بتوان افزايش دستمزد آتي را با يك معادله رگرسيون كه نرخ بيكاري را به عنوان رگرسور استفاده مي‌كند بهتر از رگرسيوني پيش‌بيني كرد كه افزايش دستمزد در هشت فصل قبل را به عنوان رگرسور در نظر مي‌گيرد. قطعا اولي تبيين عميق‌تر و معنی‌دارتري از دومي ارائه مي‌دهد.

6- نتيجه‌گيري
بخش زيادي از مطالبي كه در اين جا آورديم به ما هشدار مي‌داد كه چگونه هنگام خواندن استدلالي بر اساس آمار اقتصادي حواسمان جمع باشد. خوشبختانه چنين خواندن انتقادي معمولا نيازمند هيچ دانش زيادي از اقتصاد و آمار نيست. آنچه نیاز است اقتباس يك گرايش انتقادي به جاي سر فرود آوردن خاضعانه در برابر آمارهاي تعارف شده است. رسانه‌ها به ما مي‌گويند همبستگي وجود دارد، اما نه فضاي نشريه اجازه مي‌دهد و نه رغبتي هست تا چنين «جزئياتي» مثل متغيرهاي كنترل مورد استفاده بحث شوند. در اين‌باره هيچ كاري نمي‌توان انجام داد مگر اينكه زمان كافي براي يافتن منبع اصلي داشته باشيم، اما مي‌توان پرسيد آيا همبستگي پيشنهادي را بايد به صورت رابطه علي ديد و اگر اين‌طور است جهت عليت به كدام طرف است.
به طور كلي با توجه به اطلاعات ناقصی كه رسانه‌ها درباره جزئيات مطالعات آماري گزارش شده به مخاطبان خود مي‌دهند، معقول است كه حداقل مقداري وزن براي عوامل انساني قائل شويم: اين نويسندگان احتمال دارد چه سوگيري‌هايي داشته باشند، با چه تنبيهي، در صورت وجود، برحسب اعتبار از دست رفته (كه براي افراد دانشگاهي و كادر موسسات پژوهشي مي‌تواند بسيار گران تمام شود) مواجه مي‌شوند اگر خطا كنند؟ آيا هيچ عبارت گمراه‌كننده يا سهل‌انگارانه‌اي از اين نويسندگان در گذشته ديده‌ايد؟ آيا اين بررسي در نشريه‌اي منتشر شده است كه اهل فن به آن ارجاع مي‌دهند؟
برخي اوقات تنها راه‌حل، تاييد ناداني و برخورد محتاطانه با اطلاعات در دسترس است. نه اينكه آن را صرفا به عنوان يك «واقعيت» ببينيم چون كه به شكل يك «عدد» درآمده است. اين عبارت كه كسري بودجه دولت طي پنج سال آينده 3/301 ميليارد دلار خواهد شد به همان اندازه‌اي «غير علمي» است كه بگوييم كسري بودجه زياد خواهد بود.
براي اينكه چنين نگاه توام با شك و ترديدي پيدا كنيد در فصول گذشته دام‌هاي بالقوه بسياري را پوشش داديم كه احتمال دارد برخي خوانندگان با خود فكر كنند در علم اقتصاد، نتايج آماري را هرگز نبايد جدي گرفت. اين فكر اشتباهي است. جايگزين اتكا كردن به آمار اقتصادي، كور شدن اشتهاي علمي است: اتكا به تاكيدات صرف، حكايات، درسهايي از يك يا چند رويداد مهم نادر يا به تئوري‌سازي آزمون نشده.
به‌علاوه، آمارهاي مشكوك در علوم طبيعي نيز ناشناخته نيستند و در عين حال اين علوم پيشرفت‌هاي خيره‌كننده‌اي كرده‌اند. همچنين همان طور كه در فصل بعدي با مثال‌هايي مشخص نشان خواهيم داد، به رغم مشكلات بيشماري كه در اين فصل و فصول قبلي بحث شد، تحليل اقتصادسنجي قابليت ارائه دانش‌هاي ارزشمندي به ما دارد. سرانجام بحث انتقادي استدلال شفاهي و حقه‌هاي خطابه‌هاي آن نيز مي‌تواند اين تاثير را بر جا گذارد كه آنها را هم نبايد جدي گرفت. «هشدار سخنران يا شنونده بايد عاقل باشد» در هر جايي و نه فقط در كارهاي اقتصاد سنجي كاربرد دارد، اما آنچه اين عبارت معنی مي‌دهد «خواننده آگاه باشد» است نه اينكه «خواندن را متوقف كند.»

كادر1- ضريب تعيين و ضريب همبستگي
براي محاسبهR2، دو حدس درباره مقدار هر كدام از yها مقايسه مي‌شود. يكي حدسی كه شما مي‌زنيد اگر اصلا هيچ شناختي درباره رابطه x و y نداشتيد و ديگري حدسي است كه شما مي‌زنيد وقتي معادله رگرسيوني داريد كه x را به y در دسترس ارتباط مي‌دهد و مقادير هر كدام از xها را مي‌دانيد. براي مثال، اگر مي‌خواهيد مخارج مصرف سالانه يك خانواده خاص را حدس بزنيد كه هيچ چيز درباره آن نمي‌دانيد، بهترين كاري كه مي‌توانيد انجام دهيد استفاده از ميانگين مخارجي همه خانواده‌ها است. اكنون فرض مي‌كنيم درآمد خانواده به شما گفته شده است و نيز معادله رگرسيون را داريد:
مخارج مصرفي = (000/20) + (8/0) درآمد است. سپس شما با اين اطلاعات مي‌توانيد مصرف خانواده را تخمين بزنيد.
در اين مورد و همچنين موردي كه معادله رگرسيون را در اختيار نداريم و فقط ميانگين مخارج مصرفي همه خانواده‌ها را استفاده مي‌كنيم، تخمين به دست آمده مقداري خطا خواهد داشت و اندازه نسبي خطا در اين دو مورد به ما مي‌گويد كه معادله رگرسيون چقدر توانسته است تخمين‌ ما را بهبود ببخشد. بنابراين مي‌توان از نسبتي استفاده كرد كه در صورت آن، ميزان خطا باشد وقتي معادله را داريم و در مخرج آن، ميزان خطا باشد وقتي معادله را نداريم. اگر معادله يك برازش كامل باشد خطاي ما وقتي معادله را استفاده مي‌كنيم صفر خواهد بود و نسبت آنها 1 خواهد شد، اما اينكه بخواهيم از نسبتي استفاده كنيم كه خوبي برازش معادله رگرسيون را با پايين بودن آن به نشانه بهتر بودن معادله نشان دهد چندان جالب به نظر نمي‌رسد پس يك كلك مي‌زنيم كه سنجه همبستگي را نه با نسبت بالا بلكه با 1 منهاي آن نسبت بيان مي‌كنيم. پس بي‌درنگ مي‌توان نتيجه گرفت: اكنون همبستگي بهتر زماني است كه سنجه همبستگي بالاتر باشد. به يك گام بيشتر نياز داريم. به دلايل فني، بهتر است خطاهاي ميانگين كه با استفاده و بدون استفاده از معادله به دست آورديم را مقايسه نكنيم بلكه در عوض ميانگين مجذور خطاها را مقايسه كنيم كه اين همان R2 است.

كادر 2- اندازه‌گيري روندها
يكي از كاربردهاي رايج رگرسیون، يافتن روند يك سري از قبيل GDP است. تمام كاري كه بايد بكنيد واگذاري اعداد پشت سرهم (مثلا 1، 2، 3، .... n) به هر كدام از مشاهدات پي‌درپي (مثلا سالانه) و سپس رگرس كردن متغير y روي اين اعداد است. اندازه‌گيري روندها نه فقط براي پيش‌بيني مفيد است، بلكه همچنين براي نشان دادن اينكه چگونه تغيير متغير طي يك دوره خاص را با تغيير معمولي آن مقايسه كنيم. براي مثال معنی‌دار ساختن يك گزارش به اين شيوه آسان‌تر است كه «اشتغال در ماه گذشته، اندكي بيش از روند خود رشد كرد» تا اينكه گزارش را چنين تفسير كنيم كه «میزان اشتغال 110 هزار تا رشد كرد». خواننده نمي‌داند آيا 110 هزار شغل، افزايش «بزرگ» يا «كوچكي» است.
روش ديگر شنيدن صداي آرام اما استوار تغيير بلندمدت از طريق حركات پياپي كوتاه مدت، برازش يك ميانگين متحرك روي داده‌ها است. ايده اساسي اين است كه ما فهم بهتري در مورد برخي داده‌ها، مثلا قيمت سهام به دست مي‌آوريم اگر صرفا به مقدار جاري آنها نگاه نكنيم بلكه به مقدار ميانگين آنها طي يك مدت زمان نگاه كنيم. بنابراين يك دوره با طول زماني معين (اغلب به دلخواه خود) مثلا پنج سال انتخاب كنيد و ميانگين را براي اين پنج سال به دست آوريد و اين ميانگين را در سال وسط دوره پنج ساله نقطه‌گذاري كنيد. سپس سال اول را حذف كرده و يك سال به انتها مي‌افزاييم و اين را به صورت نقطه‌اي براي سال بعد مي‌گذاريم و الی آخر. چنين ميانگين متحركي بيشتر نوسانات دوره به دوره را حذف كرده، اما به خشكي روند خط راست نيست.
اينجا دو هشدار درباره روندها می‌دهیم. نخست، ارزش ضريب روند را برخي اوقات مي‌توان با انتخاب تاريخ شروع يا پايان خاص دستكاري كرد. اگر با سالي شروع كنيم كه متغير به نحو غيرعادي پايين بوده است نرخ رشد سريع‌تري به دست مي‌آوريم نسبت به حالتي كه یک سال با بالا بودن غيرعادي متغير را انتخاب كنيم. دوم اينكه روند، سرنوشت محتوم نيست. به هشدار پيشگويان بدبين يا وعده‌هاي شتابزده افراد خيال‌پرداز كه روندهاي جاري را براي آينده پيش‌بيني مي‌كنند اعتنايي نكنيد. اگر بازار سهام در سه سال گذشته هر سال 30 درصد رشد كرده است قطعا براي ده سال آينده ادامه نخواهد يافت.
در اين‌باره متاسفم.
بدبختانه، در حالي كه پيش‌بيني آنچه اتفاق خواهد افتاد يا تحليل عوامل زيربنايي آن كاري مشكل است، پيش‌بيني يك روند آسان بوده و اغلب به نتيجه‌گيري شگرف و بنابراين با ارزشي منجر مي‌شود، به خصوص اگر خوانندگان اين شرط را فراموش كنند: «اگر روندهاي جاري ادامه يابد.» واكنش مناسب به شيفتگان روند اين است كه بگوييم بسيار زودتر از آن زماني كه پيش‌بيني‌ها به آزمون گذاشته شود همه ما مرده‌ايم یا به وسيله يك گربه غول‌آسا بلعيده شده‌ايم. يك بچه گربه در همسايگي ما هست كه جثه‌اش اكنون دو برابر هفته قبل شده است. اين روند را براي پنج سال آينده پيش‌بيني كنيد.

كادر3- استفاده از رگرسيون براي رديابي تبعيض جنسيت
يك شيوه استاندارد براي رديابي تبعيض شغلي، استفاده از تحليل رگرسيون براي تعيين اين است كه آيا نژاد يا جنسيت شخص، به تبيين حقوق وي نسبت به حقوق ساير كاركنان با شايستگي‌هاي مشابه كمك مي‌كند. بياييد ببينيم چگونه آزمون تعيين تبعيض عليه اساتيد زن را انجام مي‌دهيم. نخست درباره همه متغيرهايي كه حقوق اساتيد را تعيين مي‌كنند فكر مي‌كنيم. سپس معادله‌اي مثل زير را مي‌نويسيم:
y= a +bx1 +cx2 +dx3 +ex4 +fx5 +gx6 +hx7
در اينجا y حقوق هر پروفسور در نمونه، a عدد ثابت، X1 سنجه كيفيت دانشگاهي است كه استاد مدرك دكتري خود را گرفته است، X2تعداد سال‌هاي پس از گرفتن مدرك دكتري است، X3 رشته تحصيلي استاد، X4 ارزيابي‌هاي عملكرد تدريس وي، X5 شاخص نشريات، X6جنسيت و X7 همه متغيرهاي ديگري است كه بايد شامل مي‌شد؛ اما ناديده گرفته شده است چون كه شناخته شده نيستند يا قابل اندازه‌گيري نيستند؛ معنی‌دار بودن آماري و محتوايي g خواهد گفت كه آيا تبعيض جنسي وجود دارد و چقدر بزرگ است.
هنگام برازش اين معادله به داده‌ها، متغير اسرارآميزX7 البته بايد حذف شود. اگر و فقط اگر همبستگي مثبت يا منفي با X6 متغير جنسيت نداشته باشد يا اگرX7 اثر اندكی بر حقوق اساتيد داشته باشد، g يك تخمين بدون سوگیری از دامنه تبعيض جنسيتي خواهد بود. چنین برمی‌آید كه اين مطالعات قابليت اتكاي بالايي ندارند؛ اما آيا روش‌هاي بهتري براي پاسخ دادن به اين پرسش وجود دارد؟


كادر4- با مشاهدات پرت چكار كنيم؟
يك موضع افراطي اين است كه چون مشاهدات پرت با بقيه داده‌ها همخواني ندارند بايد اشتباهي در رابطه با آنها شده باشد؛ بنابراين مي‌توان آنها را بدون حتي گفتن به خواننده كنار گذاشت. براي اينكه دفاع قوي از اين ادعا بشود، فرض كنيد مجموعه داده‌هاي ساعتي كارگران منسوجات را داريم و در جلوی يكی از مشاهدات عدد 1 ميليون دلار نوشته شده است، اما بيشتر مشاهدات پرت ظاهرا بي‌مصرف نيستند و كنار گذاشتن مشاهدات پرت مي‌تواند به كنار گذاشتن مشاهداتي تنزل نمايد كه از فرضيه پژوهشگر پشتيباني نمي‌كنند. اگر كمترين ترديد درباره توجيه براي كنار گذاشتن يك مشاهده پرت داريم، به خوانندگان بايد گفته شود كه آن را كنار گذاشتيم و چرا.
موضع افراطي ديگر اين است كه بگوييم «خب، اين آن چيزي است كه داده‌ها نشان مي‌دهند و همين كه هست، اما اين كار غيرواقع‌بينانه است. وقتي يك مشاهده پرت داريد به درستي احساس مي‌شود كه بايد آن را بررسي كرد. از اين گذشته احتمال دارد كه آن به خاطر خطاي در ثبت اعداد باشد. يا احتمال دارد كه عددی واقعي اما يك مورد خاص باشد. براي مثال اگر متغير وابسته ما، تعداد سفرهای هوايي باشد، مشاهده پرت مثلا بيانگر اعتصاب در يك شركت مهم هواپيمايي است. اگر بتوان دفاع معقول كرد كه مشاهده پرت مورد خاصي است، پس مي‌توان نتايج رگرسيون را با و بدون آن گزارش داد. تكنيك‌هاي رياضي براي تشخيص مشاهدات پرت وجود دارد، اما حتي با اين‌حال اينكه كجا خط را بكشيم گاهي اوقات يك مساله پيچيده است. چنين وابسته‌بودنی به قضاوت شخصي، عمل «غيرعلمي» نيست.



ماخذ:دنياي اقتصاد

نوشته شده توسط سپهر برادران در پنجشنبه ششم مرداد ۱۳۹۰ |