اپسیلون

درباره سنجش و اندازه گیری در علوم رفتاری و اجتماعی

اپسیلون

درباره سنجش و اندازه گیری در علوم رفتاری و اجتماعی

۶ مطلب با موضوع «نوشته ها» ثبت شده است

اگر فاصله اطمینان میانگینهای دو گروه همپوشانی (overlap) داشت آیا این به معنی عدم تفاوت معنادار بین دو گروه است؟

این سوالی است که از طرف افراد مختلف به کراّت با آن مواجه شده ام بنابراین قصدم دارم در این مطلب،توضیح نسبتا مبسوطی درباره آن ارائه دهم. فرض بر این است که خواننده با مفهوم فرض آزمایی آماری، خطای استاندارد میانگین، فاصله اطمینان و سطح معناداری آشنایی دارد.

در بررسی معناداری تفاوت بین میانگین دو گروه، عموما از آزمون t گروههای مستقل استفاده میشود که فرمول عمومی آن (با فرض برابری حجم نمونه در هر گروه) به قرار زیر است:

برای محاسبه فاصله اطمینان تفاوت بین دو میانگین، از مقدار حاصل از مخرج فرمول فوق استفاده میشود. بعبارت دیگر، فاصله اطمینان تفاوت بین دو میانگین متناسب با جذر حاصلجمع مجذور خطاهای استاندارد () دو نمونه است. 

در فعالیت آزمون سازی و اجرای آزمون عبارات همترازسازی (Equating) ، مرتبط سازی (Linking) و مقیاس پردازی (Scaling) آزمون یا نمرات آزمون مکرراً شنیده می شود. این سه عبارت، اگرچه مرتبط، اما تفاوتهای اساسی با یکدیگر دارند و این امر موجب سردرگمی خواننده می شود. در این نوشتار به توصیف و ارتباط هر یک از عبارات فوق با یکدیگر (بدون وارد شدن به جزییات فنی) خواهیم پرداخت.

 

همترازسازی یا Equating

به طور خلاصه، همترازسازی به فرآیند تعویض پذیر (Interchangeable) نمودن نمرات ترکیب (Form)های مختلف یک آزمون اطلاق می شود. بعبارت دیگر، زمانی که  آزمونهای متفاوت برای محتوای مشابه تهیه می شود انتظار می رود که این آزمونها دارای سطح دشواری همسان نیز باشند اما در عمل چنین چیزی رخ نمی دهد. دلیل اصلی برای همسانی محتوا و سطح دشواری آزمونها،فراهم شدن امکان مقایسه نتایج آزمونهای مختلف است.

در نظریه کلاسیک اندازه گیری (Classical Test Theory) فرض بر این است که بین نمره مشاهده شده فرد در آزمون و توانایی حقیقی وی رابطه خطی زیر برقرار است:

 Xi= Ti +E

در رابطه فوق، X معرف نمره مشاهده فرد i  در آزمون، T مقدار عددی توانایی حقیقی فرد i و E خطای اندازه گیری آزمون است. توجه داشته باشید که در رابطه فوق،تمامی تعاریف مبتنی بر آزمون هستند. بعبارت دیگر، آزمون مبنای نظریه پردازی و تحلیل در نظریه کلاسیک اندازه گیری است از این رو هر گونه تجزیه و تحلیل، حتی تجزیه و تحلیل سوالات آزمون، مبتنی بر آزمون خواهد بود.

در حال حاضر، تحلیل سوالات آزمون به صورت بخشی مجزا در نرم افزارهای متداول آماری مانند SPSS قرار داده نشده است

امروزه تمرکز و اشتیاق بسیاری از افراد بر نرم افزارها و منابع "منبع آزاد" یا Open Source است به این دلیل که باور به در اختیار بودن دانش و منابع برای همگان دارند. در حوزه تحلیلهای آماری و به تبع آن تحلیلهای حوزه سنجش و اندازه گیری در علوم رفتاری، تمرکز بر استفاده از نرم افزار برنامه نویسی آماری R است.
از این رو تلاش دارم در مجموعه ای پیاپی، شیوه انجام تحلیلهای مرتبط با سنجش و اندازه گیری و نیز تحلیلهای آماری در محیط R را منتشر نمایم. در این تلاش فرض بر این است که فرد خواننده نرم افزار R را در اختیار دارد و رویکردی کاملا کاربردی و موضوع محور نسبت به استفاده از R دارد. از آنجا که نرم افزار R دارای پیچیدگی های زیادی است (مانند هر زبان برنامه نویسی دیگر)، چنین مفروض شده است که فرد علاقه مند نسبت به یادگیری مباحث پیشرفته تر،شخصا اقدام به یادگیری می نماید. اگرچه در هر نوشتار و تحلیلی که (اینجا) منتشر خواهد شد به نکاتی فراتر از موضوع مورد تحلیل نیز پرداخته خواهد شد اما این به معنای آموزش نرم افزار R در حالت مجرد آن نیست.
در کتاب "مباحث نو در روانسنجی" که ترجمه ای است از کتاب Introduction to Classical and Modern Test Theory توسط دکتر ولی اله فرزاد و دکتر حسین زارع  و در سال 1388 بوسیله نشر آییژ به چاپ رسیده است، برای عبارت "Item Response Theory" معادل فارسی "نظریه پاسخِ سوال " یا "نظریه پاسخ سوال" در نظر گرفته شده است. این نکته باعث شد تا به بحثی در این باره بپردازم. این بحث به این دلیل مهم است که فارغ از مباحث تخصصی ترجمه، چنانچه اشکالی در انتقال مفاهیم و موضوعات از زبان اصلی به فارسی رخ دهد، این اشکال نه تنها باعث مخدوش شدن یادگیری بلکه باعث انحراف مفهوم درک شده از موضوع خواهد شد. علاوه بر این،ترجمه عبارات و اسامی کلیدی هر حوزه می تواند هویت موضوعی و کاربردی آن حوزه را تغییر دهد. در رابطه با عنوان "نظریه پاسخِ سوال" یا "نظریه پاسخ سوال" می توان به نکات زیر اشاره نمود:
اول) درباره عبارت Item Response Theory باید گفت که این اصطلاحی بود که اولین بار لرد درکتاب 1980 خود به آن اشاره کرد و از آن برای نامیدن گستره ای از روشهای نوین در حوزه سنجش و اندازه گیری استفاده نمود. در واقع، این نامگذاری مبتنی بر اصطلاح بنیادی این حوزه یعنی Item Characteristic Curve (منحنی (خم) ویژه سوال) است که اولین بار توسط تاکر (1946) برای نشان دادن رابطه بین احتمال پاسخ درست یک سوال و یک اندازه (متغیر) مستقل بکار برده شد. از آنجاکه هدف اصلی این حوزه جدید مطالعه عملکرد آزمودنی ها در مواجهه با سوال یا مجموعه ای از سوالات بود، عنوان Item Characteristic Curve Theory یا نظریه منحنی (خم) ویژه سوال به مفاهیم و نظریه پردازی ها در این حوزه اطلاق شد. از سوی دیگر، بنظر میرسد لازارسفِلد (1950) اولین کسی بود که در مطالعات خود درباره نگرش سنجها از عنوان Latent Trait Theory (نظریه خصیصه مکنون) استفاده کرد. در همین زمینه، همبلتون و سوامیناتان (1985) در معرفی تاریخچه نظریه IRT بیان میکنند:

ایده داشتن یک سایت درباره سنجش و اندازه گیری در علوم رفتاری،مدتها پیش توسط من و تنی چند از دوستان مطرح شده بود اما به دلایل مختلف امکان انجام چنین چیزی فراهم نشد. هرچند که در برهه ای کوتاه یک سایت به همین منظور راه اندازی کردیم اما عمرش دوامی نداشت.

هدف اصلی از راه اندازی چنین سایتی،ایجاد فضایی نسبتا تخصصی درباره مباحثی از سنجش و اندازه گیری در علوم رفتاری است که کمتر مورد اشاره و بحث در بین دانشگاهیان این حوزه در ایران قرار گرفته و یا اگر بدان ها نظری افکنده شده،از عمق و غنای کافی برخوردار نبوده است.نیز ایجاد فرصتی برای بازاندیشی درباره آنچه که هم اکنون تحت عنوان سنجش و اندازه گیری در ایران می شناسیم.
از طرفی دیگر،کمبود نرم افزارهای مرتبط با این حوزه یا عدم آشنایی با نرم افزارهای موجود و قابل استفاده در این حوزه،منجر شده است که نه تنها مدرسین و پژوهشگران بالقوه این حوزه بلکه دانشجویان این حوزه نیز امکان تجربه پژوهشی در این زمینه را نداشته باشند و این خود منجر به سطحی شدن مباحث در حد موضوعات و مباحث کلاسی گردیده و فرصت چالش و یادگیری بیشتر را سلب نموده است.