اپسیلون

درباره سنجش و اندازه گیری در علوم رفتاری و اجتماعی

اپسیلون

درباره سنجش و اندازه گیری در علوم رفتاری و اجتماعی


این مطلب توسط خانم دکتر مقدم برای این سایت تهیه و ارسال شده. با تشکر ویژه از ایشان بابت این مطلب مفید.



وقتی هدفِ سنجش، ارزشیابی یادگیرندگان و بررسی جنبه های خاصی از مهارتهای از پیش تعیین شده است، تحلیل خرده شایستگیها ضروری به نظر میرسد. از این رو، هدف سنجش تشخیصی شناختی هدایت آزمون سازان به منظور ساخت آزمونهایی است که قادر به ارائه چنین نتایجی باشند. در این روش به جای توجه به سنجش پیامدهای یادگیری بر سنجش برای یادگیری و سنجش به عنوان فرایند یادگیری تاکید میشود. سنجش تشخیصی شناختی، چارچوب نظری جدیدی در زمینه اندازه گیری آموزشی و روانی است که به جای رتبه بندی آزمودنیها بر اساس نمرات به دست آمده از آزمون، گزارش خرده نیمرخ تسلط آزمودنی در مهارت های مختلف را به منظور ارائه بازخورد تشخیصی تکوینی ارائه میدهد. اگرچه آزمونهای مرسوم برای درجه بندی و رتبه بندی عملکرد آزمودنی در آزمون تهیه شده اند، ولی آنها اطلاعات تشخیصی مفیدی در مورد عملکرد آزمودنیها ارائه نمیدهند. سنجش تشخیصی شناختی، اطلاعات مفصلی در مورد نقاط قوت و ضعف آزمودنیها در ساختار خاص دانش و مهارتهای مدنظر آزمون ساز تدارک میبیند به گونه ای که آزمودنیها میتوانند به دلایل موفقیت یا شکستشان در سوالی خاص پی برده و عملکرد آتی خود را بهبود بخشند.


متن کامل به همراه فایل داده ها و کدهای تحلیل را می توانید از   اینجا (حجم: 1.01 مگابایت) دریافت کنید.

مطالعات شبیه سازی در IRT نقشی کلیدی در بررسی ویژگیهای پارامتریک مدلهای موجود و نیز تکنیکهای مرتبط دارد. دلیل این امر هم این است که در استفاده از و تحلیل داده های واقعی، مقدار حقیقی پارامترهای مدل (مثلا پارامترهای سوال مانند ضریب دشواری یا تمیز) در دسترس نیست و بنابراین امکان بررسی دقت روش برآورد پارامتر وجود ندارد.

در مطالعات شبیه سازی سعی می شود تا حد امکان شرایط واقعی مدل سازی شده و بر مبنای آن داده های تصادفی تولید شود. سپس با تحلیل این داده های تولید شده و نیز اطلاع از مقادیر حقیقی پارامترها، میتوان درباره دقت و کارکرد روش برآورد پارامتر قضاوت کرد. این پارامترها محدود به ویژگیهای سوال نمی شوند و گستره وسیعی از پارامترها را در می گیرد از جمله پارامتر توانایی، خطای اندازه گیری، پارامترهای همترازسازی و ....

اگر فاصله اطمینان میانگینهای دو گروه همپوشانی (overlap) داشت آیا این به معنی عدم تفاوت معنادار بین دو گروه است؟

این سوالی است که از طرف افراد مختلف به کراّت با آن مواجه شده ام بنابراین قصدم دارم در این مطلب،توضیح نسبتا مبسوطی درباره آن ارائه دهم. فرض بر این است که خواننده با مفهوم فرض آزمایی آماری، خطای استاندارد میانگین، فاصله اطمینان و سطح معناداری آشنایی دارد.

در بررسی معناداری تفاوت بین میانگین دو گروه، عموما از آزمون t گروههای مستقل استفاده میشود که فرمول عمومی آن (با فرض برابری حجم نمونه در هر گروه) به قرار زیر است:

برای محاسبه فاصله اطمینان تفاوت بین دو میانگین، از مقدار حاصل از مخرج فرمول فوق استفاده میشود. بعبارت دیگر، فاصله اطمینان تفاوت بین دو میانگین متناسب با جذر حاصلجمع مجذور خطاهای استاندارد () دو نمونه است. 

در فعالیت آزمون سازی و اجرای آزمون عبارات همترازسازی (Equating) ، مرتبط سازی (Linking) و مقیاس پردازی (Scaling) آزمون یا نمرات آزمون مکرراً شنیده می شود. این سه عبارت، اگرچه مرتبط، اما تفاوتهای اساسی با یکدیگر دارند و این امر موجب سردرگمی خواننده می شود. در این نوشتار به توصیف و ارتباط هر یک از عبارات فوق با یکدیگر (بدون وارد شدن به جزییات فنی) خواهیم پرداخت.

 

همترازسازی یا Equating

به طور خلاصه، همترازسازی به فرآیند تعویض پذیر (Interchangeable) نمودن نمرات ترکیب (Form)های مختلف یک آزمون اطلاق می شود. بعبارت دیگر، زمانی که  آزمونهای متفاوت برای محتوای مشابه تهیه می شود انتظار می رود که این آزمونها دارای سطح دشواری همسان نیز باشند اما در عمل چنین چیزی رخ نمی دهد. دلیل اصلی برای همسانی محتوا و سطح دشواری آزمونها،فراهم شدن امکان مقایسه نتایج آزمونهای مختلف است.

در نظریه کلاسیک اندازه گیری (Classical Test Theory) فرض بر این است که بین نمره مشاهده شده فرد در آزمون و توانایی حقیقی وی رابطه خطی زیر برقرار است:

 Xi= Ti +E

در رابطه فوق، X معرف نمره مشاهده فرد i  در آزمون، T مقدار عددی توانایی حقیقی فرد i و E خطای اندازه گیری آزمون است. توجه داشته باشید که در رابطه فوق،تمامی تعاریف مبتنی بر آزمون هستند. بعبارت دیگر، آزمون مبنای نظریه پردازی و تحلیل در نظریه کلاسیک اندازه گیری است از این رو هر گونه تجزیه و تحلیل، حتی تجزیه و تحلیل سوالات آزمون، مبتنی بر آزمون خواهد بود.

در حال حاضر، تحلیل سوالات آزمون به صورت بخشی مجزا در نرم افزارهای متداول آماری مانند SPSS قرار داده نشده است

امروزه تمرکز و اشتیاق بسیاری از افراد بر نرم افزارها و منابع "منبع آزاد" یا Open Source است به این دلیل که باور به در اختیار بودن دانش و منابع برای همگان دارند. در حوزه تحلیلهای آماری و به تبع آن تحلیلهای حوزه سنجش و اندازه گیری در علوم رفتاری، تمرکز بر استفاده از نرم افزار برنامه نویسی آماری R است.
از این رو تلاش دارم در مجموعه ای پیاپی، شیوه انجام تحلیلهای مرتبط با سنجش و اندازه گیری و نیز تحلیلهای آماری در محیط R را منتشر نمایم. در این تلاش فرض بر این است که فرد خواننده نرم افزار R را در اختیار دارد و رویکردی کاملا کاربردی و موضوع محور نسبت به استفاده از R دارد. از آنجا که نرم افزار R دارای پیچیدگی های زیادی است (مانند هر زبان برنامه نویسی دیگر)، چنین مفروض شده است که فرد علاقه مند نسبت به یادگیری مباحث پیشرفته تر،شخصا اقدام به یادگیری می نماید. اگرچه در هر نوشتار و تحلیلی که (اینجا) منتشر خواهد شد به نکاتی فراتر از موضوع مورد تحلیل نیز پرداخته خواهد شد اما این به معنای آموزش نرم افزار R در حالت مجرد آن نیست.

می توان گفت که با ظهور و ابداع نظریه سوال-پاسخ روشها و تکنیک های جدیدی برای تجزیه و تحلیل داده های حاصل از اجرای آزمونها فراهم شد. این نظریه با توجه به چارچوبی که مبتنی بر آن است  امکان همترازسازی و ارتباط دادن آزمونها، بررسی سوگیری سوال و تست و نیز زمینه ای برای ساختن آزمونهای بهتر و دقیق تر را فراهم نمود. در مدلهای اولیه نظریه سوال-پاسخ، چنین فرض میشد که عامل زیربنایی عملکرد آزمونی در تست یا آزمون، تک بعدی است بدین معنی که تنها یک توانایی می توان برای توصیف روابط بین سوالها و عملکرد فرد در آزمون بکار رود. اما با توسعه این نظریه و نیز سهولت پیاده سازی مدلهای پیچیده تر، مدل ها و روشهای آماری مبتنی بر در نظر گرفتن عوامل زیربنایی متعدد (چند بعدی) برای تحلیل آزمون ها نیز ارائه شد که تحت عنوان نظریه سوال-پاسخ چند بُعدی( Multidimensional Item Response Theory  or MIRT ) شناخته می شوند. در حال نرم افزارهای متعددی برای تحلیل داده های مبتنی بر نظریه سوال-پاسخ چند بعدی وجود دارد که هر کدام دارای نقاط قوت و ضعف هستند.

به جرا ت می توان گفت که بخش عظیمی از تلاش و پژوهش علمی معطوف به اکتشاف،شناخت و توصیف روابط علّی در پدیده ها و داده هاست. این امر از آن رو اهمیت دارد که برای علم و نظریه سه کارکرد عمده در نظر گرفته می شود که عبارتند از "پیش بینی، تبیین و کنترل". هر سه این موارد معطوف به شناخت و تشخیص صحیح روابط علت و معلولی بین پدیده ها و داده های برآمده از آنهاست چرا که با شناخت روابط علّی است که می توان پدیده ها را "پیش بینی" کرد، وقوع، عدم وقوع و چگونگی وقوع پدیده ها را "تبیین" نمود و براساس روابط علت معلولی بین پدیده ها می توان آنها را "کنترل" نمود. روشهای آمای زیادی برای بررسی روابط علّی وجود دارد از جمله روشهای تحقیق آزمایشی و مدل یابی معادلات ساختاری.

یکی از موارد مهم اجرایی در برگزاری آزمون ها، اطمینان از قابل مقایسه و تبدیل بودن نمرات آزمونهای مختلف با یکدیگر است. بدین صورت که از طریق روشهای آماری بتوان ترتیبی داد که نمرات آزمونها مختلف که در زمانهای مختلف برگزار شده اند و دارای سوالات متفاوتی هستند، بر روی یک مقیاس مشترک قرار بگیرند. این قرار گرفتن بر روی یک مقیاس مشترک می تواند منجر به دو ویژگی شود: تعویض پذیری (Interchangeability) نمرات و مقایسه پذیری (Comparability) نمرات.
مورد اول از طریق روشهای همترازسازی (Equating) و مورد دوم از طریق روشهای مقیاس پردازی (Scaling) قابل حصول است. در همترازسازی با دو نوع کلی همترازسازی افقی (Horizontal Equating) و همترازسازی عمودی (Vertical Equating) مواجه هستیم.
عبارت CIPE مخفف Common Item Program for Equating است. همانطور از عنوان مشخص است، این نرم افزار برای انجام همترازسازی آزمونهایی که مبتنی بر سوال مشترک هستند طراحی شده است. این نرم افزار که به زبان FORTRAN نوشته شده، قابلیت انجام همترازسازی تحت طرح گروههای نابرابر با سوال مشترک (common-item nonequivalent groups design)