اپسیلون

درباره سنجش و اندازه گیری در علوم رفتاری و اجتماعی

اپسیلون

درباره سنجش و اندازه گیری در علوم رفتاری و اجتماعی

۱۰ مطلب با کلمه‌ی کلیدی «IRT» ثبت شده است


این مطلب توسط خانم دکتر مقدم برای این سایت تهیه و ارسال شده. با تشکر ویژه از ایشان بابت این مطلب مفید.



وقتی هدفِ سنجش، ارزشیابی یادگیرندگان و بررسی جنبه های خاصی از مهارتهای از پیش تعیین شده است، تحلیل خرده شایستگیها ضروری به نظر میرسد. از این رو، هدف سنجش تشخیصی شناختی هدایت آزمون سازان به منظور ساخت آزمونهایی است که قادر به ارائه چنین نتایجی باشند. در این روش به جای توجه به سنجش پیامدهای یادگیری بر سنجش برای یادگیری و سنجش به عنوان فرایند یادگیری تاکید میشود. سنجش تشخیصی شناختی، چارچوب نظری جدیدی در زمینه اندازه گیری آموزشی و روانی است که به جای رتبه بندی آزمودنیها بر اساس نمرات به دست آمده از آزمون، گزارش خرده نیمرخ تسلط آزمودنی در مهارت های مختلف را به منظور ارائه بازخورد تشخیصی تکوینی ارائه میدهد. اگرچه آزمونهای مرسوم برای درجه بندی و رتبه بندی عملکرد آزمودنی در آزمون تهیه شده اند، ولی آنها اطلاعات تشخیصی مفیدی در مورد عملکرد آزمودنیها ارائه نمیدهند. سنجش تشخیصی شناختی، اطلاعات مفصلی در مورد نقاط قوت و ضعف آزمودنیها در ساختار خاص دانش و مهارتهای مدنظر آزمون ساز تدارک میبیند به گونه ای که آزمودنیها میتوانند به دلایل موفقیت یا شکستشان در سوالی خاص پی برده و عملکرد آتی خود را بهبود بخشند.


متن کامل به همراه فایل داده ها و کدهای تحلیل را می توانید از   اینجا (حجم: 1.01 مگابایت) دریافت کنید.

مطالعات شبیه سازی در IRT نقشی کلیدی در بررسی ویژگیهای پارامتریک مدلهای موجود و نیز تکنیکهای مرتبط دارد. دلیل این امر هم این است که در استفاده از و تحلیل داده های واقعی، مقدار حقیقی پارامترهای مدل (مثلا پارامترهای سوال مانند ضریب دشواری یا تمیز) در دسترس نیست و بنابراین امکان بررسی دقت روش برآورد پارامتر وجود ندارد.

در مطالعات شبیه سازی سعی می شود تا حد امکان شرایط واقعی مدل سازی شده و بر مبنای آن داده های تصادفی تولید شود. سپس با تحلیل این داده های تولید شده و نیز اطلاع از مقادیر حقیقی پارامترها، میتوان درباره دقت و کارکرد روش برآورد پارامتر قضاوت کرد. این پارامترها محدود به ویژگیهای سوال نمی شوند و گستره وسیعی از پارامترها را در می گیرد از جمله پارامتر توانایی، خطای اندازه گیری، پارامترهای همترازسازی و ....

در فعالیت آزمون سازی و اجرای آزمون عبارات همترازسازی (Equating) ، مرتبط سازی (Linking) و مقیاس پردازی (Scaling) آزمون یا نمرات آزمون مکرراً شنیده می شود. این سه عبارت، اگرچه مرتبط، اما تفاوتهای اساسی با یکدیگر دارند و این امر موجب سردرگمی خواننده می شود. در این نوشتار به توصیف و ارتباط هر یک از عبارات فوق با یکدیگر (بدون وارد شدن به جزییات فنی) خواهیم پرداخت.

 

همترازسازی یا Equating

به طور خلاصه، همترازسازی به فرآیند تعویض پذیر (Interchangeable) نمودن نمرات ترکیب (Form)های مختلف یک آزمون اطلاق می شود. بعبارت دیگر، زمانی که  آزمونهای متفاوت برای محتوای مشابه تهیه می شود انتظار می رود که این آزمونها دارای سطح دشواری همسان نیز باشند اما در عمل چنین چیزی رخ نمی دهد. دلیل اصلی برای همسانی محتوا و سطح دشواری آزمونها،فراهم شدن امکان مقایسه نتایج آزمونهای مختلف است.

می توان گفت که با ظهور و ابداع نظریه سوال-پاسخ روشها و تکنیک های جدیدی برای تجزیه و تحلیل داده های حاصل از اجرای آزمونها فراهم شد. این نظریه با توجه به چارچوبی که مبتنی بر آن است  امکان همترازسازی و ارتباط دادن آزمونها، بررسی سوگیری سوال و تست و نیز زمینه ای برای ساختن آزمونهای بهتر و دقیق تر را فراهم نمود. در مدلهای اولیه نظریه سوال-پاسخ، چنین فرض میشد که عامل زیربنایی عملکرد آزمونی در تست یا آزمون، تک بعدی است بدین معنی که تنها یک توانایی می توان برای توصیف روابط بین سوالها و عملکرد فرد در آزمون بکار رود. اما با توسعه این نظریه و نیز سهولت پیاده سازی مدلهای پیچیده تر، مدل ها و روشهای آماری مبتنی بر در نظر گرفتن عوامل زیربنایی متعدد (چند بعدی) برای تحلیل آزمون ها نیز ارائه شد که تحت عنوان نظریه سوال-پاسخ چند بُعدی( Multidimensional Item Response Theory  or MIRT ) شناخته می شوند. در حال نرم افزارهای متعددی برای تحلیل داده های مبتنی بر نظریه سوال-پاسخ چند بعدی وجود دارد که هر کدام دارای نقاط قوت و ضعف هستند.

یکی از موارد مهم اجرایی در برگزاری آزمون ها، اطمینان از قابل مقایسه و تبدیل بودن نمرات آزمونهای مختلف با یکدیگر است. بدین صورت که از طریق روشهای آماری بتوان ترتیبی داد که نمرات آزمونها مختلف که در زمانهای مختلف برگزار شده اند و دارای سوالات متفاوتی هستند، بر روی یک مقیاس مشترک قرار بگیرند. این قرار گرفتن بر روی یک مقیاس مشترک می تواند منجر به دو ویژگی شود: تعویض پذیری (Interchangeability) نمرات و مقایسه پذیری (Comparability) نمرات.
مورد اول از طریق روشهای همترازسازی (Equating) و مورد دوم از طریق روشهای مقیاس پردازی (Scaling) قابل حصول است. در همترازسازی با دو نوع کلی همترازسازی افقی (Horizontal Equating) و همترازسازی عمودی (Vertical Equating) مواجه هستیم.
اگر به دنبال نرم افزاری هستید که گستره وسیعی از تحلیلهای مرتبط با نظریه کلاسیک و سوال-پاسخ را با هم یکجا داشته باشد قطعا jMetrik یکی از اولین گزینه های شما خواهد بود. این نرم افزار رایگان تحت java نوشته است و برخی از ویژگیهای این نرم افزار به قرار زیر است:
  • برازش مدلهای دو و چند ارزشی (عموما خانواده Rasch) به همراه شاخصهای مربوطه و نمودار فرد-سوال (Item-Person map)
  • همترازسازی تحت IRT
  • مقیاس پردازی تست
در کتاب "مباحث نو در روانسنجی" که ترجمه ای است از کتاب Introduction to Classical and Modern Test Theory توسط دکتر ولی اله فرزاد و دکتر حسین زارع  و در سال 1388 بوسیله نشر آییژ به چاپ رسیده است، برای عبارت "Item Response Theory" معادل فارسی "نظریه پاسخِ سوال " یا "نظریه پاسخ سوال" در نظر گرفته شده است. این نکته باعث شد تا به بحثی در این باره بپردازم. این بحث به این دلیل مهم است که فارغ از مباحث تخصصی ترجمه، چنانچه اشکالی در انتقال مفاهیم و موضوعات از زبان اصلی به فارسی رخ دهد، این اشکال نه تنها باعث مخدوش شدن یادگیری بلکه باعث انحراف مفهوم درک شده از موضوع خواهد شد. علاوه بر این،ترجمه عبارات و اسامی کلیدی هر حوزه می تواند هویت موضوعی و کاربردی آن حوزه را تغییر دهد. در رابطه با عنوان "نظریه پاسخِ سوال" یا "نظریه پاسخ سوال" می توان به نکات زیر اشاره نمود:
اول) درباره عبارت Item Response Theory باید گفت که این اصطلاحی بود که اولین بار لرد درکتاب 1980 خود به آن اشاره کرد و از آن برای نامیدن گستره ای از روشهای نوین در حوزه سنجش و اندازه گیری استفاده نمود. در واقع، این نامگذاری مبتنی بر اصطلاح بنیادی این حوزه یعنی Item Characteristic Curve (منحنی (خم) ویژه سوال) است که اولین بار توسط تاکر (1946) برای نشان دادن رابطه بین احتمال پاسخ درست یک سوال و یک اندازه (متغیر) مستقل بکار برده شد. از آنجاکه هدف اصلی این حوزه جدید مطالعه عملکرد آزمودنی ها در مواجهه با سوال یا مجموعه ای از سوالات بود، عنوان Item Characteristic Curve Theory یا نظریه منحنی (خم) ویژه سوال به مفاهیم و نظریه پردازی ها در این حوزه اطلاق شد. از سوی دیگر، بنظر میرسد لازارسفِلد (1950) اولین کسی بود که در مطالعات خود درباره نگرش سنجها از عنوان Latent Trait Theory (نظریه خصیصه مکنون) استفاده کرد. در همین زمینه، همبلتون و سوامیناتان (1985) در معرفی تاریخچه نظریه IRT بیان میکنند:
نرم افزار آماری R یک نرم افزار متن باز است که به صورت رایگان در اختیار همه قرار دارد.برخلاف سایر نرم افزارهای آماری متداول مانند SPSS که گستره وسیعی از تحلیلهای آماری به صورت سیستم پنجره ای و به راحتی قابل دسترس هستند،در نرم افزار R برای هر تحلیل خاص یک بسته نرم افزاری توسط پژوهشگران نوشته شده و در اختیار سایرین قرار داده می شود.به عبارت دیگر،این نرم افزار یک محیط برنامه نویسی آماری است که با استفاده از بسته های نرم افزاری از پیش توسعه یافته می توانید به گسترع وسیعی از تحلیلها (بسیار بیشتر از نرم افزارهایی مانند SPSS9 دسترسی داشته باشید.نکته اینجاست که به دلیل محیط مبتنی بر برنامه نویسی در R،برای استفاده از بسته های نرم افزاری نیز باید از کدهای ارائه شده در بسته نرم افزاری استفاده نمایید.
در حال حاضر نرم افزار R به صورت گسترده توسط پژوهشگران حوزه سنجش و اندازه گیری برای انجام پژوهشها و تحلیلهای مختلف مورد استفاده قرار میگیرد که در بسیاری از موارد بسته های نرم افزاری آنها نیز از طریق خزانه بسته های نرم افزاری R در اختیار عموم قرار میگیرد.در سایت زیر می توانید به لیستی از بسته های نرم افزاری موجود مرتبط با تحلیلهای سنجش و اندازه گیری (بویژه روانسنجی) تحت نرم افزار R دسترسی پیدا کنید

Psychometrics in R

IRT-Lab نرم افزاری برای آموزش مبانی IRT است که امکان تولید منحنی های ویژه و تابع آگاهی برای سوال و تست،توابع درست نمایی و تولید داده های شبیه سازی شده برای داده های دو و چند ارزشی فراهم می نماید.
راهنمای نرم افزار
دانلود نرم افزار

eirt افزونه ای (Add-in) برای نرم افزار Excel است که امکان تجزیه و تحلیل داده های دو و چند ارزشی شامل برآورد پارامترهای سوال و فرد،منحنی های ویژه و آگاهی سوال و تست،برآورد های کلاسیک سوال و تست،آزمون استقلال موضعی و برازش سوال و تست را فراهم می آورد.در این نرم افزار می توانید تنظیمات مختلفی از جمله تعیین نوع برآوردگر (بیشینه درست نمایی و بیز با امکان تعیین توزیع های پیشین) برای سوالات و پارامتر توانایی،تنظیمات مربوط به فرآیند Newton-Raphson و تحلیل براساس مدل اجایو نرمال یا لجستیک انجام دهید.ضمنا نخسه تحت نرم افزار R این برنامه را نیز می توانید از سایت اصلی نرم افزار دریافت نمایید.
راهنمای نصب فارسی نرم افزار در Excel 2007
صفحه اصلی نرم افزار