دانش آموزان ChatGPT را در این امتحان شکست دادند، امتیاز 76٪ در مقایسه با Chatbot 47٪: گزارش

دانش‌آموزان در این امتحان ChatGPT را شکست دادند، امتیاز 76٪ در مقایسه با Chatbot 47٪

دانش‌آموزان به طور متوسط 76.7% در امتحان حسابداری در مقایسه با ChatGPT 47.4% امتیاز کسب کردند.

دهلی نو:

محققان دریافتند که دانش آموزان در امتحانات حسابداری بهتر از ChatGPT، محصول چت بات OpenAI، عملکرد بهتری داشتند.

با وجود این، آن‌ها گفتند که عملکرد ChatGPT «مطلوب» بود و این یک «تغییر بازی است که روش آموزش و یادگیری همه را تغییر می‌دهد – به سمت بهتر».

محققان دانشگاه بریگهام یانگ (BYU)، ایالات متحده و 186 دانشگاه دیگر می‌خواستند بدانند که فناوری OpenAI در امتحانات حسابداری چگونه عمل می‌کند. آنها یافته های خود را در مجله Issues in Accounting Education منتشر کرده اند.

در آزمون حسابداری محققین، دانش آموزان میانگین کلی 76.7 درصد را کسب کردند، در حالی که ChatGPT 47.4 درصد بود.

در حالی که در 11.3 درصد سوالات، ChatGPT بالاتر از میانگین دانش‌آموزان بود، به‌ویژه در سیستم‌های اطلاعات حسابداری (AIS) و حسابرسی عملکرد خوبی داشت، ربات هوش مصنوعی در ارزیابی‌های مالیاتی، مالی و مدیریتی عملکرد بدتری داشت. محققان فکر می کنند که این احتمالاً می تواند به این دلیل باشد که ChatGPT با فرآیندهای ریاضی مورد نیاز برای نوع دوم دست و پنجه نرم می کند.

ربات هوش مصنوعی که از یادگیری ماشینی برای تولید متن زبان طبیعی استفاده می‌کند، در سؤالات درست/نادرست (68.7 درصد درست) و سؤالات چند گزینه‌ای (59.5 درصد) بهتر عمل می‌کند، اما با سؤالات کوتاه پاسخ مشکل داشت. بین 28.7 و 39.1 درصد).

به طور کلی، محققان گفتند که پاسخ به سؤالات درجه بالاتر برای ChatGPT دشوارتر است. در واقع، گاهی اوقات ChatGPT برای ارائه توضیحات مکتوب معتبر برای پاسخ های نادرست، یا پاسخ دادن به یک سوال مشابه به روش های مختلف یافت می شد.

آنها همچنین دریافتند که ChatGPT اغلب برای پاسخ های خود توضیحاتی ارائه می دهد، حتی اگر آنها نادرست باشند. در موارد دیگر، علی رغم ارائه توضیحات دقیق، پاسخ چند گزینه ای اشتباه را انتخاب کرد.

محققان به طور مهمی خاطرنشان کردند که ChatGPT گاهی اوقات حقایقی را می سازد. به عنوان مثال، هنگام ارائه یک مرجع، یک مرجع واقعی ایجاد کرد که کاملاً ساخته شده بود. اثر و گاهی نویسندگان حتی وجود نداشتند.

همچنین مشاهده شد که این ربات دارای خطاهای ریاضی بی معنی مانند جمع کردن دو عدد در یک مسئله تفریق یا تقسیم اعداد اشتباه است.

دیوید وود، نویسنده اصلی این مطالعه، استاد حسابداری دانشگاه BYU، برای اینکه به بحث‌های مداوم در مورد اینکه چگونه مدل‌هایی مانند ChatGPT باید در آموزش نقش داشته باشند، تصمیم گرفت تا حد امکان اساتید را استخدام کند تا ببیند هوش مصنوعی در برابر دانشجویان واقعی حسابداری دانشگاه چگونه عمل می‌کند. .

طرح جذب نویسنده همکار او در رسانه های اجتماعی منفجر شد: 327 نویسنده مشترک از 186 موسسه آموزشی در 14 کشور در این تحقیق شرکت کردند و 25181 سوال امتحان حسابداری کلاس درس را ارائه کردند.

آنها همچنین دانشجویان BYU را در مقطع کارشناسی استخدام کردند تا 2268 سؤال دیگر از بانک آزمون کتاب درسی را به ChatGPT بدهند. سوالات شامل AIS، حسابرسی، حسابداری مالی، حسابداری مدیریتی و مالیات می‌شد و از نظر سختی و نوع (درست/نادرست، چند گزینه‌ای، پاسخ کوتاه) متفاوت بود.

(به جز عنوان، این داستان توسط کارکنان NDTV ویرایش نشده است و از یک فید سندیکایی منتشر شده است.)