پشتپرده هوش مصنوعی متا فاش شد: عملکرد بهتر از واقعیت نمایش داده شده!
در روزهایی که رقابت در دنیای مدلهای هوش مصنوعی به اوج خود رسیده، نتایج یک تحقیق جدید پرده از تاکتیکی جنجالی توسط شرکت متا برداشته است. ظاهراً متا نسخهای سفارشی و بهینهسازیشده از مدلهای خود را برای شرکت در آزمونهای مقایسهای ارائه میدهد؛ نسخهای که با آنچه در اختیار توسعهدهندگان قرار میگیرد، متفاوت است.
پشت پرده درخشش هوش مصنوعی متا
ماجرا از آنجا آغاز شد که مدل جدید متا به نام Maverick توانست رتبهی دوم را در آزمون معروف LM Arena کسب کند. این آزمون بر پایهی ارزیابی انسانی انجام میشود و در آن، کارشناسان کیفیت پاسخ مدلهای مختلف را با یکدیگر مقایسه میکنند. اما کمی بعد مشخص شد نسخهای که متا برای این آزمون ارائه داده، همان نسخهای نیست که توسعهدهندگان برای استفاده عمومی در اختیار دارند.
بر اساس آنچه محققان هوش مصنوعی در شبکه اجتماعی ایکس (توییتر سابق) افشا کردهاند، متا در بیانیهای اعلام کرده که نسخهی استفادهشده در LM Arena یک نسخهی آزمایشی و ویژهی مکالمه بوده است. نموداری نیز در وبسایت رسمی Llama این موضوع را تأیید میکند و نشان میدهد نسخهی مورداستفاده در آزمون، با برچسب “بهینهسازیشده برای مکالمه” ارائه شده بود.
این موضوع نگرانیهایی را در میان جامعه توسعهدهندگان و پژوهشگران برانگیخته است. چرا که وقتی یک مدل فقط برای یک آزمون خاص تنظیم و بهینه میشود، نمیتوان به درستی عملکرد آن را در سایر وظایف یا کاربردهای عمومی پیشبینی کرد. این مسئله میتواند منجر به برداشت نادرست از توانایی واقعی مدل شود.
گرچه آزمونهایی مثل LM Arena برای سنجش کیفیت مدلها اهمیت زیادی دارند، اما باید به گونهای انجام شوند که نمایی جامع از عملکرد واقعی مدلها ارائه دهند — نه صرفاً یک نمایش تبلیغاتی.