«بیزینس اینسایدر» از نگاه پژوهشگران OpenAI بررسی کرد
چرا چتباتهای هوش مصنوعی دچار توهم میشوند؟
پژوهشگران شرکت OpenAI در گزارشی تازه توضیح دادهاند که چرا هوش مصنوعیهای مکالمهمحور مانند ChatGPT یا Claude گاهی اطلاعات نادرست یا ساختگی تولید میکنند؛ پدیدهای که در این صنعت به آن توهم یا Hallucination گفته میشود.
به گزارش پیچینو، مدلهای زبانی بزرگ (LLM) اساساً طوری طراحی شدهاند که کلمهی بعدی را بر اساس الگوهای آماری دادههای آموزشدیده، پیشبینی کنند. این یعنی آنها به جای فهمیدن واقعیتها، تلاش میکنند «محتملترین دنباله جمله» را تولید کنند. نتیجه این رویکرد آن است که اگر دادههای ورودی شفاف یا کامل نباشند، مدل ممکن است بخشهای خالی را با جزئیات ساختگی پر کند.
کمبود یا فرسودگی داده
وقتی مدلها به اطلاعات بهروز یا دقیق مربوط به یک موضوع خاص دسترسی ندارند، از دانش عمومی یا ساختارهای مشابه استفاده میکنند تا پاسخ را بسازند. این روش در اغلب موارد خروجی «قابل قبول» میدهد، اما تضمینکنندهی صحت آن نیست.
فشار برای پاسخگویی در هر شرایط
چتباتها به گونهای طراحی شدهاند که تقریباً همیشه پاسخی داشته باشند. این «تعهد به پاسخگویی» باعث میشود حتی در شرایط عدم اطمینان بالا، مدلی که نمیداند، همچنان چیزی تولید کند — هرچند ممکن است نادرست باشد.
سوگیری و خطاهای دادههای آموزشی
مدلها آینهای از دادههای ورودی خود هستند. اگر دادههای آموزشی حاوی خطا، سوگیری یا منابع غیرقابل اعتماد باشد، همان الگوها در خروجی نیز دیده میشود.
پیامدها و مسیر بهبود
پژوهشگران OpenAI تأکید کردهاند که مقابله با توهمزایی کامل ممکن نیست، اما میتوان احتمال آن را کاهش داد؛ از جمله با:
استفاده از دیتاستهای دقیقتر و بهروزتر،
استفاده از روشهای بازیابی اطلاعات لحظهای (retrieval-augmented generation)،
و طراحی سیستمهایی که بتوانند به سادگی بگویند «نمیدانم».
با رشد سریع استفاده از هوش مصنوعی در صنعت و زندگی روزمره، مدیریت این مشکل نهتنها برای بهبود تجربه کاربر، بلکه برای جلوگیری از پیامدهای خطرناک اطلاعات نادرست حیاتی خواهد بود.
کمبود یا فرسودگی داده
وقتی مدلها به اطلاعات بهروز یا دقیق مربوط به یک موضوع خاص دسترسی ندارند، از دانش عمومی یا ساختارهای مشابه استفاده میکنند تا پاسخ را بسازند. این روش در اغلب موارد خروجی «قابل قبول» میدهد، اما تضمینکنندهی صحت آن نیست.
فشار برای پاسخگویی در هر شرایط
چتباتها به گونهای طراحی شدهاند که تقریباً همیشه پاسخی داشته باشند. این «تعهد به پاسخگویی» باعث میشود حتی در شرایط عدم اطمینان بالا، مدلی که نمیداند، همچنان چیزی تولید کند — هرچند ممکن است نادرست باشد.
سوگیری و خطاهای دادههای آموزشی
مدلها آینهای از دادههای ورودی خود هستند. اگر دادههای آموزشی حاوی خطا، سوگیری یا منابع غیرقابل اعتماد باشد، همان الگوها در خروجی نیز دیده میشود.
پیامدها و مسیر بهبود
پژوهشگران OpenAI تأکید کردهاند که مقابله با توهمزایی کامل ممکن نیست، اما میتوان احتمال آن را کاهش داد؛ از جمله با:
استفاده از دیتاستهای دقیقتر و بهروزتر،
استفاده از روشهای بازیابی اطلاعات لحظهای (retrieval-augmented generation)،
و طراحی سیستمهایی که بتوانند به سادگی بگویند «نمیدانم».
با رشد سریع استفاده از هوش مصنوعی در صنعت و زندگی روزمره، مدیریت این مشکل نهتنها برای بهبود تجربه کاربر، بلکه برای جلوگیری از پیامدهای خطرناک اطلاعات نادرست حیاتی خواهد بود.






