به گزارش حیات به نقل از فارس، یک برنامه هوش مصنوعی در سال ۲۰۱۹ نمیتوانست یک کار ساده چندمرحلهای را تا انتها به تنهایی انجام دهد. امروز، همین برنامهها قادرند سه ساعت پیوسته، مستقل و بدون نظارت انسانی کار کنند. نکته قابل توجه این است که این تحول در شش سال اتفاق افتاده است نه شصت سال.گزارش تازه بخش مدیریت دارایی بانک جیپی مورگان که در پایان می ۲۰۲۶ منتشر شده، با استناد به دادههای پروژه METR یک پروژه مستقل برای سنجش توانایی مدلهای هوش مصنوعی) نشان میدهد که توان خودکار عمل کردن این مدلها هر هفت ماه دو برابر میشود.
یک مدل هوش مصنوعی چه مدت میتواند یک کار پیچیده را بدون کمک انسان با موفقیت ۸۰ درصدی انجام دهد؟
در سال ۲۰۱۹، پاسخ عملاً صفر بود. GPT-2، پیشروترین مدل آن زمان، در همان گامهای اول از ریل خارج میشد.تا سال ۲۰۲۳ و انتشار GPT-4، این توان به حدود پنج دقیقه رسید. این عدد هنوز برای انجام یک واقعی پایین بود ولی میتوانست برا روشن کردن مسیر راه خوب باشد. در سال ۲۰۲۵، مدلهایی مانند Claude Opus 4.5 و Gemini 3 Pro این مرز را به چهل تا شصت دقیقه رساندند. یعنی یک هوش مصنوعی میتوانست یک وظیفه کامل نرمافزاری یا تحلیلی را از ابتدا تا انتها اجرا کند.اما جهش واقعی در ۲۰۲۶ اتفاق افتاد. Claude Opus 4.6 به مرز هشتاد دقیقه رسید و Claude Mythos Preview (مدلی که هنوز به عموم عرضه نشده) این رکورد را به نزدیک سه ساعت رساند.به عبارت دیگر هوش مصنوعی امروز میتواند جای یک متخصص را برای یک بعدازظهر کامل بگیرد، بدون اینکه کسی چیزی بپرسد.
یک مشکل بزرگ در کمین است
تصور کنید از یک پزشک میپرسید: «آیا این دارو با آن دارو تداخل دارد؟» پزشک با اطمینان کامل میگوید «نه، مشکلی نیست»، اما واقعیت این است که اطلاعاتی ندارد و فقط حدس زده. نه تردید نشان داده، نه گفته مطمئن نیستم.هوش مصنوعی دقیقاً همین کار را میکند. وقتی پاسخی نمیداند، به جای اعتراف، با همان لحن مطمئن یک پاسخ ساختگی تولید میکند. این را «توهم» مینامند، چون مدل چیزی میبیند که وجود ندارد.یک مثال از این اتفاق در دنیای واقعی این است که دو وکیل آمریکایی در سال 2023 پروندهای حقوقی از چتجیپیتی برای تحقیق استفاده کردند. این هوش مصنوعی ۶ پرونده و سابقه حقوقی کاملا جعلی (مجهول) ارائه داد که وکلا بدون بررسی صحتوسقم، آنها را به دادگاه ارائه کردند وقتی قاضی خواست آن پروندهها را بررسی کند، معلوم شد هیچکدام وجود نداشتند. هوش مصنوعی آنها را از صفر ساخته بود و وکلا در آن پرونده جریمه شدند.اینجاست که گزارش جیپی مورگان یک زنگ خطر جدی به صدا در میآورد. همزمان با قدرتمندتر شدن مدلها، یک شاخص نگرانکننده هم در حال رشد است: نرخ توهمزایی، یعنی درصد مواقعی که مدل به جای اعتراف به ندانستن، با اطمینان پاسخ اشتباه میدهد.دادهها نشان میدهد این نرخ در میان مدلهای قدرتمندتر بالاتر است. برای مثال مدل GPT-5.4 در ۸۹ درصد مواقعی که باید میگفتند «نمیدانم»، یک پاسخ ساختگی تحویل دادهاند.پس هر چقدر این مدلها مستقلتر و قدرتمندتر میشوند، خطر اشتباهات با ادعای اطمینانشان هم بیشتر میشود.
قدرت بیشتر، خطر پنهانتر
نمودار جیپی مورگان یک تصویر دوگانه از هوش مصنوعی امروز ارائه میدهد.از یک سو، سرعت پیشرفت چشمگیر است. آنچه در ۲۰۱۹ غیرممکن بود که یک ماشین که ساعتها مستقل کار کند، امروز واقعیت است و تقریبا هر هفت ماه دو برابر میشود.از سوی دیگر، همین نمودار نشان میدهد که مدلهای قویتر لزوماً مدلهای قابلاعتمادتری نیستند. نرخ توهمزایی در برخی مدلها بالاست یعنی در نزدیک به نه مورد از ده مورد که مدل باید ندانستن را اعلام کند، به جای آن یک پاسخ ساختگی تحویل میدهد.بنابراین ترکیب استقلال بالا، اعتماد به نفس بالا و دقت پایین خطرناکترین ترکیب ممکن است. هرچقدر این ابزارها بیشتر به کارهای حساس مانند حقوق، پزشکی و مالی راه پیدا کنند و هرچقدر انسان کمتر نظارت کند، هزینه یک اشتباه بالاتر میرود.
نظر شما