سیاست و بازاریابی | هوش مصنوعی نمی‌تواند پاسخ درستی را به پرسش‌های «تاریخی» بدهد!

هوش مصنوعی نمی‌تواند پاسخ درستی را به پرسش‌های «تاریخی» بدهد! نکات خواندني

بزرگنمايي:

سیاست و بازاریابی - ایسنا / گروهی از پژوهشگران یک معیار جدید را برای آزمایش سه مدل زبانی بزرگ «چت‌جی‌پی‌تی-4»(GPT-4) شرکت «اوپن‌ای‌آی»(OpenAI)، «لاما»(Llama) شرکت «متا»(Meta) و «جمینای»(Gemini) گوگل درباره پرسش‌های تاریخی ایجاد کرده‌اند. این معیار موسوم به «Hist-LLM»، درستی پاسخ‌ها را بر اساس بانک اطلاعات تاریخ جهانی «سشات»(Seshat) آزمایش می‌کند که یک پایگاه داده گسترده از دانش تاریخی است و نام ایزدبانوی خرد مصر باستان را دارد.
به نقل از تک کرانچ، پژوهشگران مؤسسه پژوهشی «Complexity Science Hub» مستقر در اتریش، نتایج این بررسی را ناامیدکننده خواندند. مدل زبانی که بهترین عملکرد را داشت، «GPT-4 Turbo» بود، اما دقت آن فقط حدود 46 درصد تخمین زده شد که خیلی بیشتر از دقت حدس زدن تصادفی نیست.
«ماریا دل ریو چانونا»(Maria del Rio-Chanona)، دانشیار علوم رایانه «کالج دانشگاهی لندن»(UCL) و از پژوهشگران این پروژه گفت: نکته اصلی پژوهش ما این است که اگرچه مدل‌های زبانی بزرگ، چشمگیر هستند، اما هنوز عمق لازم را برای درک تاریخ پیشرفته ندارند. آنها برای حقایق اساسی، عالی هستند، اما وقتی صحبت از پژوهش‌های تاریخی دقیق‌تر در سطح دکتری به میان می‌آید، هنوز به کارآیی لازم نرسیده‌اند.
پژوهشگران پرسش‌های تاریخ را که مدل‌های زبانی بزرگ در پاسخ دادن به آنها اشتباه کرده بودند، در اختیار تک‌ کرانچ گذاشتند. به عنوان مثال، آنها از GPT-4 Turbo پرسیده بودند که آیا «زره فلس» در یک دوره زمانی خاص در مصر باستان وجود داشته است یا خیر و مدل زبانی بزرگ پاسخ مثبت داد. این درحالی بود که زره فلس 1500 سال پس از آن دوره در مصر ظاهر شد.
چرا مدل‌های زبانی بزرگ در پاسخ دادن به پرسش‌های تاریخی بد عمل می‌کنند؛ در حالی که می‌توانند در پاسخ دادن به پرسش‌های بسیار پیچیده در مواردی مانند کدنویسی بسیار خوب باشند؟ چانونا پاسخ داد: احتمالا به این دلیل است که مدل‌های زبانی بزرگ تمایل دارند از داده‌های تاریخی بسیار برجسته برون‌یابی کنند و بازیابی دانش تاریخی مبهم‌تر را دشوار می‌دانند.
به عنوان مثال، پژوهشگران از GPT-4 پرسیدند که آیا مصر باستان در طول یک دوره تاریخی خاص، ارتش ثابت حرفه‌ای داشته است یا خیر. در حالی که پاسخ صحیح منفی است، GPT-4 به اشتباه پاسخ مثبت داد. این پاسخ احتمالا به این دلیل داده شده که اطلاعات عمومی زیادی درباره سایر امپراتوری‌های باستانی مانند ایران مبنی بر داشتن ارتش‌ ثابت وجود دارد.
چانونا گفت: اگر 100 بار به شما A و B و 1 بار C گفته شود و سپس درباره C از شما پرسیده شود، ممکن است A و B را به خاطر بسپارید و سعی داشته باشید از آن استنباط کنید.
پژوهشگران تمایلات دیگری را نیز درباره مدل‌های زبانی بزرگ شناسایی کردند؛ از جمله این که مدل‌های شرکت اوپن‌ای‌آی و لاما درباره مناطق خاصی مانند جنوب صحرای آفریقا عملکرد بدتری داشتند. این نشان‌دهنده سوگیری‌های احتمالی در داده‌های آموزشی آنهاست.
«پیتر تورچین»(Peter Turchin)، سرپرست این پژوهش گفت: نتایج نشان می‌دهند که مدل‌های زبانی بزرگ هنوز در برخی حوزه‌های خاص نمی‌توانند جایگزین انسان باشند.
با وجود این، پژوهشگران هنوز امیدوارند که مدل‌های زبانی بزرگ در آینده بتوانند به مورخان کمک کنند. آنها در حال کار کردن روی اصلاح معیار خود با گنجاندن داده‌های بیشتر درباره مناطق کمتر ارائه‌شده و افزودن پرسش‌های پیچیده‌تر هستند.
در مقاله این پژوهش آمده است: اگرچه نتایج ما مناطقی را برجسته می‌کنند که مدل‌های زبانی بزرگ به بهبود یافتن در آنها نیاز دارند، اما این نتایج بر پتانسیل این مدل‌ها برای کمک به پژوهش‌های تاریخی نیز تأکید می‌کنند.

دوشنبه ۱ بهمن ۱۴۰۳ - ۲۳:۰۰:۲۴
۳۵ بازديد
سیاست و بازاریابی

https://www.siasatvabazaryabi.ir/Fa/News/768336/

گوشی CMF Phone 2 Pro در قامت قاتل پرچمداران اقتصادی از راه رسید

رابط کاربری One UI 8 سامسونگ امکان خلاصه سازی ویدیو در هر وب‌سایتی را فراهم می‌کند

مشخصات دوربین آنر مجیک 8 پرو لو رفت؛ رقیب جدی گلکسی و آیفون در حوزه عکاسی

راهکار نوین محققان دانشگاه تهران برای جداسازی دی‌اکسید کربن از پساب‌های صنعتی

آخرين مطالب

هوش مصنوعی نمی‌تواند پاسخ درستی را به پرسش‌های «تاریخی» بدهد! نکات خواندني

نظرات شما

ساير مطالب

متا اپ دستیار هوش مصنوعی خودش را رونمایی کرد

بازی Lost Soul Aside دوباره تأخیر خورد

پیاده‌روی سریع، خطر بیماری‌های قلبی را کاهش می‌دهد

تولید اولین ژنراتور فضایی برای تولید برق هسته‌ای

آپدیت PS5 Pro بازی Returnal عرضه شد

ناجی جان فضانوردان آپولو 13 درگذشت

تاکید بر همکاری ‌های دو جانبه بنیاد مازندران با دانشگاه علوم کشاورزی

درخشش دو غول آسمانی؛ مقارنه ماه و سیاره مشتری در شامگاه امروز

هوش مصنوعی NotebookLM گوگل حالا پادکست فارسی هم می‌سازد!

رویداد State of Play مختص Borderlands 4 به‌زودی برگزار می‌شود

لبخند آسمان بر فراز مکزیک

جت‌های تجاری می‌توانند به‌زودی زمین را خنک کنند

تحقیق جدید جهانی؛ واکسن کرونا بی‌خطر است یا خطرناک؟

مراسم بزرگداشت روز روانشناس با حضور روانشناسان بنیاد شهید و امور ایثارگران برگزار شد

سونی به دنبال جدا کردن بخش توسعه‌ی سنسورهای دوربین خود است

تحقیق جدید جهانی: واکسن کرونا بی‌خطر است یا خطرناک؟

نجات دو ماهواره از مدار اشتباه توسط مهندسان چینی

هوش مصنوعی، آرتروز را در عرض چند دقیقه با دقت 98 درصدی تشخیص می‌دهد

سه شنبه های تکریم و پاسخگویی مدیر کل بنیاد مازندران به جامعه ایثارگری/ صداقت و شفاف سازی اولویت ارائه خدمت به ایثارگران

کاهش آسیب‌های ناشی از جنگ با کمک علم روانشناسی

اتفاق مهم برای ایرانی‌‌ها؛ زبان فارسی به هوش مصنوعی پادکست‌ساز گوگل اضافه شد

اسپاتیفای در سه‌ماهه اول 2025 بیش از 100 میلیون دلار به پادکسترها پول داده است

چگونه از گوگل برای ترجمه عکس استفاده کنیم؟

اهتمام دولت چهاردهم بر بزرگداشت هرچه باشکوه‌تر مراسم سالگرد شهدای دولت

دستاورد بزرگ فوجیتسو: ساخت کامپیوتر کوانتومی 256 کیوبیتی با 4 برابر قدرت بیشتر

متا از API مدل‌های هوش مصنوعی Llama برای توسعه‌دهندگان پرده برداشت

22 سال از تولد فروشگاه آیتونز اپل گذشت

متا با ایده‌ای هیجان‌انگیز به جنگ ChatGPT می‌رود؛ تلفیق هوش مصنوعی با شبکه‌های اجتماعی

کلاهبرداری در شبکه شاد: از حساب والدین به‌نام مدرسه برداشت می‌شود

استفاده معلمان چینی از هوش مصنوعی برای نمره دادن به تست‌های دانش‌آموزان

تصویر روز ناسا؛ حلقه‌های سیاره زحل ناپدید شدند

هشدار محققان: داروهای رایجی که کودکان را مستعد آسم و آلرژی می‌کند

پدرخوانده هوش مصنوعی: مردم هنوز متوجه خطر هوش مصنوعی نیستند

تصویر رسمی گلکسی S25 اج لو رفت؛ خودنمایی حاشیه‌های باریک و دوربین دوگانه

حافظه چت‌جی‌پی‌تی به چه دردی می‌خورد؟

گوشی CMF Phone 2 Pro در قامت قاتل پرچمداران اقتصادی از راه رسید

پیش‌خرید تصاویر ماهواره‌های بومی بخش خصوصی از سوی سازمان فضایی

رمز ماندگاری گفتمان شهید رئیسی، مردم‌داری و حضور میدانی است

واتس‌اپ تماس صوتی و تصویری را به نسخه وب می‌آورد

بهبود قابل توجه درد زانو با داروی دیابت!

رابط کاربری One UI 8 سامسونگ امکان خلاصه سازی ویدیو در هر وب‌سایتی را فراهم می‌کند

اولین ماهواره‌های آمازون برای ارائه اینترنت پرتاب شدند

مشخصات دوربین آنر مجیک 8 پرو لو رفت؛ رقیب جدی گلکسی و آیفون در حوزه عکاسی

راز موفقیت بونوبوهای ماده در برابر سلطه نرها

راهکار نوین محققان دانشگاه تهران برای جداسازی دی‌اکسید کربن از پساب‌های صنعتی

هوش مصنوعی بازگشت تومور مغزی در کودکان را پیش‌بینی می‌کند

مصرف گوجه‌فرنگی می‌تواند جلوی افزایش وزن را بگیرد

مشخصات دیمنسیتی 9500 لو رفت؛ تراشه پرقدرت مدیاتک برای گوشی‌های رده‌بالا

تبدیل ربات‌های انسان‌سوار فیلم‌های تخیلی به واقعیت

دولینگو هوش مصنوعی را جایگزین نیروهای پیمانی خود می‌کند

تبليغات