कृत्रिम बुद्धिमत्ता येथे उत्कृष्ट असताना कोडिंग सारखी कार्ये आणि पॉडकास्ट पिढीएका अभ्यासानुसार, उच्च-स्तरीय इतिहासाच्या प्रश्नांची अचूक उत्तरे देण्यासाठी संघर्ष केला जातो.
संशोधकांनी चाचणी केली OpenAI चे GPT-4, मेटा लामा आणि गुगलचा मिथुन हिस्ट-एलएलएम नावाचा नवीन विकसित बेंचमार्क वापरणे.
बेंचमार्क सेशात ग्लोबल हिस्ट्री डाटाबँकवर अवलंबून आहे, जो ऐतिहासिक ज्ञानाचा सर्वसमावेशक डेटाबेस आहे.
टेकक्रंचच्या म्हणण्यानुसार, गेल्या महिन्यात NeurIPS AI परिषदेत सादर करण्यात आलेल्या या अभ्यासात निराशाजनक परिणाम आढळले.
GPT-4 टर्बोने सर्वोत्तम कामगिरी केली परंतु केवळ 46% अचूकता प्राप्त केली – अगदी यादृच्छिक अंदाजापेक्षा जास्त.
“एलएलएम, प्रभावी असले तरी, प्रगत इतिहासासाठी आवश्यक असलेल्या खोलीचा अभाव आहे,” मारिया डेल रिओ-चॅनोना, पेपरच्या सह-लेखिका आणि युनिव्हर्सिटी कॉलेज लंडनमधील सहयोगी प्राध्यापक म्हणाल्या.
“ते मूलभूत तथ्यांसाठी उत्कृष्ट आहेत, परंतु ते सूक्ष्म, पीएचडी-स्तरीय ऐतिहासिक चौकशीत अपयशी ठरतात.”
संशोधकांना असे आढळून आले की LLM अनेकदा प्रमुख ऐतिहासिक डेटामधून बाहेर काढतात परंतु अधिक अस्पष्ट तपशीलांसह संघर्ष करतात.
उदाहरणार्थ, GPT-4 चुकीच्या पद्धतीने सांगितले आहे की स्केल आर्मर विशिष्ट कालावधीत प्राचीन इजिप्तमध्ये अस्तित्वात होते, जेव्हा प्रत्यक्षात, तंत्रज्ञान केवळ 1,500 वर्षांनंतर दिसून आले.
त्याचप्रमाणे, मॉडेलने खोटा दावा केला की प्राचीन इजिप्तमध्ये विशिष्ट कालावधीत व्यावसायिक स्थायी सैन्य होते, बहुधा पर्शियासारख्या इतर प्राचीन साम्राज्यांमध्ये स्थायी सैन्याच्या माहितीच्या प्रसारामुळे.
“जर तुम्हाला A आणि B 100 वेळा आणि C फक्त एकदाच सांगितले गेले तर तुम्हाला A आणि B आठवण्याची शक्यता जास्त आहे,” डेल रिओ-चॅनोना यांनी स्पष्ट केले.
दुसरी चिंता संभाव्य पूर्वाग्रह होती.
OpenAI च्या GPT-4 आणि Meta च्या Llama मॉडेल्सनी प्रशिक्षण डेटा मर्यादा दर्शविणाऱ्या उप-सहारा आफ्रिकेसारख्या प्रदेशांबद्दलच्या प्रश्नांची उत्तरे देताना वाईट कामगिरी केली.
“हे पूर्वग्रह सूचित करतात की LLM इतिहासाच्या निःपक्षपाती प्रतिनिधित्वाऐवजी ऐतिहासिक दस्तऐवजीकरणातील अंतर प्रतिबिंबित करतात,” पीटर टर्चिन म्हणाले, अभ्यासाचे प्रमुख संशोधक.
या मर्यादा असूनही, संशोधक आशावादी आहेत की AI भविष्यात इतिहासकारांना मदत करू शकेल.
अधिक वैविध्यपूर्ण डेटा स्रोतांचा समावेश करून आणि प्रश्नांची जटिलता वाढवून हिस्ट-एलएलएम बेंचमार्क सुधारण्याची त्यांची योजना आहे.
“आमचे निष्कर्ष अशा क्षेत्रांवर प्रकाश टाकतात जेथे LLM ला सुधारणे आवश्यक आहे, परंतु ते ऐतिहासिक संशोधनास समर्थन देण्याची त्यांची क्षमता देखील प्रदर्शित करतात,” पेपरने निष्कर्ष काढला.
जसजसे AI विकसित होत आहे तसतसे तज्ञ म्हणतात की हे स्पष्ट आहे की मानवी इतिहासकार जटिल ऐतिहासिक कथांचा अर्थ लावण्यात आणि शैक्षणिक चौकशीत अचूकता सुनिश्चित करण्यात अपूरणीय राहतात.