A Magyar Számítógépes Nyelvészeti Konferencián (MSZNY) idén is legjobb bírálói díjat nyert Makrai Márton, a HUN-REN TTK KPI Környezeti Adaptáció és Űrpszichológia Kutatócsoportjának kutatója.
A konferencia neve azt a korai motivációt tükrözi, hogy a számítógépes modellezéssel megismerjük, hogyan működik a nyelv, de az utóbbi években az MSZNY-t is a nehezen interpretálható nagy nyelvmodellek (LLM) uralják. Ezt mutatja az idén legjobbként díjazott cikk is, az ELTE két karának, a BKT-nak és az IK-nak egy olvasószemináriumból kinőtt projektje, mely létrehozta a Rackát, az első olyan modellt a magyar nyelvre, ami a háttérben érvel is – igaz, az érvelés egyelőre angolul történik. A név a Meta AI Lláma modelljére utal. Makrai a legjobb díj bizottságában is benne volt, ahol az alábbi négy cikk mellől került ki a Racka.
A Budapesti Corvinus Egyetem kutatói olyan ágens-alapú chatbotot fejlesztettek a Magyar Turisztikai Ügynökség számára, amely lehetővé teszi a vezetőknek, hogy természetes nyelven kérdezzenek rá akár több milliárd rekordot tartalmazó Big Data adattárházak adataira. A rendszer a LLMek képességeit ötvözi determinisztikus, kódból vezérelt folyamatokkal, így csökkenti a konfabulációk kockázatát és biztosítja a pontos, valós idejű lekérdezéseket.
Csányi Gergely és társai (GriffSoft Zrt., Ludovika Nemzeti Közszolgálati Egyetem) egy magyar bírósági határozatokon működő, mondatszintű retorikaiszerep-címkéző rendszert mutat be, amely minden mondatot a határozatban betöltött funkciója szerint osztályoz (pl. tényállás, bírói érvelés, döntés, felek érvelése stb.). A rendszer már élesben is működik: az Országos Bírósági Hivatal RAG-alapú jogi keresőrendszerét támogatja.
Kiss Mihály és Berend Gábor (Szegedi Tudományegyetem) cikke a magyar nyelvű MI-generált szövegek detektálásának első átfogó, tudományos igényű vizsgálata. A szerzők publikus és saját gyűjtésű, heterogénebb korpuszon is finomhangoltak több magyar enkódoló modellt. A publikus adathalmazon mérsékelt teljesítményt értek el, míg a diverzebb, kiegészített korpuszon jelentős javulás történt. A rendszert kereskedelmi detektorokkal is összevetették (Preds, Pangram Labs és ZeroGPT). A kutatói modellek versenyképes teljesítményt értek el publikus adatokból kiindulva. Vagyis a detektálás minőségét elsősorban az adathalmaz heterogenitása határozza meg, nem a modellarchitektúra különbségei.
Gedeon Máté és Mihajlik Péter (BME) mesterségesen szimulált párbeszédekkel javították a magyar nyelvű, tömbbeszélős beszélgetések gépi leiratozását. A megoldás egyszereplős felvételekből hoz létre valósághű dialógusokat, megőrizve az egyes beszélők jellegzetes időzítési szokásait: a szüneteket és az egymásra beszélést. Az így generált adatokkal tanított beszédfelismerő modellek mérhetően kevesebb hibát vétettek, mint a hagyományos módszerekkel betanított rendszerek. Az eredmények szerint a párbeszéd-szimuláció hatékony és költségkímélő eszköz a spontán magyar beszéd pontosabb automatikus leiratozásához.