Das HiTZ Language Technology Center der Universität des Baskenlandes (EHU) hat Latxa, das größte der Sprachmodelle für die baskische Sprache, verbessert und damit die vor einigen Jahren eingeführte ursprüngliche ChatGPT-Version (heute bekannt als GPT 3.5) und z Zum ersten Mal für ein offenes Modell einer Sprache mit knappen digitalen Ressourcen hat die neueste Version (GPT-4) die Sprachkenntnisse bestanden.

Latxa ist eine Familie von Sprachmodellen für Baskisch und wird mit dem größten Korpus frei lizenzierter Texte (doppelt so viel wie die vorherigen) und einigen Testdatenbanken zu Sprachkenntnissen, Lesen, allgemeiner Kultur und beruflichen Prüfungen vertrieben, wie von der EHU berichtet Quellen.

Es basiert auf den LLaMA-Modellen von Meta und umfasst Modelle mit 7 bis 70.000 Millionen Parametern. Die heutigen großen Sprachmodelle weisen eine erstaunliche Leistung in ressourcenreichen Sprachen auf, beispielsweise ChatGPT für Englisch oder Gemini für Spanisch.

Im Fall des Baskischen und anderer Sprachen mit knappen Ressourcen ist ihre Leistung jedoch deutlich geringer, was die technologische Kluft zwischen Sprachen mit reichlichen und knappen Ressourcen zumindest im Hinblick auf digitale Werkzeuge vergrößert. Aus diesem Grund hat das HiTZ-Zentrum der EHU Latxa entwickelt, um diese Einschränkungen zu überwinden und Forschung, Innovation und Produktentwicklung im Baskenland zu fördern.

Die neue Version von Latxa wurde auf dem größten öffentlichen Korpus im Baskenland trainiert und dieser Korpus wird zusammen mit den Modellen verteilt. Dieses Korpus erweitert das bestehende EusCrawl, das hauptsächlich Korpora verwendet, die mit öffentlichen Internetinhalten erstellt wurden. Insgesamt gibt es mehr als vier Millionen Dokumente und 1,2 Milliarden Wörter, doppelt so viel wie die vorherigen Korpora.

Um die Qualität der Modelle zu bewerten, wurden einige Testbanken zu Sprachkenntnissen, Lesekompetenz, allgemeiner Kultur und beruflichen Prüfungen ausgefüllt. Eneko Aguirre, Direktor des HiTZ-Zentrums, erklärte: „Wir haben die englischen Llama-Modelle sowie GPT-3.5 Turbo (entspricht ChatGPT, das im November 2022 eingeführt wurde) und GPT-4 Turbo (das beste Modell mit OpenAI) getestet, und es ist klar, dass dies der Fall ist.“ übertrifft in allen Testfällen die besten Latxa-Modelle mit Llama und GPT-3.5 Turbo.“

„Das beste Modell übertrifft den GPT-4 Turbo auch in puncto Sprachfähigkeit, erstmals für ein offenes Modell von Sprachen mit knappen digitalen Ressourcen, nicht jedoch in den anderen Testbanken.“ Abschließend sei noch betont, dass dies der Fall ist „Latxa nimmt an Größe zu, die Ergebnisse sind auch besser“, erklärte er.

Latcha-Modelle sind Basismodelle, die nicht an Benutzerrichtlinien oder -präferenzen angepasst sind. Daher sind diese Modelle nicht für den direkten Gebrauch durch die breite Öffentlichkeit geeignet. Allerdings sind die Latxa-Modelle unerlässlich, um erfolgreiche Tools zu entwickeln, die Sprachtechnologie für die baskische Sprache nutzen.

„Wir haben diese offenen Modelle veröffentlicht, damit erfahrene Techniker damit Produkte herstellen oder sie an die Anwendungen anpassen können, an denen sie interessiert sind. Gleichzeitig arbeiten wir an Modellen, die den Anweisungen der Benutzer folgen können, aber.“ Es ist noch nicht klar, ob es möglich ist, Dialogmodelle auf Baskisch zu erstellen, die eine ähnliche Qualität wie Spanisch oder Englisch haben. „Das ist genau der Zweck unserer Forschung. Wir führen einige Untersuchungen durch, einschließlich der Erforschung der Techniken, die dies ermöglichen.“ „Es ist möglich, vorhandene Konversationskenntnisse auf Baskisch zu übertragen“, erklärte Aguirre.

Er betonte außerdem, dass das 70B-Modell das größte Modell ist, das für eine Sprache im Staat Spanien trainiert wurde, was die Führungsrolle des HiTZ-Forschungszentrums bei groß angelegten Sprachmodellen unterstreicht.