Er zijn diverse ranglijsten (leaderboards) die de performance van taalmodellen meten. De belangrijkste zijn:
- 1. LMSYS Chatbot Arena Leaderboard: zie https://lnkd.in/eyDGct65 Ze gebruiken de Eleuther AI Language Model Evaluation Harness, een uniform raamwerk voor het testen van generatieve taalmodellen op verschillende taken, om LLMs te evalueren op zes belangrijke benchmarks.
- 2. Center for Research on Foundation Models: https://lnkd.in/e78chVid Stanford's Center for Research on Foundation Models (CRFM) heeft een benchmark ontwikkeld genaamd Holistic Evaluation of Language Models (HELM). Dit benchmarkingplatform is gericht op het evalueren van grote taalmodellen (LLM's) op basis van een breed scala aan statistieken en use cases
- 3. Ook is er een leaderboard voor NL-taalmodellen (ScandEval): https://lnkd.in/edceYnSC
- In alle gevallen is een versie van GPT-4o taalmodel het beste (ook voor Nederlands). Maar bij een zwaardere HELM-test is scoort Llama (van Meta) het beste.
De testen waaraan een LLM wordt onderworpen bestaan simpelweg uit testen en vragen die een LLM juist moet beantwoorden. Zo is er een test met algemene kennisvragen en redeneringsvaardigheden op 57 vakgebieden (MMLU), een test met basisschool-wiskunde vragen (GSM8K) en taalverwerkingstaken zoals classificatie en vraag-antwoord (SuperGLUE). Ook zijn er specifieke NL-test: CoNLL-2000 en SoNaR-1. XGlue, XQuAD zijn testen voor verschillende talen.
Over de leaderboards (en de testen) is nogal wat te doen:
- De meeste testen worden in de Engelse taal afgenomen. Dit is een probleem voor het meten van de performance in andere talen
- Er bestaat het vermoeden dat taalmodellen getraind worden op het goed maken van bovengenoemde tests.
- De leaderboards geven niet aan dat sommige taalmodellen juist heel goed zijn in specifieke taken zoals programmeren of wiskunde.
- Ook de testen bevatten bias: bijvoorbeeld vooroordelen op basis van gender, ras, cultuur of taalgebruik.
- Veel benchmarks zijn subjectief: Wat voor de ene persoon een goed antwoord is, kan voor een ander minder goed zijn.
Ik ben benieuwd of er bij de ontwikkeling van GPT-NL door
TNO ook een aantal nieuwe benchmarks worden ontwikkeld? Sowieso lijkt GPT-4o nog de beste keus voor de Nederlandse taal.