Gecontroleerde natuurlijke talen (CNL's) zijn kunstmatige varianten van natuurlijke talen die door het vereenvoudigen van grammatica en het beperken van vocabulaire en constructies ontworpen zijn om dubbelzinnigheid of complexiteit te vermijden. Het doel is dat mensen beter en eenduidiger kunnen communiceren, of dat computers tekst betrouwbaar kunnen verwerken.
Soorten gecontroleerde talen
Globaal worden twee hoofdtypen gecontroleerde natuurlijke talen onderscheiden:
- Mensgerichte (vereenvoudigde of technische) talen: gericht op betere leesbaarheid en eenduidigheid voor mensen, vaak in technische documentatie en gebruikershandleidingen. Deze talen helpen niet-moedertaalsprekers en verkleinen vertaal- en interpretatiefouten.
- Machinegerichte (formele of verwerkbare) talen: ontworpen zodat tekst automatisch en eenduidig door software kan worden geanalyseerd en omgezet in formele representaties (bijvoorbeeld eerste-orde-logica). Ze maken semantische analyse, controle en zoekbaarheid door computers mogelijk.
Kenmerken en veelvoorkomende regels
Gecontroleerde talen volgen vaak strikte schrijfregels. Typische richtlijnen zijn:
- schrijf korte en eenvoudige zinnen;
- gebruik de actieve vorm en één hoofdwerkwoord per zin;
- beperk samengestelde zinnen en bijzinnen;
- gebruik consistente termen: één begrip = één woord of term;
- vermijd synoniemen, idiomen en metaforen;
- gebruik duidelijke referenties (bijv. de naam " John Smith" in plaats van onduidelijke voornaamwoorden als "hem");
- stel een gecontroleerd woordenboek en lijst met toegestane zinsconstructies op.
Een eenvoudige redactionele regel in veel technische CNL's is: "praat over wie iets doet, in plaats van wat er wordt gedaan, tenzij je moet zeggen wat er wordt gedaan". Dit maakt zinnen concreter en vermindert interpretatieverschillen.
Voorbeelden van gecontroleerde talen
- Vereenvoudigde (technische) talen: bekende voorbeelden zijn ASD Simplified Technical English (STE), Caterpillar Technical English en IBM Easy English. Deze standaarden bevatten specifieke woordenlijsten en regels voor schrijfstijl en terminologiebeheer.
- Machinegerichte talen: voorbeelden zijn Attempto Controlled English (ACE), Rabbit Controlled English en andere CNL's die direct naar formele logica of semantische representaties vertaald kunnen worden. Deze talen worden gebruikt om correcte, door computers interpreteerbare regels, voorwaarden of kennis te beschrijven.
- Andere systemen zoals Gellish en diverse domeinspecifieke CNL's koppelen gecontroleerde taal aan ontologieën en databases voor betere interoperabiliteit.
Toepassingen
- technische documentatie en handleidingen (betere leesbaarheid, minder fouten bij gebruik en onderhoud);
- machinevertaling: consistente bronteksten leiden tot nauwkeurigere automatische vertalingen;
- kennisrepresentatie en regelbeheer: specificaties, wetten en contracten die door software gecontroleerd moeten worden;
- informatie-extractie en zoekmachines: eenduidige zinsconstructies verbeteren zoekresultaten en gegevensonttrekking;
- ondersteuning voor niet-moedertaalsprekers en training in veiligheidskritische omgevingen.
Voordelen en beperkingen
Voordelen:
- vermindering van ambiguïteit en misverstanden;
- betere kwaliteit van vertalingen en lokalisatie;
- automatische controle op consistentie en naleving van regels;
- mogelijkheid tot automatische semantische analyse en redenering.
Beperkingen:
- verminderde expressiviteit: sommige complexe of creatieve ideeën zijn lastig te formuleren binnen de beperkingen;
- leercurve voor schrijvers die gewend zijn aan vrije stijl;
- risico op onnatuurlijke, houterige teksten als regels te strikt of slecht toegepast worden;
- onderhoud en governance van woordenlijsten en regels vergen inspanning.
Ontwerp en implementatie
Bij het inrichten van een gecontroleerde taal voor een organisatie is het belangrijk om:
- een duidelijk doel vast te stellen (mensgericht vs. machinegericht);
- een toegankelijke woordenlijst en grammaticaregels op te stellen en te publiceren;
- schrijvers te trainen en redactionele tools (controleurs, editors) te gebruiken die naleving ondersteunen;
- regelmatig feedback van gebruikers te verzamelen en de regels bij te stellen op basis van praktijkervaring.
Tools en evaluatie
Er bestaan hulpmiddelen die schrijvers helpen CNL-regels af te dwingen: gecontroleerde teksteditors, terminologiemanagementsystemen, style checkers en parsers die CNL-teksten naar formele representaties omzetten. Evaluatie gebeurt door tests op begrijpelijkheid, vertaalkwaliteit en de betrouwbaarheid van automatische semantische verwerking.
Al met al bieden gecontroleerde natuurlijke talen een praktisch kruispunt tussen menselijke communicatie en formele verwerking: ze verbeteren leesbaarheid en vertaalbaarheid aan de ene kant en maken geautomatiseerde analyse en redenering aan de andere kant mogelijk. Bij juist ontwerp en onderhoud zijn het krachtige instrumenten voor heldere, betrouwbare informatie-uitwisseling.