Waarom is het interessant om te weten wanneer ...

... een woord nieuw is?

Wordt er een woord gemarkeerd als nieuw, dan is dat woord nog nooit eerder voorgekomen op NOS.nl. Misschien heb je een nieuw woord bedacht! Lezers vinden woorden die ze nog nooit hebben gezien vaak lastig. Het helpt dan om het woord uit te leggen. Maar let op: misschien heb je gewoon een typfout gemaakt en is het woord niet echt nieuw...


... een woord zeldzaam is?

Als een woord in jouw artikel gemarkeerd is als zeldzaam woord houdt dat in dat het desbetreffende woord in voorgaande artikelen minder dan 20 keer is voorgekomen. Woorden die niet vaak voorkomen, worden minder snel herkend door lezers. Dit is onderzocht door o.a. onderzoekers aan de Universiteit Utrecht. Zij stellen dat zeldzame woorden door lezers vaak als moeilijk worden beschouwd. Naar aanleiding van die aanname heeft het NOS Lab de woordfrequenties gemeten voor elk woord uit elk artikel ooit geplaatst op NOS.nl.


Elk woord dat minder dan 20 keer is voorgekomen, is opgenomen in een lijst van 'zeldzame woorden'. Waarom 20 keer? Dat is lastig. Er bestaat namelijk geen vaste formule om te bepalen wanneer een woord zeldzaam of moeilijk is. Een woord dat 100 keer voorkomt kan moeilijk gevonden worden en een woord dat maar 5 keer voorkomt vinden sommige lezers makkelijk. De grens van 20 heeft het NOS Lab gekozen na het bestuderen van de woordfrequentielijst. Mocht een andere zeldzaamheidsgrens beter passen, dan nemen we dat mee in een vervolg van dit experiment.


... een woord een signaalwoord is?

Over het algemeen wordt het gebruik van signaalwoorden toegejuicht. Ze maken teksten duidelijker en overtuigender en daarmee leesbaarder, vooral bij ingewikkelde onderwerpen. Toch kun je ook te veel signaalwoorden gebruiken, waardoor je tekst te vergelijken is met een straat vol verkeersborden. Jouw artikel wordt gecheckt aan de hand van een lijst vol signaalwoorden. Zo krijg je makkelijk inzicht in waar je signaalwoorden gebruikt en hoeveel dat er zijn.


... een woord geen spreektaal is?

Aan spreektaal kunnen taalonderzoekers afleiden wat woorden zijn die door de meeste Nederlanders begrepen worden. Deze woorden worden namelijk uitgesproken wanneer men met elkaar in gesprek is. Als een woord in jouw artikel gemarkeerd is als een woord dat niet in spreektaal voorkomt, kan dit betekenen dat het woord lastig wordt gevonden door de lezer. Het NOS Lab heeft ondertiteldata van NPO 1, 2 en 3 als bron van spreektaal genomen. Deze ondertitelbestanden zijn vergeleken met de woordkeuze op NOS.nl. Alle woorden die wel op NOS.nl voorkomen, maar niet op televisie uitgesproken worden, zijn toegevoegd aan de woordenlijst voor woorden die geen spreektaal zijn.


... een zinsdeel een spreekwoord of uitdrukking is?

Niet alle lezers zijn bekend met Nederlandse spreekwoorden en uitdrukkingen. Vooral voor mensen met een andere moedertaal dan Nederlands kan figuurlijk taalgebruik lastig zijn. Aan de hand van een lijst met spreekwoorden en uitdrukkingen wordt jouw artikel gescand. Dit betekent niet dat je nooit spreekwoorden en uitdrukkingen kunt gebruiken, maar wel dat je inzicht krijgt in waar sommige lezers meer moeite mee kunnen hebben.


... een woord een 13+-woord is?

Tussen de woordenschat van een kind en de woordenschat van een volwassene zit verschil. Er zijn bepaalde woorden die we niet gebruiken als we met jonge kinderen communiceren, vaak omdat die woorden te lastig voor ze zijn. Als een woord in jouw artikel gemarkeerd is als 13+-woord, dan betekent dit dat het woord nog nooit is voorgekomen in artikelen van het Jeugdjournaal. Het woord kan door sommige lezers, ook als ze volwassen zijn, moeilijk gevonden worden.


... een woord een entiteitsnaam is?

Elke keer dat je een persoonsnaam, organisatie, plaatsnaam of land noemt, gebruik je een entiteitsnaam. Met sommige entiteitsnamen zijn de meeste lezers wel bekend, zoals 'Mark Rutte'. Andere entiteitsnamen behoeven meer uitleg voor lezers die niet bekend zijn met de naam. Waar staat bijvoorbeeld 'CBS' voor en wat doet het? Aan de hand van een algoritme dat automatisch entiteitsnamen uit teksten kan filteren (Named Entity Recognition), is een lijst met entiteiten opgesteld. Als een woord of groep van woorden in jouw artikel als entiteitsnaam wordt gemarkeerd, kun je besluiten om meer uitleg of context bij deze naam te geven.


... een tekst procentueel gezien veel of weinig herkenbare woorden bevat?

De meest voorkomende woorden in de Nederlandse taal worden over het algemeen door alle lezers herkend. Hoe meer van deze herkenbare woorden in een tekst voorkomen, hoe hoger de kans dat de tekst gemakkelijk te lezen is. Het percentage herkenbare woorden geeft aan hoeveel van de woorden in het artikel voorkomen in de lijst van de 2000 meest voorkomende woorden. Een herkenbare-woordenpercentage van 50% betekent dus dat de helft van het artikel bestaat uit woorden die het meest voorkomen in de Nederlandse taal.


Verder leuk om te weten

In de afgelopen tien jaar zijn er meer dan 285.000 unieke woorden gebruikt door de NOS. Een groot deel hiervan (~44%) komt maar één keer voor. Bij Jeugdjournaal is de woordenschat kleiner, daar werden in de afgelopen 10 jaar ruim 45.000 unieke woorden gebruikt.


Zo'n 43% van de woorden op NOS.nl die meer dan één keer voorkomen, zijn woorden die niet op Jeugdjournaal terugkomen. Van de woorden die meer dan één keer in de afgelopen 10 jaar bij de NOS voorkwamen, zijn er 63.912 het afgelopen jaar niet uitgesproken op televisie.  Voor dit laatste feitje keek het NOS Lab naar alle NPO-programma's (met uitzondering van de NOS programma's) van 1 november 2021 tot 2 oktober 2022.


In totaal hebben we ruim 385.000 unieke woorden geanalyseerd.


Disclaimer

Deze pagina bevat nieuwsartikelen die zijn gepubliceerd op de website en app van NOS. Dit platform is onderdeel van een experiment en is geen alternatief voor de officiële NOS-producten. We markeren in de artikelen zeven verschillende categorieën van woorden of uitdrukkingen, waaronder zeldzame woorden, 13+-woorden en onbekende woorden. Meer info over het tot stand komen van deze categorieën vind je hier.