ABC‎ > ‎

TAALMATERIALEN

mobile version    > nieuwe site

Taalmaterialen   https://www.youtube.com/channel/UCfT5KjgpiJiGofTUuG205ZA/videos?

U heeft of u hebt?

Beide werkwoordsvormen zijn correct. 
Bij de keuze tussen u heeft en u hebt kunt u uw eigen voorkeur volgen.

Het Instituut voor de Nederlandse Taal ontwikkelt en levert data voor woordenboeken, (computationele) lexica, corpora en tools. Onze woordenboeken kunt u direct online raadplegen. Software en computerlinguïstische tools zijn open source beschikbaar. Voor andere producten is soms een licentie of een account nodig, of ze zijn toegankelijk via CLARIN (CLARIN INL portaal). Resultaten en tools van lopende (Europese) projecten zoals GiGant en Impact zijn beschikbaar via de betreffende projectpagina’s.

Zie voor taal- en spraaktechnologische materialen ook 
www.tst-centrale.org.

Woordenboeken

Lexica

  • Cornetto-LMF (CLARIN): lexicale database voor het Nederlands met semantische relaties en combinatorische informatie.
  • DuELME-LMF (CLARIN): lexicon met ruim 5.000 Nederlandstalige meerwoordexpressies in LMF-formaat.
  • e-Lex: lexicale databank van het Nederlands met een enkelwoordlexicon (ca. 220.000 trefwoorden) en een meerwoordlexicon (ca. 600.000), voorzien van morfologische, syntactische, fonologische informatie en (deels) semantische informatie. Doorzoek online.
  • INL Historische Woordenlijst: 2 lijsten met ieder ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970. Zie voor een evaluatie van het gebruik van het lexicon in OCR deze video en dit paper
  • De data is op aanvraag beschikbaar via secretariaat@ivdnt.org.
  • INL IMPACT: NE-lexicon Nederlands met historische namen en varianten van de periode (1750 – 1945).                                                 De data is op aanvraag beschikbaar via secretariaat@ivdnt.org.
  • PAROLE-lexicon: ruim 20.000 entry's, voorzien van woordsoort, getal, naamval en syntactische complementatiepatronen.
  • Referentiebestand Nederlands: 50.000 frequente Nederlandse woorden aangevuld met taalkundige informatie (applicatie ontwikkeld door het INL).
  • WebCelex: interface waarmee de CELEX lexicale databases van het Duits, Engels, Nederlands kunnen worden geraadpleegd. Voor iedere taal zijn de lemma's aangevuld met orthografische, fonologische, morfologische, syntactische informatie en frequentiegegevens.

Corpora

  • AutoSearch (CLARIN): een tool om geannoteerde teksten te uploaden (voor lemma en woordsoort, TEI- of FoLiA-formaat), één of meerdere corpora te definiëren en deze te doorzoeken.
  • Brieven als Buit: taalkundig verrijkte 17e- en 18e-eeuwse brieven tussen Nederlanders in verre oorden en het thuisfront.
  • Brieven als Buit - Gouden Standaard: de ca. 1000 met hoofdwoordsoort en modern lemma verrijkte bronbestanden van het                          Brieven als Buit-programma, geleid door Prof. Dr. M.J. van der Wal. De data is beschikbaar op aanvraag via secretariaat@ivdnt.org.
  • Corpus Gysseling (CLARIN): verzameling van alle 13e-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek. De bronbestanden van het corpus zijn op aanvraag beschikbaar via  secretariaat@ivdnt.org.
  • Corpus Hedendaags Nederlands (CLARIN): een tekstverzameling van ruim een miljoen teksten uit kranten, tijdschriften, journaaluitzendingen en juridisch materiaal. Het corpus is een samenvoeging van het oude 5, 27 en 38 Miljoen Woorden Corpus en het PAROLE Corpus, aangevuld met krantenteksten uit NRC en De Standaard ( momenteel tot 2013). Daarnaast bevat het corpus materiaal uit Suriname en de Antillen. Het corpus bevat 440 miljoen tokens, waarvan 224 miljoen Nederlands Nederlands, 185 miljoen Belgisch Nederlands, 14,5 miljoen Antilliaans Nederlands en 18,3 miljoen Surinaams Nederlands.
  • Corpus Middelnederlands: een verzameling van 336 Middelnederlandse literaire teksten uit de periode 1250-1500, in TEI gecodeerd (oorspronkelijk gepubliceerd op de cd-rom Middelnederlands). Het corpus is beschikbaar op aanvraag via secretariaat@ivdnt.org.
  • Corpus Oudnederlands: verzameling van al het overgebleven Nederlandse woordmateriaal uit de periode 475-1200.
  • Frequentielijsten Corpora: de 5000 meest voorkomende woorden uit de Miljoenencorpora, het PAROLE-corpus 2004, het CGN, het ANW-corpus, het Eindhoven Corpus en het D-Coi-corpus.
  • Neologismen Online v3: lijst met ca. 19.000 nieuwe Nederlandse woorden en uitdrukkingen: lemma, woordsoort, definitie, voorbeeld met bronverwijzing.
  • OpenSoNaR (CLARIN): online zoeksysteem voor het SoNaR-corpus, een tekstverzameling van hedendaags geschreven Nederlands dat uit meer dan 500 miljoen woorden bestaat.
  • Parole Distributable Corpus: selectie van 3 miljoen woorden uit het 20 miljoen woorden tellende PAROLE-corpus 2004.
  • PAROLE-internetcorpus: niet meer als afzonderlijk corpus beschikbaar; data geïntegreerd in het Corpus Hedendaags Nederlands.
  • VU-DNC-corpus: diachroon Nederlands krantencorpus, bestaande uit data van vijf kranten: Algemeen Dagblad, NRC (Handelsblad), de Telegraaf, Trouw en de Volkskrant .

Tools

  • @Philostei (CLARIN): webservice om afbeeldingen van tekst om te zetten in bewerkbare tekst (TEI-formaat).
  • Attestation Tool: multifunctionele, downloadbare gebruikersinterface voor de productie van computationele lexica, inclusief gouden standaard voor named entity tagging.
  • BlackLab: corpuszoeksysteem op basis van Apache Lucene.
  • BlackLab Server: webservice voor het zoeken in corpora met BlackLab vanuit iedere programmeertaal.
  • CoBaLT: downloadbare applicatie om een verzameling tekstbestanden in te laden en taalkundig te annoteren.
  • Hulk/Keurmerk Spelling: keurmerk voor producten die de regels en principes van de officiële spelling van de Nederlandse Taalunie volgen.
  • INL labs: webservice voor het taggen/lemmatiseren van (historische) teksten met o.a. een tagger voor eigennamen (named entities) en een tagger speciaal getraind voor historisch materiaal. De laatste geeft de moderne woordvormen weer en maakt een koppeling naar betekenisomschrijvingen.
  • MBMP-morphological-parser: een geheugen-gebaseerde morfologische parser voor de programmeertaal Python.
  • Namescape (CLARIN): geschikt maken van taalkundige tools rond automatische naamherkenning voor letterkundig corpusonderzoek.
  • NERD (CLARIN): named entity recognizer.
  • OpenConvert (CLARIN): een tool om tekst te converteren naar xml-formaat (TEI) en te voorzien van taalkundige annotaties.
  • Spelspiek: interactieve online spellinghulp, waaraan men spellingsvragen in natuurlijke taal kan stellen.
  • Ticclops (CLARIN): volledig automatische tool, ontwikkeld voor spellingcontrole en tekstnormalisatie van corpora.

Documenten


/ F I S T Y N   GABELER GODOGOOD

Comments