Annotation Guidelines

  • The training data that will be provided as a gold standard have been manually tokenized and tagged according to the following guidelines:
    • Beißwenger, Michael; Bartz, Thomas; Storrer, Angelika; Westpfahl, Swantje (2015): Tagset und Richtlinie für das Part-of-Speech-Tagging von Sprachdaten aus Genres internetbasierter Kommunikation. Guideline document from the Empirikom shared task on automatic linguistic annotation of internet-based communication (EmpiriST 2015). (21 pages).
      PDF (German):
      EmpiriST_Guideline-PoS.pdf
      PDF (English): EmpiriST_guideline-PoS(english).pdf
      (translated by Sabine Bartsch)

    • Beißwenger, Michael; Bartsch, Sabine; Evert, Stefan; Würzner, Kay-Michael (2015): Richtlinie für die manuelle Tokenisierung von Sprachdaten aus Genres internetbasierter Kommunikation. Guideline document from the Empirikom shared task on automatic linguistic annotation of internet-based communication (EmpiriST 2015). (29 pages).
      PDF (German):
      EmpiriST_Guideline-Tokenisierung.pdf

    • Ergänzungsdokument zu den Annotationsrichtlinien: Additional instructions and examples for selected PoS categories and tricky phenomena in CMC and social media data.
      Online document (German): Google document

    When citing these documents, please use the bibliographic information given above and refer to the URL http://sites.google.com/site/empirist2015/.

    Note that our guideline for POS tagging is an extension and modification of the standard STTS (1999) tagset, and should be read in combination with the STTS guidelines:

    Overview: The part of speech tagset used for annotations:

    Extensions to STTS (1999) are highlighted with blue background colour:

    Tag

    Description (German)

    Examples

    ADJA

    attributives Adjektiv

    [das] große [Haus]

    ADJD

    adverbiales oder
    prädikatives Adjektiv

    [er fährt] schnell
    [er ist] schnell

    ADV

    Adverb

    schon, bald, heute, jetzt

    APPR

    Präposition, Zirkumposition links

    in [der Stadt], ohne [mich]

    APPRART

    Präposition mit Artikel

    im [Haus], zur [Sache], vorm, überm, fürn

    APPO

    Postposition

    [ihm] zufolge, [der Sache] wegen

    APZR

    Zirkumposition rechts

    [von jetzt] an

    ART

    bestimmter oder
    unbestimmter Artikel

    der, die, das,
    ein, eine

    CARD

    Kardinalzahl

    zwei [Männer], [im Jahre] 1994

    FM

    Fremdsprachliches Material

    [Er hat das mit“] A big fish [”übersetzt]

    ITJ

    Interjektion

    mhm, ach, tja

    ONO

    Onomatopoetikon

    boing, miau, zisch

    DM

    Diskursmarker

    prototypisch: weil, obwohl, nur, also als Einheiten mit projektivem Potential im Vorvorfeld von V2-Sätzen

    KOUI

     

    unterordnende Konjunktion mit „zu“ und Infinitiv

    um [zu leben]
    anstatt [zu fragen]

    KOUS

     

    unterordnende Konjunktion mit Satz (VL-Stellung)

    weil, dass, damit
    wenn, ob

    KON

    nebenordnende Konjunktion

    und, oder, aber

    KOKOM

    Vergleichspartikel ohne Satz

    als, wie

    NN

    Appellativa

    Tisch, Herr, [das] Reisen

    NE

    Eigennamen

    Hans, Hamburg, HSV

    PDS

     

    substituierendes Demonstrativpronomen

    dieser, jener

     

    PDAT

     

    attributierendes Demonstrativpronomen

    jener [Mensch]

    PIS

     

    substituierendes Indefinitpronomen

    keiner, viele, man, niemand

    PIAT

     

    attributierendes Indefinitpronomen ohne Determiner

    kein [Mensch]
    irgendein [Glas]

    PIDAT

     

    attributierendes Indefinitpronomen mit Determiner

    [ein] wenig [Wasser]
    [die] beiden [Brüder]

    PPER

    irreflexives Personalpronomen

    ich, er, ihm, mich, dir

    PPOSS

     

    substituierendes Possesivpronomen

    meins, deiner

    PPOSAT

    attributierendes Possesivpronomen

    mein [Buch], deine [Mutter]

    PRELS

    substituierendes Relativpronomen

    [der Hund,] der

    PRELAT

    attributierendes Relativpronomen

    [der Mann,] dessen [Hund]

    PRF

    reflexives Personalpronomen

    sich, einander, dich, mir

    PWS

    substituierendes Interrogativpronomen

    wer, was

    PWAT

    attributierendes Interrogativpronomen

    welche [Farbe]

    PWAV

    adverbiales Interrogativ- oder Relativpronomen

    warum, wo, wann
    worüber, wobei

    PAV

    Pronominaladverb

    dafür, dabei, deswegen. trotzdem

    PTKZU

    „zu“ vor Infinitiv

    zu [gehen]

    PTKNEG

    Negationspartikel

    nicht

    PTKVZ

    abgetrennter Verbzusatz

    [er kommt] an, [er fährt] Rad

    PTKANT

    Antwortpartikel

    ja, nein, danke, bitte

    PTKA

    Partikel bei Adjektiv oder Adverb

    am [schönsten], zu [schnell]

    PTKIFG

    Intensitäts-, Fokus- oder Gradpartikel

    sehr [schön], höchst [eigenartig], nur [sie], voll [geil]

    PTKMA

    Modal- oder Abtönungspartikel

    [Das ist] ja / vielleicht [doof]
    [Ist das] denn [richtig so?]
    [Das war] halt [echt nicht einfach]

    PTKMWL

    Partikel als Teil eines Mehrwort-Lexems

    keine mehr, noch mal, schon wieder

    TRUNC

    Kompositions-Erstglied

    An- [und Abreise]

    VVFIN

    finites Verb, voll

    [du] gehst, [wir] kommen [an]

    VVIMP

    Imperativ, voll

    komm [!]

    VVINF

    Infinitiv, voll

    gehen, ankommen

    VVIZU

    Infinitiv mit „zu“, voll

    anzukommen, loszulassen

    VVPP

    Partizip Perfekt, voll

    gegangen, angekommen

    VAFIN

    finites Verb, aux

    [du] bist, [wir] werden

    VAIMP

    Imperativ, aux

    sei [ruhig!]

    VAINF

    Infinitiv, aux

    werden, sein

    VAPP

    Partizip Perfekt, aux

    gewesen

    VMFIN

    finites Verb, modal

    dürfen

    VMINF

    Infinitiv, modal

    wollen

    VMPP

    Partizip Perfekt, modal

    [er hat] gekonnt

    VVPPER

    Kontraktion: Vollverb + irreflexives Personalpronomen

    schreibste, machste

    VMPPER

    Kontraktion: Modalverb + irreflexives Personalpronomen

    willste, darfste, musste

    VAPPER

    Kontraktion: Auxiliarverb + irreflexives Personalpronomen

    haste, biste, isses

    KOUSPPER

    Kontraktion: unterordnende Konjunktion mit Satz (VL-Stellung) + irreflexives Personalpronomen

    wenns, weils, obse

    PPERPPER

    Kontraktion: irreflexives Personalpronomen + irreflexives Personalpronomen

    ichs, dus, ers

    ADVART

    Kontraktion: Adverb + Artikel

    son, sone

    EMOASC

    Emoticon, als Zeichenfolge dargestellt (Typ „ASCII“)

    :-) :-( ^^ O.O

    EMOIMG

    Emoticon, als Grafik-Ikon dargestellt (Typ „Image“)

    kodiert (Beispiel aus WhatsApp):

    emojiQsmilingFaceWithSmilingEyes

    emojiQkissingCatFaceWithClosedEyes

    AKW

    Aktionswort

    *lach* freu, grübel *lol*

    HST

    Hashtag

    [Kreta war super!] #urlaub

    ADR

    Adressierung

    @lothar [: Wie isset so?]

    URL

    Uniform Resource Locator

    http://www.tu-dortmund.de

    EML

    E-Mail-Adresse

    peterklein@web.de

    XY

    Nichtwort, Sonderzeichen enthaltend

    D2XW3

    $,

    Komma

    ,

    $.

    Satzbeendende Interpunktion

    . ? ! ; :

    $(

    sonstige Satzzeichen; satzintern

    − [ ] ( )

    Ċ
    Michael Beißwenger,
    21.12.2015, 09:15
    Ċ
    Michael Beißwenger,
    13.09.2015, 06:40
    Ċ
    Michael Beißwenger,
    13.09.2015, 06:13
    Comments