The datasets are composed by texts written by multiple users, with possibly multiple posts per user.
Format
The data is distributed in the form of one XML-like file per genre with one sample per elements, and attributes specifying an id, the topic, the gender (male|female), and the age range ([0,19], [20,29], [30-39], [40-49], [50-100]). This is a sample:
<doc id="3046" topic="orologi" age="30-39" gender="male" >
<post>
Per quale motivo oggi, il mondo dell'orologeria è così importante per voi?
</post>
<post>
Cosa vi ha spinto a rendervi appassionati così bramosi?
</post>
</doc>