Statistiques

Dans le but de combattre le  plus efficacement possible le copyvio, il est important d'avoir des données précises concernant ce phénomène. C'est pourquoi nous avons choisi d'étudier le traitement des articles soupçonnés. Cette page a pour vocation de recueillir à la fois les données brutes concernant le wikiplagiat, et les conclusions qui s'en dégagent.


Le traitement du copyvio

Que deviennent les articles soupçonnés de plagiat ?


Méthodologie : Ce document recense le nombre d'articles soupçonnés de copyvio signalés sur la page Wikipédia:Pages soupçonnées de violation de copyright durant l'année 2011, et le type de traitement qu'ils ont subi. On distingue les articles purgés, autorisés via OTRS, innocentés pour absence de copyvio, innocentés avec copie de Wikipédia par un internaute, et mis en attente.

Résultats : On remarque d'abord que la majorité des articles signalés sont purgés (environ 80%), et que très peu sont innocentés (environ 6%). Cela montre que les wikipédiens se trompent rarement lorsqu'ils détectent un article suspect, mais également que la lutte contre le copyvio passe le plus souvent par une diminution du contenu de wikipédia par la purge. Une étude postérieure est prévue pour évaluer l'impact d'une purge sur un article et estimer la probabilité d'une réécriture du passage purgé.

                 Cette étude permet de déterminer la probabilité qu'un article qui viendrait à être signalé soit finalement autorisé via OTRS. Elle est d'environ 3,7% (intervalle de confiance à 95% : [1,93% ; 5,54%]).

                
Cette étude permet également de déterminer la probabilité qu'un article qui viendrait à être signalé soit en réalité non pas une copie d'un site par un wikipédien, mais une copie de Wikipédia par un internaute. Elle est d'environ 2,2% (intervalle de confiance à 95% : [1,20% ; 3,21%]).

Données utilisées :



Données complètes et informations complémentaires en téléchargement en bas de page.




L'effet des purges

Quel avenir pour un article ayant subi une purge d'historique ?


Méthodologie : Je me suis intéressé à des articles purgés que j’ai trouvés sur l’historique de la page Wikipédia:Pages_soupçonnées_de_violation_de_copyright. J’ai choisi quelques mois au hasard et étudié le devenir des articles soupçonnés de copyvio. J’ai comptabilisé le nombre de copyvio signalés dans le mois, le nombre d’articles purgés et le nombre d’articles supprimés en totalité. Sur ces articles supprimés, j’ai cherché combien étaient réécrits. Quant aux articles purgés sans suppression totale, je me suis intéressé à leur état actuel et notamment au fait qu’ils aient été enrichis ou non.

Résultats : On remarque que la purge sans suppression totale de l’article n’a qu’un impact modéré sur le contenu de wikipédia car l'article continue à être sujet à contributions, alors que la suppression totale d’un article dans le cadre d’un traitement contre le copyvio s’avère très destructeur. En effet, le contenu supprimé est majoritairement perdu car le plus souvent, personne ne réédite l’article (sur les 28 articles supprimés totalement pour cause de copyvio étudiés ici, seulement 3 ont été réécrits).



En conséquence, on retiendra qu'il est dommage de supprimer complétement un article, même s'il est composé uniquement de copyvio. Même lorsque la suppression de la totalité du contenu est nécessaire afin de se défaire de tout plagiat, il faut être conscient que ce traitement a de grande chance de bannir le thème abordé dans le copyvio de wikipédia. Il peut alors être bon de supprimer le contenu et l'historique, mais de garder un article vide ayant le même titre que l'article plagié.

Si le thème sur lequel porte le copyvio est intéressant, il est possible de remplacer tout le contenu par le bandeau "Cette section est vide, insuffisamment détaillée ou incomplète" afin d'inciter les contributeurs à renseigner l'article. On peut également imaginer laisser comme seul contenu un lien vers le site qui a été plagié. Celui-ci serait cité, et non plus plagié, et pourrait fournir les informations recherchées par les utilisateurs de     wikipédia en attendant que des contributeurs n'écrivent un article plus détaillé. Ainsi, un thème intéressant qui aurait été introduit par un contributeur maladroit se rendant coupable de copyvio serait toujours sur wikipédia, et n'aurait pas à attendre son hypothétique ré-introduction par un autre contributeur.

Données complètes et informations complémentaires en téléchargement en bas de page.




Fréquentation des pages liées au copyvio

Combien de personnes s'intéressent au copyvio ? Quelles sont les pages les plus lues ?

Méthodologie : J'ai relevé le nombre de consultations par mois de différentes pages liées au copyvio. Pour cela, j'ai utilisé les outils disponible sur le site http://stats.grok.se/ qui propose ces informations pour toutes les pages de wikipédia. Pour la page Wikipédia:Pages_soupçonnées_de_violation_de_copyright, j'ai également comptabiliser le nombre d'éditions grâce à l'outil disponible sur le site http://toolserver.org/~tparis/articleinfo/.

Pages étudiées : Wikipédia:Pages_soupçonnées_de_violation_de_copyright, Aide:Copyvio, Aide:Guide_des_administrateurs/Copyvio, Projet:Copyvio, Projet:Copyvio/Étude_sur_le_copyvio, Projet:Copyvio/Renseignements_généraux.







On peut voir que la fréquentation de la page Wikipédia:Pages_soupçonnées_de_violation_de_copyright a un niveau équivalent depuis le depuis le début de l'étude, que ce soit en terme de consultations ou d'éditions.
La fréquentation du projet copyvio a fortement augmenté en fin d'année 2011, tout comme celle de la page aide:copyvio. A cette période, la page Aide:Guide_des_administrateurs a été elle aussi beaucoup lue, mais sa fréquentation est ensuite retombée à un niveau équivalent à celui de l'été 2011.
On remarque enfin que parmis les pages liées à projet:copyvio, seule Projet:Copyvio/Renseignements_généraux est réellement fréquentée, l'autre  Projet:Étude_sur_le_copyvio ne rassemblant que peu de consultations, excepté le mois de sa création.






Etudes en projet

1/ Etude concernant les contributeurs plagiaires : Quelle est leur implication (observation de l'ancienneté, du nombre d'édits) ? Commettent-ils en moyenne de nombreux copyvio, ou peu au contraire ? Continuent-ils à plagier après un rappel à l'ordre ? Continuent-ils à contribuer après un rappel à l'ordre ?
2/ Etude concernant la communauté des contributeurs anti-copyvioCombien sont-ils ? Sont-ils plutôt des wikipédiens à fort engagement ou des débutants (observation de l'ancienneté, du nombre d'édits) ? Communauté fermée ou à fort turnover ?



Si vous avez des questions ou des remarques par rapport aux différentes études menées ici, n'hésitez pas à me contacter à l'adresse suivante :   stop-au-wikiplagiat@googlegroups.com . 



ċ
Félix Pryfer,
8 mars 2012 à 14:01
ċ
Félix Pryfer,
10 avr. 2012 à 09:51
ċ
statistiques_traitement_copyvio.ods
(36k)
Félix Pryfer,
20 mars 2012 à 09:40
Comments