Cunningham
Le CEA LIST annonce la mise sous licence libre de son analyseur linguistique LIMA, désormais disponible sous la licence Affero GPL v3 ici: https://github.com/aymara/lima/wiki. LIMA (Libre Multilingual Analyzer) est un analyseur linguistique multilingue développé par le laboratoire LVIC (Laboratoire Vision et Ingénierie des Contenus) du CEA LIST pendant plus de 10 ans, selon un modèle propriétaire. Le logiciel est désormais disponible selon un modèle de double licence. LIMA supporte l'ensemble des étapes de l'analyse linguistique (morphologie, syntaxe, sémantique, entités, coréférences) selon une architecture modulaire et hautement configurable, avec des performances élevées aussi bien en vitesse qu'en qualité d'analyse. LIMA présente aussi l'avantage d'avoir été conçu dès le départ dans le but de l'intégrer à des solutions de qualité industrielle. La version Libre est complète avec des modules de traitement et des ressources permettant d'analyser des textes en anglais et en français. Conformément à la licence Affero GPL v3, il est possible d'utiliser LIMA librement tant que les logiciels qui y sont liés, qu'ils soient distribués ou exécutés à travers le réseau, sont eux aussi des logiciels libres avec une licence compatible.
NooJ is a linguistic development environment that allows linguists to formalize several levels of linguistic phenomena:
- typography and spelling;
- lexicons of simple words,
multiword units and discontinuous expressions;
- inflectional, derivational and agglutinative morphology;
- local and structural syntax;
- transformational syntax and paraphrase generation;
- semantic analysis and machine translation.
We are pleased to announce the release of DKPro Core, version 1.5.0 (ASL & GPL) a collection of interoperable software components for natural language processing (NLP) based on the Apache UIMA framework.
http://code.google.com/p/dkpro-core-asl
http://code.google.com/p/dkpro-core-gpl
Serge Heiden ( IR CNRS - HDR, ENS Lyon) Philologie numérique et analyse textométrique : analyse de corpus textuels XML structurés et lemmatisés avec le logiciel open-source TXM.
L'équipe ALPAGE a le plaisir d'annoncer le libre accès à un service WEB collaboratif de visualisation et de validation de ressources lexicales-sémantiques.
Ce service, encore expérimental, prend place dans la plateforme Libellex et a été développé dans le cadre d'une collaboration entre l'INRIA et la société Lingua et Machina. Il permet de naviguer dans des listes terminologiques et des réseaux lexicaux.
Le service est accessible sous http://alpage.inria.fr/Lbx
Par défaut, les utilisateurs peuvent se connecter avec l'identifiant suivant:
login: guest
password: guest
Sous ce compte 'guest', quelques ressources sont déjà librement accessibles (comme 'allsemnet'). Elles ont été constituées en analysant de gros corpus (Wikipedia, Wikisource, dépêches AFP, OpenSubtitles, ...) à l'aide de l'analyseur syntaxique FRMG, et en utilisant les sorties syntaxiques pour l'extraction de termes (multi-mots) et la constitution de réseaux lexicaux (par des méthodes d'analyse distributionnelle).
Une fois une ressource chargée, une première documentation est disponible sous 'MENU' rubrique 'Aide'. L'interface est essentiellement constituée de tuiles qu'on peut activer, désactiver, déplacer, et redimensionner. Quelques tuiles de base sont ouvertes par défaut.
Il est également envisageable de proposer de nouvelles ressources à charger, en accès public ou privé. Un exemple de telle ressource (pour le fun) est fourni par 'TALN:collaboration' produit par Florian Boudin (pour TALN 2013) et qui illustre le réseau de co-auteurs d'articles à TALN.
Mikaël Morardo (mickael.morardo at inria.fr) développeur principal Eric de la Clergerie (eric.de_la_clergerie@inria.fr)
Références:
* Vers un environnement de production et de validation de ressources lexicales sémantiques Mikaël Morardo, Éric Villemonte De La Clergerie, Atelier TALN 2013 SemDIS (2013)
http://alpage.inria.fr/~clerger/wnet/SemDis13.pdf
* Pour les lecteurs pressés: http://alpage.inria.fr/~clerger/wnet/wnet.html
* Site Alpage http://alpage.inria.fr
* Libellex et Lingua et Machina http://similis.org/linguaetmachina.www/index.php?afficher=11&info=Libellex
SALTO is a graphical tool that supports manual annotation of text corpora with (frame) semantic argument structures. The tool was developed within the SALSA project
(http://www.coli.uni-saarland.de/projects/salsa/) at Saarland University under the direction of Manfred Pinkal.
SALTO can be used to add a second (typically semantic) layer of annotation to corpora that are already syntactically analyzed (through manual annotation or automatically). Main features are:
* Query-based creation of subcorpora for annotation.
* Distribution of corpora to different annotators.
* Definition of Items and Classes/Tags to be annotated.
* Comfortable annotation with visual editor and mouse-menues.
* Semi-automatic merging and adjudication of parallel annotations
in same editor.
Vous êtes une collectivité territoriale, une association ou une entreprise, et vous aimeriez faciliter l'accès aux données cartographiques dont vos administrés ou employés ont besoin au quotidien ? Vous voudriez publier et partager facilement les données géographiques que vous produisez ? Vous souhaiteriez développer de nouveaux services en utilisant des données géographiques de différents fournisseurs ?
CuteGIS est une plateforme Open Source qui propose de publier facilement des données mais aussi des objets géographiques et d'organiser ses sources de données dans un catalogue simple d'utilisation. L'application offre une solution ergonomique pour créer et partager en quelques clics des cartes personnalisées. Elle facilite l'échange et la réutilisation de données géographiques, permet de collecter de nouvelles données géoréférencées et de créer de véritables écosystèmes de données pour développer des applications spatialement intelligentes. CuteGIS répond aussi bien aux besoins des producteurs de données qui souhaitent diffuser facilement et efficacement leurs données géographiques sur Internet qu'à ceux des utilisateurs qui souhaitent accéder à ces données sans devoir apprendre à maîtriser des outils SIG complexes.
Open Source Geospatial Content Management System. GeoNode is a web-based application and platform for developing geospatial information systems (GIS) and for deploying spatial data infrastructures (SDI). It is designed to be extended and modified, and can be integrated into existing platforms.
online GIS web mapping software.http://www.mangomap.com/
http://www.map2net.com/
il n'est pas gratuit (seul le viewer est gratuit)
utilise la technologie cloud. creation et partage de carte. un google map personalisé.
http://www.saga-gis.org/en/index.html
SAGA's first objective is to give (geo-)scientists an effective but easy learnable platform for the implementation of geoscientific methods. This is achieved by SAGA's unique Application Programming Interface (API). The second is to make these methods accessible in a user friendly way, what is first of all done by its Graphical User Interface (GUI). Together this results in SAGA's true strength: a fast growing set of geoscientifc methods ready to be used in numerous applications.
SAGA is coded in the widespread and powerful C++ programming language and has an object oriented system design. Since version 2 SAGA uses the cross platform GUI library wxWidgets for user interface functionality. Because wxWidgets enables operating system independent software development, you can run SAGA with MS-Windows as well as with Linux.
ElasticSearch un outil dédié à de la la recherche d'information sur du texte. Capable de travailler sur du pdf et du json. produit un score de pertinence. Possibilité de donner des poids à certains critere de recherche. Produit une recherche par facette sur une annotation structurée. Possibilité de le paramétrer pour indiquer quelle partie doit etre traité comme du texte brut et quelle partie est une annotation structurée sans traitement linguistique. Recherche par facette sur les champs structurés ex année, lieu géographique issu de geoname etc....visualisation d'un tableau de bord.
Du NoSQL pour une base de graphes.
ABBYY FineReader OCR software helps individuals turn scans of paper documents, PDF files, and digital photographs into searchable and editable formats. Unmatched text recognition accuracy and conversion capabilities virtually eliminate retyping and reformatting. Intuitive use and one-click automated tasks let you do more with this OCR software in fewer steps. Up to 189 languages supported for text recognition - absolute record on OCR/PDF market!
le meilleur convertisseur PDF du marché: annoncé par acrobat. Il regorge également d'outils intelligents qui multiplient les possibilités de communication — avec facilité, transparence et brio.
http://www.adobe.com/fr/products/acrobatpro.html
donne un fichier xml ou chaque mot est contenu dans une balise avec des information sur sa présentation et sa localisation. Nécessite un traitement du XML pour avoir un fichier manipulable.
utilise xpdf. ne marche que sur du linux 64.
conversion d'article scientifique. Résultat pas tres convaincant sur du multicolonne des BSV. Fusionne les lignes appartenant à des colonnes différentes.
tres bon résultat sur du multicolonne. Par compte ce n'est pas une application c'est un service sur le web. Tout document transformé devient leur propriété. A combien de document avons nous droit?
XED is a reverse engineering tool for PDF documents, which discovers and extracts the original document layout structure. XED mixes electronic extraction methods with state-of-the-art document analysis techniques and outputs the layout structure in the XCDF hierarchical canonical form, which is universal and independent of the document type.
http://diuf.unifr.ch/main/diva/research/research-projects/xed