Lecturas y enlaces a material
Plataformas para análisis, minería de datos, ciencia de datos y aprendizaje automático
AdvancedMiner de Algolytics, proporciona una amplia gama de herramientas para transformaciones de datos, modelos Data Mining, análisis de datos e informes .
Alteryx, ofreciendo la plataforma Strategic Analytics, que incluye una versión gratuita de Project Edition
Angoss Knowledge Studio, un conjunto completo de herramientas de modelado predictivo y minería de datos; interoperabilidad con SAS y otras herramientas estadísticas importantes .
BayesiaLab, una herramienta de minería de datos completa y potente basada en redes bayesianas, que incluye la preparación de datos, la imputación de valores perdidos, la agrupación de datos y variables, el aprendizaje supervisado y no supervisado .
BioComp i-Suite, optimización basada en restricciones, análisis de causa y efecto, modelado predictivo no lineal, acceso a datos y limpieza, y más .
BLIASoft Knowledge Discovery software, para construir modelos a partir de datos basados principalmente en lógica difusa .
Civis, una plataforma de ciencia de datos ampliable, fácil de usar, extensible y en la nube, construida por científicos de datos, para equipos que desean tomar excelentes decisiones basadas en datos para impulsar el avance de sus organizaciones.
CMSR Data Miner, construido para datos comerciales con enfoque de base de datos, incorporando el motor de reglas, red neuronal, agrupamiento neuronal (SOM), árbol de decisiones, desglose de puntos calientes, análisis de desviación de tablas cruzadas, análisis de ventas cruzadas, visualización / gráficos y más.
Coheris SPAD, proporciona análisis exploratorios poderosos y herramientas de minería de datos, que incluyen PCA, clustering, árboles de decisión interactivos, análisis discriminantes, redes neuronales, minería de textos y más, todo a través de GUI fácil de usar .
curios.IT, un software de exploración, extracción de datos y visualización de datos 3D fácil de usar para la mayoría de los navegadores web (aplicaciones web), Windows 10 y iPad .
Data Applied, ofrece un conjunto completo de técnicas de minería de datos basadas en la web, una API web XML y visualizaciones de datos enriquecidos .
Data Miner Software Kit, colección de herramientas de minería de datos, ofrecidas en combinación con un libro: Predictive Data Mining: A Practical Guide, Weiss e Indurkhya .
DataDetective, potente y fácil de usar plataforma de minería de datos y el software de análisis de criminalidad de elección para la policía holandesa.
Dataiku Data Science Studio, una plataforma de software que combina la preparación de datos, el aprendizaje automático y la visualización en un flujo de trabajo único, y que puede integrarse con R, Python, Pig, Hive y SQL.
DataLab, una herramienta de minería de datos completa y potente con un proceso único de exploración de datos, con un enfoque en marketing e interoperabilidad con SAS .
DataScience.com proporciona una plataforma empresarial de ciencia de datos que combina las herramientas, bibliotecas e idiomas que los científicos adoran con la infraestructura y los flujos de trabajo que necesitan sus organizaciones .
DBMiner 2.0 (Enterprise), herramienta poderosa y asequible para extraer grandes bases de datos; usa Microsoft SQL Server 7.0 Plato
Delta Miner, integra nuevas técnicas de búsqueda e metodologías de "inteligencia comercial" en un front-end OLAP que abarca el concepto de Active Information Management .
ESTARD Data Miner, fácil de usar, diseñado tanto para expertos en minería de datos como para usuarios comunes .
EWA Systems, completa suite de minería de datos basada en Java, que incluye una gama completa de técnicas basadas en reglas Bayesianas, neuronales y SVM basadas en reglas de alto rendimiento .
Exeura Rialto™ proporciona soporte integral para toda la minería de datos y el ciclo de vida analítico a un precio asequible en una única herramienta fácil de usar.
Fair Isaac Model Builder, plataforma de software para desarrollar e implementar modelos analíticos, incluye análisis de datos, árbol de decisiones y construcción de modelos predictivos, optimización de decisiones, administración de reglas comerciales y despliegue de plataforma abierta .
FastStats Suite (Apteco), productos de análisis de marketing, incluida la extracción de datos, la creación de perfiles de clientes y la gestión de campañas .
GainSmarts, usa tecnología de modelado predictivo que puede analizar datos de compras anteriores, demográficos y de estilo de vida, para predecir la probabilidad de respuesta y desarrollar una comprensión de las características del consumidor .
Generation5 GenVoy, Análisis del consumidor bajo demanda .
GenIQ Model,usa el aprendizaje automático para la tarea de regresión; realiza automáticamente la selección de variables y la construcción de nuevas variables, y luego especifica la ecuación del modelo para "optimizar la tabla de deciles" .
GhostMiner, conjunto completo de minería de datos, que incluye k vecinos más cercanos, redes neuronales, árbol de decisión, neurofuzzy, SVM, PCA, clustering y visualización. .
GMDH Shell, una herramienta avanzada pero fácil de usar para el modelado predictivo y la minería de datos .
Golden Helix Optimus RP, utiliza el modelado recursivo basado en la inferencia formal (partición recursiva basada en la programación dinámica) para encontrar relaciones complejas en los datos y para construir modelos de predicción y segmentación altamente precisos .
IBM Data Science Experience, un entorno interactivo, de colaboración, basado en la nube
IBM SPSS Modeler,(anteriormente Clementine), un banco de trabajo de minería de datos visual y potente
JMP, ofrece una visualización significativa y capacidades de minería de datos junto con análisis estadísticos clásicos .
K.wiz, de thinkAnalytics: plataforma de minería de datos en tiempo real escalable, embebible y basada en Java. Diseñado para soluciones de clientes y OEM
Kaidara Advisor, (anteriormente Acknosoft KATE), razonamiento basado en casos (CBR) y motor de minería de datos. .
Kensington Discovery Edition, plataforma de descubrimiento de alto rendimiento para ciencias de la vida, con integración, análisis, visualización y creación de flujo de trabajo de datos de múltiples fuentes
Kepler, extensibles, multi-paradigma, multiusos sistema de minería de datos .
KnowledgeMiner, Software paralelo de 64 bits para la construcción autónoma de modelos analíticos predictivos fiables a partir de datos ruidosos de alta dimensión utilizando tecnologías excepcionales de minería de conocimiento autoorganizada. Modelo de exportación a Excel. Localizado para inglés, español, alemán. libre de intentar .
KnowledgeMiner (yX) for Excel, una herramienta de minería de conocimiento que funciona con datos almacenados en Microsoft Excel para construir modelos predictivos y descriptivos. (Mac OS).
Kontagent kSuite DataMine, una plataforma de análisis de usuario SaaS que ofrece información de comportamiento en tiempo real para redes sociales, móviles y web, que ofrece consultas similares a SQL además de las implementaciones de Hadoop .
KXEN (SAP company), proporcionar herramientas automatizadas de análisis predictivo para Big Data.
LIONsolver 2.0, Aprendizaje y optimización inteligente: modelado y optimización con "aprendizaje en el trabajo" para negocios e ingeniería por Reactive Search SrL .
LPA Data Mining tools admiten el descubrimiento y el modelado de las reglas difusos, bayesianos y expertos .
Lumidatum, Plataforma de Data Science que permite la personalización y el análisis predictivo dentro de sus aplicaciones, productos y servicios .
LityxIQ, un conjunto integrado de herramientas para realizar fácilmente muchas tareas analíticas, desde la preparación de datos hasta la presentación de informes para BI, modelado y puntuación, hasta la optimización lineal .
Magnify PATTERN, paquete de software, contiene PATRÓN: prepararse para la preparación de datos; PATRÓN: Modelo para construir modelos predictivos; y PATTERN: puntuación para el despliegue del modelo
Mathematica solution para análisis de datos y minería, de Wolfram .
MCubiX from Diagnos, una caja de herramientas de minería de datos completa y asequible, que incluye árbol de decisiones, redes neuronales, reglas de asociaciones, visualización y más .
MERKUR Miner Plus combina OLAP de alta velocidad y visualización con Data Mining para crear modelos de predicción y clasificación .
Microsoft SQL Server 2005, empowers informed decisions with predictive analysis through intuitive data mining, seamlessly integrated within the Microsoft BI platform, and extensible into any application.
mlf (Machine Learning Framework), provides analysis, prediction, and visualization using fuzzy logic and ML methods; implemented in C++ and integrated into Mathematica.
Model 1, Response Modeler, Segmenter and Profiler, Customer Valuator, and Cross-Seller modules with a wizard GUI.
Molegro Data Modeller, a cross-platform application for Data Mining, Data Modelling, and Data Visualization.
Neural Designer, an advanced application for discovering complex relationships, recognizing unknown patterns and predicting actual trends from data sets.
Nuggets, builds models that uncover hidden facts and relationships, predict for new data, and find key variables (Windows).
Oracle Data Mining (ODM), enables customers to produce actionable predictive information and build integrated business intelligence applications.
Palisade DecisionTools Suite, Complete risk and decision analysis toolkit.
Partek, pattern recognition, interactive visualization, and statistical analysis & modeling system.
Pentaho open-source BI suite, including reporting, analysis, dashboards, data integration, and data mining based on Weka.
Polyanalyst, comprehensive suite for data mining, now also including text analysis, decision forest, and link analysis. Supports OLE DB for Data Mining, and DCOM technology.
Portrait Software from PitneyBowes, a suite of analytics tools to improve real-time and multi-channel interactions with customers.
Powerhouse Data Mining software for predictive and clustering modelling, based on Dorian Pyle's ideas on using Information Theory in data analysis. Most information is in Spanish.
Predictive Data Mining Suite from Predictive Dynamix integrates graphical and statistical data analysis with modeling algorithms including neural networks, clustering, fuzzy systems, and genetic algorithms.
Previa family of products for classification and forecasting.
QIWare, an agile analytics solution with a complete suite of capabilities to support end-to-end data mining cycle.
R-Brain, provides cloud data science platform to develop, share and deploy models, supporting both R & Python with debugging, data and environment view, notebooks, RMarkdown and Shiny.
RapAnalyst(tm), uses advanced artificial intelligence to create dynamic predictive models, to reveal relationships between new and historical data.
Rapid Insight Analytics streamlines the predictive modeling and data exploration process, enabling users of all abilities to quickly build, test, and implement statistical models at lightning speed.
RapidMiner, makes data science teams more productive through a unified platform for data prep, machine learning, and model deployment.
Red Sqirl, a browser-based big data application that simplifies the manipulation and analysis of large data sets on Hadoop and Spark.
Reel Two, real-time classification software for structured and unstructured data as well entity extraction. From desktop to enterprise.
RiverGlass software offers data mining, streaming data analysis, visualization, and more.
Salford Systems Data Mining Suite: CART Decision Trees, MARS predictive modeling, automated regression, TreeNet classification and regression, data access, preparation, cleaning and reporting modules, RandomForests predictive modeling, clustering and anomaly detection.
SAS Enterprise Miner, an integrated suite which provides a user-friendly GUI front-end to the SEMMA (Sample, Explore, Modify, Model, Assess) process.
Statistica Data Miner, a comprehensive, integrated statistical data analysis, graphics, data base management, and application development system.
Synapse, a development environment for neural networks and other adaptive systems, supporting the entire development cycle from data import and preprocessing via model construction and training to evaluation and deployment; allows deployment as .NET components.
Teradata Warehouse Miner and Teradata Analytics, providing analytic services for in-place mining on a Teradata DBMS.
thinkCRA from thinkAnalytics, an integrated suite of Customer Relationship Analytics applications supporting real-time decisioning.
TIBCO Spotfire Miner, combining Spotfile visualization, Insightful Miner, S+ with intuitive drag-and-drop user interface.
TIMi Suite: The Intelligent Mining machine, a family of stand-alone, automated, user-friendly GUI tools for prediction, segmentation and data preparation, with high scalability, speed, ROI & prediction accuracy (a recurrent top winner at KDD cups).
Valo, a streaming big data analytics platform, combines big data storage with a real time computation engine and in-built machine learning and algorithms.
Viscovery data mining suite, a unique, comprehensive data mining suite for business applications with workflow-guided project environment; includes modules for visual data mining, clustering, scoring, automation and real-time integration.
WITNESS Miner, a graphical data mining tool with decision trees, clustering, discretisation, feature subset selection, and more.
Xeno, InfoCentricity powerful, user-friendly online analytic platform, supporting segmentation, clustering, exploratory data analysis, and the development of highly predictive models.
XLMiner, Data Mining Add-In For Excel.
XLSTAT, data analysis add-on to MS Excel, incorporates many statistical features, data mining and machine learning tools.
Xpertrule Miner 4.0, (Attar Software) features data transformation, Decision Trees, Association Rules and Clustering on large scale data sets.
Zoom 'n View, the plug-in reporting solutions.
Libre / Código abierto
ADAMS: Advanced Data mining And Machine learning System, un motor de flujo de trabajo flexible para crear y mantener rápidamente flujos de trabajo de conocimiento complejo y del mundo real, publicado bajo GPLv3 .
AdvancedMiner Community Edition, versión gratuita de AdvancedMiner: conjunto de software analítico integrado, que admite la gama completa de tareas relacionadas con el procesamiento de datos, la construcción de modelos Data Mining, el análisis avanzado de datos y la generación de informes .
AlphaMiner, plataforma de minería de datos de código abierto que ofrece varios modelos de minería de datos y funcionalidad de limpieza de datos .
CMSR Data Miner, construido para datos comerciales con enfoque de base de datos, incorporando el motor de reglas, red neuronal, agrupamiento neuronal (SOM), árbol de decisiones, desglose de puntos calientes, análisis de desviación de tabla cruzada, análisis de venta cruzada, visualización / gráficos, y más. Gratis para uso académico .
CRAN Task View: Machine Learning & Statistical Learning,aprendizaje automático y paquetes estadísticos en R .
Databionic ESOM Tools, un conjunto de programas para clustering, visualización y clasificación con Emergent Self-Organizing Maps (ESOM) .
ELKI: Environment for DeveLoping KDD-Applications Supported by Index-Structures, un marco en Java que incluye clustering, detección de valores atípicos y otros algoritmos; permite al usuario evaluar la combinación de algoritmos arbitrarios, tipos de datos y funciones de distancia .
Gnome Data Mining Tools, incluyendo apriori, árboles de decisión y clasificadores de Bayes .
jHepWork, un entorno interactivo para computación científica, análisis de datos y visualización de datos diseñado para científicos, ingenieros y estudiantes
KEEL, incluye algoritmos de extracción de conocimiento, técnicas de preprocesamiento, aprendizaje de reglas evolutivas, sistemas difusos genéticos y más .
KNIME, plataforma extensible de minería de datos de fuente abierta que implementa el paradigma de canalización de datos (basado en eclipse) .
Machine Learning in Java (MLJ), un conjunto de herramientas de código abierto de Java para la investigación en aprendizaje automático .
MiningMart, una herramienta gráfica para preprocesamiento de datos y minería en bases de datos relacionales; apoya el desarrollo, la documentación, la reutilización y el intercambio de procesos completos de KDD. Gratis para fines no comerciales.
ML-Flex, un paquete de software de código abierto diseñado para permitir el procesamiento flexible y eficiente de conjuntos de datos dispares para el aprendizaje automático (clasificación).
MLC++, una biblioteca de aprendizaje automático en C ++ .
MLDB, una base de datos de código abierto diseñada para el aprendizaje automático. Envíele comandos a través de una API RESTful para almacenar datos, explorarlos mediante SQL, luego entrenar modelos de aprendizaje automático y exponerlos como APIs.
OpenNN, una biblioteca completa de C ++ para investigación y desarrollo de redes neuronales .
Orange, análisis de datos de código abierto y minería a través de programación visual o scripts de Python. Componentes para visualización, aprendizaje de reglas, agrupamiento, evaluación de modelos y más .
PredictionIO, un servidor de aprendizaje de máquina de fuente abierta para desarrolladores de software e ingenieros de datos para crear funciones predictivas, como personalización, recomendación y descubrimiento de contenido .
Rattle, un paquete de minería de datos basado en el lenguaje de estadísticas de fuente abierta R, que incluye gráficos, clustering, modelado y más .
TANAGRA, ofrece una interfaz GUI y métodos para acceso a datos, estadísticas, selección de características, clasificación, agrupamiento, visualización, asociación y más .
Vowpal Wabbit (Fast Learning), capaz de aprender de datasets tera-feature con aprendizaje paralelo, soporta clasificación, regresión y más .
Weka, colección de algoritmos de aprendizaje automático para resolver problemas de minería de datos en el mundo real. Está escrito en Java y se ejecuta en casi cualquier plataforma .
Software Comercial para clustering
BayesiaLab, includes Bayesian classification algorithms for data segmentation and uses Bayesian networks to automatically cluster the variables.
ClustanGraphics3, hierarchical cluster analysis from the top, with powerful graphics
CMSR Data Miner, built for business data with database focus, incorporating rule-engine, neural network, neural clustering (SOM), decision tree, hotspot drill-down, cross table deviation analysis, cross-sell analysis, visualization/charts, and more.
CViz Cluster Visualization, for analyzing large high-dimensional datasets; provides full-motion cluster visualization.
IBM SPSS Modeler, includes Kohonen, Two Step, K-Means clustering algorithms.
NeuroXL Clusterizer, a fast, powerful and easy-to-use neural network software tool for cluster analysis in Microsoft Excel.
Neusciences aXi.Kohonen, ActiveX Control for Kohonen Clustering, includes a Delphi interface.
perSimplex, clustering software based on fuzzy logic. Download available.
PolyAnalyst, offers clustering based on Localization of Anomalies (LA) algorithm.
TeeChart, Clustering charting component library for Delphi and C++, VCL and Firemonkey frameworks.
Treparel KMX Big Data Text Analytics & Visualization, an integrated clustering, classification and visualization solution for analyzing large text collections. Also for OEM.
Viscovery explorative data mining modules, with visual cluster analysis, segmentation, and assignment of operational measures to defined segments.
Visipoint, Self-Organizing Map clustering and visualization.
Software gratuito y de código abierto para clustering
Autoclass C, an unsupervised Bayesian classification system from NASA, available for Unix and Windows
CLUTO, provides a set of partitional clustering algorithms that treat the clustering problem as an optimization process.
Databionic ESOM Tools, a suite of programs for clustering, visualization, and classification with Emergent Self-Organizing Maps (ESOM).
David Dowe Mixture Modeling page for modeling statistical distribution by a mixture (or weighted sum) of other distributions.
ELKI: Environment for Developing KDD-Applications Supported by Index-Structures.
MCLUST/EMCLUST, model-based cluster and discriminant analysis, including hierarchical clustering. In Fortran with interface to S-PLUS.
MDL Clustering is a collection of algorithms for unsupervised attribute ranking, discretization, and clustering built on the Weka Data Mining platform.
PermutMatrix, graphical software for clustering and seriation analysis, with several types of hierarchical cluster analysis and several methods to find an optimal reorganization of rows and columns.
Snob, MML (Minimum Message Length)-based program for clustering
StarProbe, web-based multi-user server available for academic institutions.
Sitios adicionales de software de clustering
Transformación de datos, limpieza de datos, software de limpieza de datos
Ab Initio, provides high-performance software library and graphical environment for data transformation
AMADEA, data Extraction, Transformation, and Real Time Reporting software
AnalyticsCanvas, helps automate Google Analytics and Facebook insights dataflow, connects to various data sources, performs calculations and data transformations, and export data for storage and visualization.
analytixBASE, a self-service analytics software for business users to quickly and easily create reports and analysis without SQL knowledge, using an intuitive and visual work-flow interface.
Astera ReportMiner enables users with no technical background to extract & transform data from virtually any report, and map and export data anywhere.
BioComp iManageData(tm), Accesses, cleans, filters, converts and transforms data from files, Excel, Oracle, SQL Server, process control systems and more.
Blendo ETL-as-a-service platform, designed to support the integration of data from multiple SaaS applications and quickly loading into a data warehouse like Google BigQuery, Amazon Redshift or Microsoft SQL Server.
COMGEN - Disk, tape and data conversion and data recovery experts, Commercial and General Systems.
Data Ladder, offering Data Matching, Profiling, deduplication, and Enrichment software and services.
Data Manager, windows GUI application for data transformation and cleansing before data mining.
DataFlux, provides Data Management solutions including Data profiling, Data quality, Data integration and Data augmentation
DataPreparator, Java based tool to explore, manipulate, transform and prepare data using a graphical user interface.
Datamartist, allows large amounts of data from multiple sources to be combined together, enhanced and repaired without the need for database development.
Datatect, a powerful program for generating realistic test data to ASCII flat files or directly to RDBMS including Oracle, Sybase, SQL Server, and Informix.
Dataskope, department-level tools to map, transform, alarm, output and view high volumes of binary or ASCII input data.
DQ Now, profiling, cleansing, and dedup tools, providing a clear view of the data
DQ Global, data cleansing, data management software, including de-duplication, merge/purge, address correction and suppression.
FreeSight avoid "spreadsheet hell" with patented tools to simplify and automate data blending, cleansing, analysis and reporting.
GritBot, for identifying anomalies in data (compatible with See5 and Cubist).
Hummingbird ETL, powerful data integration solution.
MiningMart platform, for the preparation of relational data for Knowledge Discovery, free for research and non-commercial applications.
MoData technology platform aggregates, cleanses and generates analytic cubes from disparate ERP and CRP sources and provides a data science and insights delivery platform.
OpenRefine (ex-Google Refine), a powerful tool for working with messy data, cleaning it, transforming it from one format into another, extending it with web services, and linking it to databases like Freebase.
Optimus, a Python framework for cleansing, preparing and exploratory data analysis in a distributed fashion with Apache Spark (Pyspark).
proMISS, imputes missing values in databases.
Relational Tools streamline application testing by allowing moving, editing and comparing referentially intact sets of complex relational data.
Sagent, provides a suite of data transformation and loading tools
The Software Bureau, providing Cygnus and SwiftSort innovative data quality software.
Syncsort, fast high-volume sorting, filtering, reformatting, aggregating, and more
The TrueData COMponent, functions to programmatically standardise your data, process it phonetically, and output a match key.
WinPure, powerful data cleaning software, including duplication removal, email suggestions, statistics and more.
Software de clasificación para minería de datos y análisis
Multiple approaches, typically including both a decision-tree and a neural network models, as well as some way to combine and compare them.
Rough sets, Genetic algorithms, Fuzzy Logic and other approaches.
Analysis of classification results, ROC curves, and more
link DE INTERNET CON DATASET (conjuntos de datos)
UCI Machine Learning Repository. Center for Machine Learning and Intelligent Systems. https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset
Banco de datos mundial. http://databank.bancomundial.org/data/databases.aspx
Bases de datos y repositorios. http://americo.usal.es/iberobib/basesdedatos.htm
15+ Datasets gratis para Data Mining. http://www.webmining.cl/2011/01/15-datasets-gratis-para-data-mining/
Research Pipeline's wiki pages. Your Guide to the World's Free Online Data. http://www.researchpipeline.com/mediawiki/index.php?title=Main_Page
Web del Global Change Master Directory. Contiene más de 20.000 conjuntos de datos sobre La Tierra. http://gcmd.nasa.gov/KeywordSearch/Keywords.do?Portal=GCMD&KeywordPath=Parameters|Home&MetadataType=0&Columns=0#maincontent
Datasets for Data Mining. http://www.inf.ed.ac.uk/teaching/courses/dme/html/datasets0405.html
Datasets for Data Mining and Data Science. http://www.kdnuggets.com/datasets/index.html
Index of /ml/machine-learning-databases. https://archive.ics.uci.edu/ml/machine-learning-databases/
Otros…
http://www.statsci.org/datasets.html http://data.princeton.edu/
Anacode Chinese Web Datastore: a collection of crawled Chinese news and blogs in JSON format.
AssetMacro, historical data of Macroeconomic Indicators and Market Data.
Awesome Public Datasets on github, curated by caesar0301.
AWS (Amazon Web Services) Public Data Sets, provides a centralized repository of public data sets that can be seamlessly integrated into AWS cloud-based applications.
Bioassay data, described in Virtual screening of bioassay data, by Amanda Schierz, J. of Cheminformatics, with 21 Bioassay datasets (Active / Inactive compounds) available for download.
Bitly 1.usa.gov data, anonymized clicks on gov links.
Canada Open Data, pilot project with many government and geospatial datasets.
Causality Workbench data repository.
Corral Big Data repository at Texas Advanced Computing Center, supporting data-centric science.
CrowdFlower Data for Everyone library.
Data Source Handbook, A Guide to Public Data, by Pete Warden, O'Reilly (Jan 2011).
Datacatalogs.org, open government data from US, EU, Canada, CKAN, and more.
Data.gov.uk, publicly available data from UK (also London datastore.)
Data.gov/Education, central guide for education data resources including high-value data sets, data visualization tools, resources for the classroom, applications created from open data and more.
DataMarket, visualize the world's economy, societies, nature, and industries, with 100 million time series from UN, World Bank, Eurostat and other important data providers.
Datamob, public data put to good use.
Data Planet, The largest repository of standardized and structured statistical data, with over 25 billion data points, 4.3 billion datasets, 400+ source databases.
Datasets.co, datasets for data geeks, find and share Machine Learning datasets.
DataSF.org, a clearinghouse of datasets available from the City & County of San Francisco, CA.
DataFerrett, a data mining tool that accesses and manipulates TheDataWeb, a collection of many on-line US Government datasets.
Delve, Data for Evaluating Learning in Valid Experiments
EconData, thousands of economic time series, produced by a number of US Government agencies.
data.world, discover and share cool data, connect with interesting people, and work together to solve problems faster.
Enron Email Dataset, data from about 150 users, mostly senior management of Enron.
Europeana Data, contains open metadata on 20 million texts, images, videos and sounds gathered by Europeana - the trusted and comprehensive resource for European cultural heritage content.
FEDSTATS, a comprehensive source of US statistics and more
FIMI repository for frequent itemset mining, implementations and datasets.
Financial Data Finder at OSU, a large catalog of financial data sets.
GDELT: The Global Data on Events, Location and Tone, described by Guardian as "a big data history of life, the universe and everything."
GEO (GEO Gene Expression Omnibus), a gene expression/molecular abundance repository supporting MIAME compliant data submissions, and a curated, online resource for gene expression data browsing, query and retrieval.
GeoDa Center, geographical and spatial data.
Google ngrams datasets, text from millions of books scanned by Google.
Grain Market Research, financial data including stocks, futures, etc.
Hilary Mason research-quality Big Data sets collection - many text and image datasets.
HitCompanies Datasets, comprehensive data on random 10,000 UK companies sampled from HitCompanies, updated automatically using AI/Machine Learning.
ICWSM-2009 dataset contains 44 million blog posts made between August 1st and October 1st, 2008.
Infochimps, an open catalog and marketplace for data. You can share, sell, curate, and download data about anything and everything.
Investor Links, includes financial data
KDD Cup center, with all data, tasks, and results.
Kevin Chai list of datasets, for text, SNA, and other fields.
KONECT, the Koblenz Network Collection, with large network datasets of all types in order to perform research in the area of network mining.
Linking Open Data project, at making data freely available to everyone.
MIT Cancer Genomics gene expression datasets and publications, from MIT Whitehead Center for Genome Research.
ML Data, the data repository of the EU Pascal2 networks.
NASDAQ Data Store, provides access to market data.
National Government Statistical Web Sites, data, reports, statistical yearbooks, press releases, and more from about 70 web sites, including countries from Africa, Europe, Asia, and Latin America.
National Space Science Data Center (NSSDC), NASA data sets from planetary exploration, space and solar physics, life sciences, astrophysics, and more.
NetworkRepository: Interactive Data Repository, has many collections of graph and networks from social science, machine learning, scientific computing, and other areas.
Open Data Census, assesses the state of open data around the world.
OpenData from Socrata, access to over 10,000 datasets including business, education, government, and fun.
Open Source Sports, many sports databases, including Baseball, Football, Basketball, and Hockey.
PubGene(TM) Gene Database and Tools, genomic-related publications database
Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.
qunb, a platform to find and visualize quantitative data.
Robert Schiller data on housing, stock market, and more from his book Irrational Exuberance.
SMD: Stanford Microarray Database, stores raw and normalized data from microarray experiments.
Jerry Smith dataset collection, with Finance, Government, Machine Learning, Science, and other data.
SourceForge.net Research Data, includes historic and status statistics on approximately 100,000 projects and over 1 million registered users' activities at the project management web site.
StatLib, CMU Datasets Archive.
UCI KDD Database Repository for large datasets used in machine learning and knowledge discovery research.
UCR Time Series Data Archive, offering datasets, papers, links, and code.
UK Open Postcode Geo, UK/British postcodes with easting, northing, latitude, and longitude.
Web Data Commons, structured data from the Common Crawl, the largest public web corpus.
Wikiposit, a (virtual) amalgamation of (mostly financial) data from many different sites, allowing users to merge data from different sources
Yahoo Sandbox datasets, Language, Graph, Ratings, Advertising and Marketing, Competition
Yelp Academic Dataset, all the data and reviews of the 250 closest businesses for 30 universities for students and academics to explore and research.