Search this site
Embedded Files
Osint
  • Cybercol
    • Disclaimer
    • Presentación
    • Historia
    • Applicaciones
    • Recuperación de evidencias digitales
      • Algunas herramientas de recuperación de evidencias digitales
    • Conocimiento / Saberes
    • Requerimientos
    • La multifacética utilidad de OSINT en el panorama moderno
  • Las bases
    • Dónde empesar
    • Metodología de recolección de datos en OSINT
    • Fuentes de información abiertas
      • Fact-checking
        • Fake news
        • Desinformación
        • TrustServista
        • Invid
    • Clasificación de la Información
    • Motores y Meta-Motores
      • Importancia de los motores de búsqueda
      • Untitled page
      • Google Dorks
        • Sintaxis de Google Dorks
    • Conexión más seguras
    • Add-on
    • Los Metadatos
      • raw header
      • Open Semantic Search
    • Bases de datos y repositorios de información
    • Distribuciones Linux orientadas a OSINT
    • Licencias
    • Privacidad
    • Doxing
    • Wayback Machine
    • Framework OSINT
    • IntelX Tools
    • Inteltechniques
    • Social Links
    • Desvelando secretos
  • Sectores impactados
    • Sectores
      • Sector periodístico
        • Recursos para periodistas
      • Sector académico
      • Sector de análisis forense
      • Sector empresarial
      • Sector seguridad
      • CiberInteligencia
  • Tipos de OSINT
    • Tipos de OSINT
      • HumInt
      • DarkInt
      • Cybint/DNINT
      • SigInt
      • MasInt
      • TechInt
      • FinInt
        • BlockInt
        • GraphSense-Maltego-transform
      • GeoInt
        • GeoINT
          • Ventusky
          • Overpass turbo
          • SunCalc
          • GeoInt Localisator
          • E-O Browser
      • SocmInt
        • El Web Scraping
        • Análisis de Redes Sociales
        • Investigación SOCmint
      • Recom
      • CrimInt
        • IBM i2 Analyst's Notebook
        • Palantir Gotham
      • ImInt
      • Domex
      • BEI
      • MEDINT
  • Herramientas
    • Adaptabilidad y espectro de herramientas OSINT
    • Rastradores de tránsito
      • Global Fishing Watch
        • Global Integrated Shipping Information System (GISIS)
      • MarineTraffic
      • VesselFinder
      • Airfleets
      • OpenRailwayMap
      • ADSB Exchange
      • Flightradar24
      • WikiRoutes
      • License Plate Mania
    • Visualización de datos
      • Datawrapper
      • DataBasic
      • Rawgraphs
      • Time.Graphics
    • Análisis de datos personales y digitales
      • Have I Been Pwned?
      • Hunter
      • DeHashed
      • Holehe
      • Lusha
      • pipl
      • PhoneInfoga
      • Epieos
      • TrueCaller
      • Maigret
      • WhatsMyName
      • PimEyes
      • TinEye
      • Findclone
      • Kaspr
      • GHunt
      • Otras
        • Facebook
    • Análisis de empresas
      • Offshore leaks database
      • Opencorporate
      • Seon
    • Pentesting
      • TheHarvester
      • Shodan
      • BuiltWith
      • Searchcode
      • AlienVault
      • SpiderFoot
      • recon-ng
      • Flashpoint
      • Criminal IP
      • h8mail
      • Metagoofil
      • Scrapy
      • NexVision
      • Onyphe
    • Análisis forense digital
      • Lampyre
      • Maltego
      • Pastebin
      • Hunchly
      • Perma.cc
      • Forensically
    • Herramientas para programación
      • Selenium
  • Mediateca
    • Mediateca
      • Fuentes de información gubernamentales Colombianas
      • Enlaces
      • Herramientas osintux
        • Creepy
        • Crunchbase
        • Belati
        • ExifTool
        • Geoip
        • Glassdoor
        • Google Hacking Database
        • Infoga – Email Information Gathering
        • KnowEm
        • OpenCorporates
        • Socialmention
        • YouGetSignal
        • Whois
    • Cicada 3301
    • Donjon DR
    • El laboratorio de Duke
    • Bellingcat
    • The Intercept
    • Forensic Architecture
    • Hunting Threats on Twitter
    • Cyber Threat Intelligence (CTI)
    • OPEC
    • OSINTDojo
    • Odin
    • Reflets.info
    • Exposing the Invisible
    • OSINT-FR
    • Google Research
    • C4ADS
  • Glosario
  • Caso práctico
    • Consejos
    • Osintracker
    • Ejercicios
      • PLE
      • Capture the Flag (CTF)
      • Búsqueda avanzada en Google
      • Análisis de metadatos
      • Generar identidades falsas
      • Brave y TOR
      • Add-on
      • Anti Money Laundering
      • Análisis de campañas de desinformación
      • Contratación pública
Osint
  • Cybercol
    • Disclaimer
    • Presentación
    • Historia
    • Applicaciones
    • Recuperación de evidencias digitales
      • Algunas herramientas de recuperación de evidencias digitales
    • Conocimiento / Saberes
    • Requerimientos
    • La multifacética utilidad de OSINT en el panorama moderno
  • Las bases
    • Dónde empesar
    • Metodología de recolección de datos en OSINT
    • Fuentes de información abiertas
      • Fact-checking
        • Fake news
        • Desinformación
        • TrustServista
        • Invid
    • Clasificación de la Información
    • Motores y Meta-Motores
      • Importancia de los motores de búsqueda
      • Untitled page
      • Google Dorks
        • Sintaxis de Google Dorks
    • Conexión más seguras
    • Add-on
    • Los Metadatos
      • raw header
      • Open Semantic Search
    • Bases de datos y repositorios de información
    • Distribuciones Linux orientadas a OSINT
    • Licencias
    • Privacidad
    • Doxing
    • Wayback Machine
    • Framework OSINT
    • IntelX Tools
    • Inteltechniques
    • Social Links
    • Desvelando secretos
  • Sectores impactados
    • Sectores
      • Sector periodístico
        • Recursos para periodistas
      • Sector académico
      • Sector de análisis forense
      • Sector empresarial
      • Sector seguridad
      • CiberInteligencia
  • Tipos de OSINT
    • Tipos de OSINT
      • HumInt
      • DarkInt
      • Cybint/DNINT
      • SigInt
      • MasInt
      • TechInt
      • FinInt
        • BlockInt
        • GraphSense-Maltego-transform
      • GeoInt
        • GeoINT
          • Ventusky
          • Overpass turbo
          • SunCalc
          • GeoInt Localisator
          • E-O Browser
      • SocmInt
        • El Web Scraping
        • Análisis de Redes Sociales
        • Investigación SOCmint
      • Recom
      • CrimInt
        • IBM i2 Analyst's Notebook
        • Palantir Gotham
      • ImInt
      • Domex
      • BEI
      • MEDINT
  • Herramientas
    • Adaptabilidad y espectro de herramientas OSINT
    • Rastradores de tránsito
      • Global Fishing Watch
        • Global Integrated Shipping Information System (GISIS)
      • MarineTraffic
      • VesselFinder
      • Airfleets
      • OpenRailwayMap
      • ADSB Exchange
      • Flightradar24
      • WikiRoutes
      • License Plate Mania
    • Visualización de datos
      • Datawrapper
      • DataBasic
      • Rawgraphs
      • Time.Graphics
    • Análisis de datos personales y digitales
      • Have I Been Pwned?
      • Hunter
      • DeHashed
      • Holehe
      • Lusha
      • pipl
      • PhoneInfoga
      • Epieos
      • TrueCaller
      • Maigret
      • WhatsMyName
      • PimEyes
      • TinEye
      • Findclone
      • Kaspr
      • GHunt
      • Otras
        • Facebook
    • Análisis de empresas
      • Offshore leaks database
      • Opencorporate
      • Seon
    • Pentesting
      • TheHarvester
      • Shodan
      • BuiltWith
      • Searchcode
      • AlienVault
      • SpiderFoot
      • recon-ng
      • Flashpoint
      • Criminal IP
      • h8mail
      • Metagoofil
      • Scrapy
      • NexVision
      • Onyphe
    • Análisis forense digital
      • Lampyre
      • Maltego
      • Pastebin
      • Hunchly
      • Perma.cc
      • Forensically
    • Herramientas para programación
      • Selenium
  • Mediateca
    • Mediateca
      • Fuentes de información gubernamentales Colombianas
      • Enlaces
      • Herramientas osintux
        • Creepy
        • Crunchbase
        • Belati
        • ExifTool
        • Geoip
        • Glassdoor
        • Google Hacking Database
        • Infoga – Email Information Gathering
        • KnowEm
        • OpenCorporates
        • Socialmention
        • YouGetSignal
        • Whois
    • Cicada 3301
    • Donjon DR
    • El laboratorio de Duke
    • Bellingcat
    • The Intercept
    • Forensic Architecture
    • Hunting Threats on Twitter
    • Cyber Threat Intelligence (CTI)
    • OPEC
    • OSINTDojo
    • Odin
    • Reflets.info
    • Exposing the Invisible
    • OSINT-FR
    • Google Research
    • C4ADS
  • Glosario
  • Caso práctico
    • Consejos
    • Osintracker
    • Ejercicios
      • PLE
      • Capture the Flag (CTF)
      • Búsqueda avanzada en Google
      • Análisis de metadatos
      • Generar identidades falsas
      • Brave y TOR
      • Add-on
      • Anti Money Laundering
      • Análisis de campañas de desinformación
      • Contratación pública
  • More
    • Cybercol
      • Disclaimer
      • Presentación
      • Historia
      • Applicaciones
      • Recuperación de evidencias digitales
        • Algunas herramientas de recuperación de evidencias digitales
      • Conocimiento / Saberes
      • Requerimientos
      • La multifacética utilidad de OSINT en el panorama moderno
    • Las bases
      • Dónde empesar
      • Metodología de recolección de datos en OSINT
      • Fuentes de información abiertas
        • Fact-checking
          • Fake news
          • Desinformación
          • TrustServista
          • Invid
      • Clasificación de la Información
      • Motores y Meta-Motores
        • Importancia de los motores de búsqueda
        • Untitled page
        • Google Dorks
          • Sintaxis de Google Dorks
      • Conexión más seguras
      • Add-on
      • Los Metadatos
        • raw header
        • Open Semantic Search
      • Bases de datos y repositorios de información
      • Distribuciones Linux orientadas a OSINT
      • Licencias
      • Privacidad
      • Doxing
      • Wayback Machine
      • Framework OSINT
      • IntelX Tools
      • Inteltechniques
      • Social Links
      • Desvelando secretos
    • Sectores impactados
      • Sectores
        • Sector periodístico
          • Recursos para periodistas
        • Sector académico
        • Sector de análisis forense
        • Sector empresarial
        • Sector seguridad
        • CiberInteligencia
    • Tipos de OSINT
      • Tipos de OSINT
        • HumInt
        • DarkInt
        • Cybint/DNINT
        • SigInt
        • MasInt
        • TechInt
        • FinInt
          • BlockInt
          • GraphSense-Maltego-transform
        • GeoInt
          • GeoINT
            • Ventusky
            • Overpass turbo
            • SunCalc
            • GeoInt Localisator
            • E-O Browser
        • SocmInt
          • El Web Scraping
          • Análisis de Redes Sociales
          • Investigación SOCmint
        • Recom
        • CrimInt
          • IBM i2 Analyst's Notebook
          • Palantir Gotham
        • ImInt
        • Domex
        • BEI
        • MEDINT
    • Herramientas
      • Adaptabilidad y espectro de herramientas OSINT
      • Rastradores de tránsito
        • Global Fishing Watch
          • Global Integrated Shipping Information System (GISIS)
        • MarineTraffic
        • VesselFinder
        • Airfleets
        • OpenRailwayMap
        • ADSB Exchange
        • Flightradar24
        • WikiRoutes
        • License Plate Mania
      • Visualización de datos
        • Datawrapper
        • DataBasic
        • Rawgraphs
        • Time.Graphics
      • Análisis de datos personales y digitales
        • Have I Been Pwned?
        • Hunter
        • DeHashed
        • Holehe
        • Lusha
        • pipl
        • PhoneInfoga
        • Epieos
        • TrueCaller
        • Maigret
        • WhatsMyName
        • PimEyes
        • TinEye
        • Findclone
        • Kaspr
        • GHunt
        • Otras
          • Facebook
      • Análisis de empresas
        • Offshore leaks database
        • Opencorporate
        • Seon
      • Pentesting
        • TheHarvester
        • Shodan
        • BuiltWith
        • Searchcode
        • AlienVault
        • SpiderFoot
        • recon-ng
        • Flashpoint
        • Criminal IP
        • h8mail
        • Metagoofil
        • Scrapy
        • NexVision
        • Onyphe
      • Análisis forense digital
        • Lampyre
        • Maltego
        • Pastebin
        • Hunchly
        • Perma.cc
        • Forensically
      • Herramientas para programación
        • Selenium
    • Mediateca
      • Mediateca
        • Fuentes de información gubernamentales Colombianas
        • Enlaces
        • Herramientas osintux
          • Creepy
          • Crunchbase
          • Belati
          • ExifTool
          • Geoip
          • Glassdoor
          • Google Hacking Database
          • Infoga – Email Information Gathering
          • KnowEm
          • OpenCorporates
          • Socialmention
          • YouGetSignal
          • Whois
      • Cicada 3301
      • Donjon DR
      • El laboratorio de Duke
      • Bellingcat
      • The Intercept
      • Forensic Architecture
      • Hunting Threats on Twitter
      • Cyber Threat Intelligence (CTI)
      • OPEC
      • OSINTDojo
      • Odin
      • Reflets.info
      • Exposing the Invisible
      • OSINT-FR
      • Google Research
      • C4ADS
    • Glosario
    • Caso práctico
      • Consejos
      • Osintracker
      • Ejercicios
        • PLE
        • Capture the Flag (CTF)
        • Búsqueda avanzada en Google
        • Análisis de metadatos
        • Generar identidades falsas
        • Brave y TOR
        • Add-on
        • Anti Money Laundering
        • Análisis de campañas de desinformación
        • Contratación pública

Scrapy https://scrapy.org/ 

Scrapy

Scrapy es un framework de aplicación web de código abierto y alta eficiencia para rastreo web (web crawling) y extracción de datos (scraping) de sitios web. 

https://scrapy.org/

Escrito en Python, está diseñado para realizar scraping de manera rápida y sencilla, permitiendo a los desarrolladores construir aplicaciones de rastreo que recolectan datos estructurados de diversas fuentes en internet. Es ampliamente utilizado para proyectos de recopilación de datos en la web, desde análisis de mercado hasta monitorización de contenido web y investigación de OSINT.


Características principales:

  • Flexible y poderoso: Ofrece un diseño modular que permite a los desarrolladores personalizar y extender sus funcionalidades para adaptarse a una amplia gama de necesidades de rastreo y scraping.

  • Manejo eficaz de solicitudes: Utiliza un sistema asincrónico para manejar solicitudes y respuestas, optimizando el uso de recursos y mejorando el rendimiento del scraping.

  • Extensible: A través de su arquitectura basada en plugins, los usuarios pueden agregar nuevas funcionalidades o modificar el comportamiento del framework.

  • Soporte para exportación de datos: Permite la exportación de datos recolectados en varios formatos, como JSON, CSV, y XML, facilitando la integración con sistemas de análisis de datos.

  • Middleware y extensiones: Incluye soporte para middleware y extensiones que permiten a los usuarios añadir funcionalidades como proxies, manejo de cookies, y mucho más.


Uso en OSINT:

En el contexto de la Inteligencia de Fuentes Abiertas (OSINT), Scrapy se utiliza para:

  • Automatizar la recopilación de datos de sitios web públicos, incluyendo noticias, publicaciones en foros, y registros públicos.

  • Realizar seguimiento y análisis de tendencias en línea mediante la recolección de datos sobre eventos específicos, temas o individuos.

  • Extraer información de contacto, perfiles profesionales, y otro tipo de datos relevantes para investigaciones.


Consideraciones:

  • Curva de aprendizaje: Aunque Scrapy es una herramienta poderosa, los usuarios nuevos pueden enfrentar una curva de aprendizaje al comenzar con el framework, especialmente si son nuevos en Python o en el scraping web.

  • Respeto por los términos de uso: Es crucial utilizar Scrapy de manera ética, respetando los términos de servicio y las políticas de robots.txt de los sitios web desde los cuales se extraen datos.

  • Aspectos legales y éticos: La extracción de datos web puede plantear cuestiones legales y éticas, por lo que es importante considerar la legalidad y el impacto potencial de las actividades de scraping.


Acceso y licencia: Scrapy es de código abierto y se distribuye bajo la licencia BSD, permitiendo su uso, modificación, y distribución tanto en proyectos personales como comerciales. Está disponible para su descarga e instalación a través de pip, el sistema de gestión de paquetes de Python.


Para obtener más información, documentación detallada, y acceso a la comunidad de Scrapy, visite el sitio web oficial y el repositorio en GitHub. https://github.com/scrapy/scrapy

Google Sites
Report abuse
Page details
Page updated
Google Sites
Report abuse