Home > Engenharia de Dados > Web Scraping
Para visualizar o projeto na íntegra e ter acesso ao código fonte, acesse o perfil do projeto no Github.
Arquivo Leia-me:
(To see the English version click here.)
Arquivo .gitignore
Arquivo requirements.txt
asttokens==2.4.1
attrs==23.2.0
Automat==22.10.0
certifi==2024.7.4
cffi==1.16.0
charset-normalizer==3.3.2
comm==0.2.2
constantly==23.10.4
cryptography==42.0.8
cssselect==1.2.0
debugpy==1.8.2
decorator==5.1.1
defusedxml==0.7.1
executing==2.0.1
filelock==3.15.4
hyperlink==21.0.0
idna==3.7
incremental==22.10.0
ipykernel==6.29.5
ipython==8.26.0
itemadapter==0.9.0
itemloaders==1.3.1
jedi==0.19.1
jmespath==1.0.1
jupyter_client==8.6.2
jupyter_core==5.7.2
lxml==5.2.2
matplotlib-inline==0.1.7
nest-asyncio==1.6.0
numpy==2.0.0
packaging==24.1
pandas==2.2.2
parsel==1.9.1
parso==0.8.4
pexpect==4.9.0
platformdirs==4.2.2
prompt_toolkit==3.0.47
Protego==0.3.1
psutil==6.0.0
ptyprocess==0.7.0
pure_eval==0.2.3
pyasn1==0.6.0
pyasn1_modules==0.4.0
pycparser==2.22
PyDispatcher==2.0.7
Pygments==2.18.0
pyOpenSSL==24.1.0
python-dateutil==2.9.0.post0
pytz==2024.1
pyzmq==26.0.3
queuelib==1.7.0
requests==2.32.3
requests-file==2.1.0
Scrapy==2.11.2
service-identity==24.1.0
setuptools==71.0.2
six==1.16.0
stack-data==0.6.3
tldextract==5.1.2
tornado==6.4.1
traitlets==5.14.3
Twisted==24.3.0
typing_extensions==4.12.2
tzdata==2024.1
urllib3==2.2.2
w3lib==2.2.1
wcwidth==0.2.13
zope.interface==6.4.post2
Código fonte:
Arquivo contendo o código Parse com as regras da raspagem de dados.
Arquivo .jsonl contendo os dados que foram adquiridos na fase de raspagem de dados.
Arquivo Jupyter com a primeira fase de limpeza e organização dos dados adquiridos.
Arquivo Python, feito a partir do arquivo Jupyter, contendo o código de transformação de dados, em formato de script .py
Resultado final da raspagem de dados, em uma base de dados SQL, mostrada no DBeaver.