Crawling2

네이버 랭킹 뉴스 크롤링

1. 수집 내용

1) 많이 본 뉴스 – 섹션별 (정치 ~ IT/과학) Top5 기사 제목, 신문사, 뷰

2) 해당 기사별 기사 내용, 리액션 (좋아요 ~ 후속기사 원해요)

2. 수집 방법 (택 1)

1) [기본] Requests , BeautifulSoup, Selenium

2) [심화] Requests, BeautifulSoup (+ 멀티프로세싱)

3. 수집 범위 및 저장

1) 2019년 7월 21일 ~ 2020년 8월 20일 (동작 가능, 실제 구동 x )

2) 하나의 파일로 저장 (방식 자유)

3) Ex) 총 6 섹션 * Top 5 * 365일 = 10950 rows

주의 사항 및 발전 사항

1. ❗ 코드로 동작 가능하되 실제 파일로 저장은 하지 않아도 됨!

너무 큰 파일의 경우 git에 올릴 때 오류가 발생할 수 있음 (15MB를 넘었다면 .gi*gnore에 추가 혹은 삭제)

2. ✅ 심화 방법 사용 시 가점 (만약 기본과 속도 비교까지 한다면 무조건 우수과제)

3. ✅ Top 5 초과로 수집 시 가점

4. ✅ 댓글 (글쓴이, 추천, 비추, 내용, 과거 이력) 까지 수집 시 가점

댓글까지 수집한다면 댓글은 다른 파일로 저장하는게 좋습니다! 물론 어느 기사에 대한 것인지 정보를 같이 포함해야 합니다.

셀레니움 / Request만 이용(고급) 모두를 사용해주셔서 둘의 시간까지 비교해주셨습니다.
1년치 기사 크롤링에 걸리는 시간을 총 1시간 39분 (셀레니움)에서 2분 45초(멀티프로세싱)로 30배 넘게 단축 시켜낸 점이 탁월하였습니다.
다만 마크다운이나 따로 문서화가 안되어있어 일일이 찾아야하는 점이 약간 아쉬웠습니다.

Page updated

Google Sites

Report abuse