Crawling1
- 요구사항
네이버 랭킹 뉴스 크롤링
1. 수집 내용
1) 많이 본 뉴스 – 섹션별 (정치 ~ IT/과학) Top5 기사 제목, 신문사, 뷰
2) 해당 기사별 기사 내용, 리액션 (좋아요 ~ 후속기사 원해요)
2. 수집 방법 (택 1)
1) [기본] Requests , BeautifulSoup, Selenium
2) [심화] Requests, BeautifulSoup (+ 멀티프로세싱)
3. 수집 범위 및 저장
1) 2019년 7월 21일 ~ 2020년 8월 20일 (동작 가능, 실제 구동 x )
2) 하나의 파일로 저장 (방식 자유)
3) Ex) 총 6 섹션 * Top 5 * 365일 = 10950 rows
주의 사항 및 발전 사항
1. ❗ 코드로 동작 가능하되 실제 파일로 저장은 하지 않아도 됨!
너무 큰 파일의 경우 git에 올릴 때 오류가 발생할 수 있음 (15MB를 넘었다면 .gi*gnore에 추가 혹은 삭제)
2. ✅ 심화 방법 사용 시 가점 (만약 기본과 속도 비교까지 한다면 무조건 우수과제)
3. ✅ Top 5 초과로 수집 시 가점
4. ✅ 댓글 (글쓴이, 추천, 비추, 내용, 과거 이력) 까지 수집 시 가점
댓글까지 수집한다면 댓글은 다른 파일로 저장하는게 좋습니다! 물론 어느 기사에 대한 것인지 정보를 같이 포함해야 합니다.
2. 우수 과제 선정 이유
고급 파트라고 말씀드린 셀레니움을 사용하지 않는 방법으로 진행해주셨습니다.
멀티 쓰레딩, 프로세싱 등 고성능을 위한 기법까지 추가적으로 잘 사용해주셨습니다.
마크다운을 이용해 보기 편하게 해주신 점 또한 매우 좋았습니다.
List Comprehension도 깔끔하게 사용하여 가독성도 좋았습니다.