Crawling1


  1. 요구사항

네이버 랭킹 뉴스 크롤링

1. 수집 내용

1) 많이 본 뉴스 – 섹션별 (정치 ~ IT/과학) Top5 기사 제목, 신문사, 뷰

2) 해당 기사별 기사 내용, 리액션 (좋아요 ~ 후속기사 원해요)

2. 수집 방법 (택 1)

1) [기본] Requests , BeautifulSoup, Selenium

2) [심화] Requests, BeautifulSoup (+ 멀티프로세싱)

3. 수집 범위 및 저장

1) 2019년 7월 21일 ~ 2020년 8월 20일 (동작 가능, 실제 구동 x )

2) 하나의 파일로 저장 (방식 자유)

3) Ex) 총 6 섹션 * Top 5 * 365일 = 10950 rows


주의 사항 및 발전 사항

1. ❗ 코드로 동작 가능하되 실제 파일로 저장은 하지 않아도 됨!

너무 큰 파일의 경우 git에 올릴 때 오류가 발생할 수 있음 (15MB를 넘었다면 .gi*gnore에 추가 혹은 삭제)

2. ✅ 심화 방법 사용 시 가점 (만약 기본과 속도 비교까지 한다면 무조건 우수과제)

3. ✅ Top 5 초과로 수집 시 가점

4. ✅ 댓글 (글쓴이, 추천, 비추, 내용, 과거 이력) 까지 수집 시 가점

댓글까지 수집한다면 댓글은 다른 파일로 저장하는게 좋습니다! 물론 어느 기사에 대한 것인지 정보를 같이 포함해야 합니다.

2. 우수 과제 선정 이유

  • 고급 파트라고 말씀드린 셀레니움을 사용하지 않는 방법으로 진행해주셨습니다.

  • 멀티 쓰레딩, 프로세싱 등 고성능을 위한 기법까지 추가적으로 잘 사용해주셨습니다.

  • 마크다운을 이용해 보기 편하게 해주신 점 또한 매우 좋았습니다.

  • List Comprehension도 깔끔하게 사용하여 가독성도 좋았습니다.


3. 제출 과제 (14기 강의정님)