Crawling1

네이버 랭킹 뉴스 크롤링

1. 수집 내용

1) 많이 본 뉴스 – 섹션별 (정치 ~ IT/과학) Top5 기사 제목, 신문사, 뷰

2) 해당 기사별 기사 내용, 리액션 (좋아요 ~ 후속기사 원해요)

2. 수집 방법 (택 1)

1) [기본] Requests , BeautifulSoup, Selenium

2) [심화] Requests, BeautifulSoup (+ 멀티프로세싱)

3. 수집 범위 및 저장

1) 2019년 7월 21일 ~ 2020년 8월 20일 (동작 가능, 실제 구동 x )

2) 하나의 파일로 저장 (방식 자유)

3) Ex) 총 6 섹션 * Top 5 * 365일 = 10950 rows

주의 사항 및 발전 사항

1. ❗ 코드로 동작 가능하되 실제 파일로 저장은 하지 않아도 됨!

너무 큰 파일의 경우 git에 올릴 때 오류가 발생할 수 있음 (15MB를 넘었다면 .gi*gnore에 추가 혹은 삭제)

2. ✅ 심화 방법 사용 시 가점 (만약 기본과 속도 비교까지 한다면 무조건 우수과제)

3. ✅ Top 5 초과로 수집 시 가점

4. ✅ 댓글 (글쓴이, 추천, 비추, 내용, 과거 이력) 까지 수집 시 가점

댓글까지 수집한다면 댓글은 다른 파일로 저장하는게 좋습니다! 물론 어느 기사에 대한 것인지 정보를 같이 포함해야 합니다.

Page updated

Google Sites

Report abuse