HyunsooZo's TIL logo HyunsooZo's TIL

Web Scraping?

웹 스크래핑(Web scraping)은 웹사이트에서 정보를 자동으로 추출하는 과정을 의미함. 이는 프로그램을 작성하거나 전문 도구를 사용하여 웹 페이지에 접근하고 데이터를 가져오며, 해당 데이터를 저장하거나 분석하는 등 다양한 목적으로 사용됨.
Scraping 과정
HTML 문서를 받은 후 -> 문서를 Parsing 해서 -> 필요한 데이터를 추출
                +-------------------+
+--------+ req  | +------+ req +--+ |
|scraping| ---->| |web   | --> |DB| |
|server  | <----| |server| <-- |  | |
+--------+ res  | +------+ res +--+ |
                +-------------------+

단!!, 무분별한 스크래핑은 요청서버에 부하를 줄수 있으므로 robots.txt를 확인하고, 그에 정의된 규칙을 준수, 요청서버에 무리가 가지 않는 선에서 진행해야 한다.

TOP