1. 크롤링

크롤링은 웹 페이지를 자동으로 돌며 웹 페이지의 링크를 추출하고, 이를 기반으로 다른 페이지로 이동하면서 데이터를 수집하는 프로세스입니다. 크롤러 또는 스파이더라고 불리는 프로그램이 여러 웹 페이지를 돌며 데이터를 수집하는 것이 크롤링의 핵심입니다

 

2. 스크래핑

스크래핑은 특정 웹 페이지에서 필요한 데이터를 추출하는 과정을 의미합니다. 크롤링으로 얻은 여러 웹 페이지 중에서 스크래핑을 통해 원하는 정보만을 추출하여 활용할 수 있습니다. 스크래핑은 HTML 태그를 분석하고 원하는 데이터를 추출하는 기술을 사용합니다

 

3. 크롤링의 스크래핑의 차이

목적

- 크롤링: 다수의 웹 페이지를 돌며 링크를 추출하고 새로운 페이지로 이동하는 것이 주된 목적입니다

- 스크래핑: 특정 웹 페이지에서 필요한 데이터를 추출하는 것이 주된 목적입니다

 

프로세스

- 크롤링: 여러 웹 페이지를 돌며 링크를 추출하고 새로운 페이지로 이동하여 계속해서 데이터를 수집합니다

- 스크래핑: 특정 웹 페이지의 HTML을 분석하여 원하는 데이터를 추출합니다

 

데이터의 규모 

- 크롤링: 대량의 데이터를 수집하는 데 주로 사용되며, 다양한 웹 페이지를 대상으로 합니다

- 스크래핑: 특정 웹 페이지에서 소량의 데이터를 추출하는 데 주로 사용되며, 목적에 맞게 정확한 정보를 추출합니다

 

기술적 측면

- 크롤링: 링크 추출, 다중 페이지 이동, 로봇 배제 프로토콜 등이 중요한 기술입니다

- 스크래핑: HTML 파싱, 정규표현식, 데이터 추출 알고리즘 등이 중요한 기술입니다

+ Recent posts