1. 크롤링
크롤링은 웹 페이지를 자동으로 돌며 웹 페이지의 링크를 추출하고, 이를 기반으로 다른 페이지로 이동하면서 데이터를 수집하는 프로세스입니다. 크롤러 또는 스파이더라고 불리는 프로그램이 여러 웹 페이지를 돌며 데이터를 수집하는 것이 크롤링의 핵심입니다
2. 스크래핑
스크래핑은 특정 웹 페이지에서 필요한 데이터를 추출하는 과정을 의미합니다. 크롤링으로 얻은 여러 웹 페이지 중에서 스크래핑을 통해 원하는 정보만을 추출하여 활용할 수 있습니다. 스크래핑은 HTML 태그를 분석하고 원하는 데이터를 추출하는 기술을 사용합니다
3. 크롤링의 스크래핑의 차이
목적
- 크롤링: 다수의 웹 페이지를 돌며 링크를 추출하고 새로운 페이지로 이동하는 것이 주된 목적입니다
- 스크래핑: 특정 웹 페이지에서 필요한 데이터를 추출하는 것이 주된 목적입니다
프로세스
- 크롤링: 여러 웹 페이지를 돌며 링크를 추출하고 새로운 페이지로 이동하여 계속해서 데이터를 수집합니다
- 스크래핑: 특정 웹 페이지의 HTML을 분석하여 원하는 데이터를 추출합니다
데이터의 규모
- 크롤링: 대량의 데이터를 수집하는 데 주로 사용되며, 다양한 웹 페이지를 대상으로 합니다
- 스크래핑: 특정 웹 페이지에서 소량의 데이터를 추출하는 데 주로 사용되며, 목적에 맞게 정확한 정보를 추출합니다
기술적 측면
- 크롤링: 링크 추출, 다중 페이지 이동, 로봇 배제 프로토콜 등이 중요한 기술입니다
- 스크래핑: HTML 파싱, 정규표현식, 데이터 추출 알고리즘 등이 중요한 기술입니다
'-- 기타 -- > 일반 개념' 카테고리의 다른 글
[CDN] Content Delivery Network(콘텐츠 전송 네트워크) (0) | 2024.01.18 |
---|---|
[프로그래밍] 응집도와 결합도 (0) | 2024.01.10 |
[개발 문서] 프로그래밍 개발 시 필요한 명세서 종류 (0) | 2023.12.20 |
[객체 지향 프로그래밍] 상속, 캡슐화, 다형성, 추상화 (0) | 2023.12.14 |
[개념 정리] 멀티스레드 동시성과 병렬성 (0) | 2023.12.13 |