챗gpt만 있다면 코딩 없이도 원하는 웹 페이지를 쉽게 크롤링할 수 있게 되었습니다. 간단한 프롬프팅만으로 다양한 정보를 크롤링해 보세요.
챗GPT 4 모델이 최근 업데이트를 하며 기존 분석, 연산 도구에 마이크로소프트사의 빙(Bing) 검색 엔진을 내부 툴로 장착해 더 똑똑한 검색 기능을 제공하고 있습니다.
바로 이 Bing 엔진으로 프롬프팅 만으로 뉴스 기사를 크롤링하는 방법을 알아보겠습니다.
챗GPT로 크롤링을 할 수 없는 이유?
챗GPT는 웹사이트에 대한 http 요청을 통해 정보를 수집 및 분석하지 않습니다. 이유로는 개인정보 보호와 사이트 정책 준수 등이 있습니다.
우리가 보는 대부분의 웹사이트는 http로 시작하는데요, 이렇게 들어오는 요청을 챗GPT가 걸러 내 결과적으로는 웹 크롤링이 불가한 것이지요.

->
이렇게 직접적으로 “OOO을 크롤링해줘”라는 질문에 챗GPT는 웹 크롤링을 지원하지 않는다고 답합니다.
방법 없는 건 아냐, ‘우회로’를 찾아보자.
그렇다면, 챗GPT로 웹 페이지를 크롤링할 수 있는 방법은 없는 걸까요?
기초적인 코딩으로 크롤링을 할 수 있겠지만, 컴퓨터 관련 전문 지식이 없는 사람이 하기엔 복잡하고 번거로운 일이죠.
그러나 똑똑한 우리의 챗GPT, 최근자 업데이트에서 마이크로소프트(MS)사의 빙(Bing) 검색을 내부에 장착했습니다.
이 기능이 크롤링에 있어 엄청나게 도움이 되는 이유는 바로 실시간 검색 결과를 챗GPT의 답변에 반영할 수 있어서입니다.
그렇다면, 어떻게 챗GPT로 크롤링을 할 수 있을까요? 바로 알아보겠습니다.
챗GPT로 크롤링하기
- ChatGPT 로그인한다.
- GPT-4 엔진을 선택한다 *유료 플랜(ChatGPT Plus) 구독 필요.
- 크롤링 프롬프트를 입력합니다(아래에 공유함).
OpenAI 계정으로 로그인
가장 먼저 챗GPT에 로그인해 주세요.
챗GPT 사이트 주소는 chat.openai.com 이고요. 사이트에 들어가면 아래의 로그인 화면을 확인할 수 있습니다.

만약, 챗GPT를 처음 사용한다면 Sign Up을 클릭해 회원가입을 해주시고요.
이미 오픈AI의 회원이라면 Log in을 누르시면 됩니다.
로그인을 하면 아래와 같은 화면이 확인됩니다.

ChatGPT 인터페이스 설명(사진 속 노란색 박스 표시)
New Chat
새로운 채팅을 시작할 수 있습니다.
1개의 채팅 창에서는 여러 메시지를 입력하더라도 이전에 입력한 내용을 반영해 답변해 주는 경향이 있습니다. 때문에 다음에 또 사용하고 싶은 프롬프트를 작성 중이라면 늘 새로운 챗을 열어 시도해보시면 조금 더 일정한 답변을 얻을 수 있습니다.
ChatGPT 3.5
챗GPT 모델을 선택합니다. 3.5를 4로 바꿔주세요.
2023년 11월 기준 챗GPT 기본 모델은 ChatGPT-3.5 입니다.
현재 4.0 터보 모델까지 출시 되었으나, 터보 모델은 엔터프라이즈용(개발자/기업 등이 사용)이라 일반적으로는 3.5나 4.0을 사용하면 됩니다.
(주의) 뉴스 크롤링을 위해서는 GPT4 모델을 써야 합니다. MS-Bing 검색 엔진을 활용하기 위해서죠. 최신 모델은 ChatGPT Plus라는 유료 플랜 구독자에게만 제공됩니다.
Message ChatGPT…
챗GPT에게 명령할 메시지를 입력합니다.
메시지 창에 아래의 크롤링 프롬프트를 그대로 붙여넣기한 뒤 <헤더> 옆에 기사 제목을 그대로 붙여 넣으면 됩니다.
(Tip) 이 때 쓰는 메시지를 프롬프트(Prompt)라고 부르는데요, 의미 그대로 명령어를 말합니다.
크롤링 프롬프트(ChatGPT-4 기준)
- 크롤링
Bing으로 <헤더>를 변경하지 말고 그대로 검색 OR 조건 아니고 AND 조건으로 검색. <헤더>가 완전히 일치하는 1개만 찾을 것. 반드시 #1 #2 #3 #4 순서대로 차근차근 step by step 쉼호흡하고 처리. 한국어로 출력. 토큰 사용 개수 제한 없음 모자랄 경우 연속 생성(continue generating)으로 프롬프트에 충실하게 처리.
<헤더>
결과물(예시)
이 프롬프트를 적용하고, 원하는 출력 양식을 프롬프팅해주면 아래와 같은 결과물을 얻을 수 있습니다.
