오픈AI, 웹 크롤러 'GPT봇' 공개…크롤링 막는 방법은?
[디지털데일리 서정윤 기자] 오픈AI가 GPT 언어모델 학습에 필요한 데이터를 수집하는 새 웹크롤러를 공개했다. 인터넷에 공개된 데이터를 찾아 대형언어모델(LLM)에 넣는 과정을 단순화한 툴이다. 오픈AI는 크롤링을 차단하는 방법도 함께 안내했다.
10일(현지시간) 벤처비트 등 외신에 따르면 오픈AI는 최근 웹크롤러 'GPT봇'을 공개했다. 웹크롤러란 방대한 웹페이지에서 각종 정보를 자동으로 수집하는 걸 뜻한다. 자동으로 데이터를 찾아오기 때문에 LLM 학습 데이터를 확보하기 쉬워진다.
오픈AI는 "GPT봇은 유료 구독을 요구하거나 개인식별정보를 수집해 오픈AI 정책을 위반하는 웹페이지를 걸러낸다"고 설명했다. 웹사이트 운영자는 사이트의 특정 부분만 크롤링하도록 허용하는 등 GPT봇의 접근을 맞춤화하거나 차단할 수 있다.
GPT봇의 일부 접근만 허용하기 위해서는 'robots.txt', 'Allow: /'directory-1/', 'Disallow: /directory-2/' 등에 GPT봇을 추가하고 필요에 따라 사이트의 특정 부분만 크롤링하도록 허용하면 된다.
만약 GPT봇을 완전 차단하고 싶다면 사이트의 'robots.txt'와 'Disallow: /'에 GPT봇 토큰을 추가하면 된다.
이해진 네이버 의장, 트럼프 주니어와 30일 만난다… AI 기술 협력 논의하나
2025-04-29 19:05:59IPX, ‘서울스프링페스타’ 참여…명동부터 타임스퀘어까지 라인프렌즈 알린다
2025-04-29 17:36:00'SKT 유심 해킹' 불안 증폭… 금융 당국, 30일 오전 비상대응회의 개최
2025-04-29 17:35:17게임산업 위기론 고조…조영기 게임산업협회장 역량 ‘시험대’
2025-04-29 17:32:41