티스토리 뷰
OSINT(Open Source Intelligence)정보수집
archive.org 활용
저장된 페이지 모음 사이트 : https://archive.org
웹사이트 크롤링 거부 = robots.txt 파일 수정
파일 위치 : http://[ServerIP]/robots.txt
ex) Archive 수집 거부
User-agent: ia_archiver
Disallow: /
ex) 모든 검색엔진 수집 허용
User-agent: *
Disallow: /
ex) 네이버만 허용
User-agent: Yeti
Allow: /
ex) 구글 봇 /nogooglebot/ 차단
User-agent: Googlebot
Disallow: /nogooglebot/
알아 두면 좋은 robots.txt 규칙
다음은 알아 두면 좋은 몇 가지 일반적인 robots.txt 규칙입니다.
규칙 | 예시 |
---|---|
전체 웹사이트 크롤링 금지. 웹사이트의 URL이 크롤링된 적이 없어도 색인이 생성되는 경우가 있습니다. 참고: 이 규칙은 이름을 명시적으로 지정해야 하는 여러 AdsBot 크롤러에 적용되지 않습니다. | User-agent: *
Disallow: /
|
디렉토리 및 디렉토리에 포함된 내용의 크롤링 금지(디렉토리 이름 뒤에 슬래시 입력). 비공개 콘텐츠에 대한 액세스를 차단하는 데 robots.txt를 사용하면 안 됩니다. 대신 올바른 인증 방법을 사용하세요. robots.txt 파일을 통해 금지된 URL은 크롤링되지 않아도 색인이 생성될 수 있으며 robots.txt 파일은 누구나 볼 수 있으므로 비공개 콘텐츠의 위치가 공개될 수도 있습니다. | User-agent: *
Disallow: /calendar/
Disallow: /junk/
|
크롤러 하나에만 액세스 허용 | User-agent: Googlebot-news
Allow: /
User-agent: *
Disallow: /
|
하나를 제외한 모든 크롤러에 액세스 허용 | User-agent: Unnecessarybot
Disallow: /
User-agent: *
Allow: /
|
웹페이지 하나의 크롤링 금지(슬래시 뒤에 페이지 입력) | Disallow: /private_file.html |
Google 이미지의 특정 이미지 크롤링 차단 | User-agent: Googlebot-Image
Disallow: /images/dogs.jpg |
Google 이미지의 사이트 내 모든 이미지 크롤링 차단 | User-agent: Googlebot-Image
Disallow: / |
특정 형식의 파일 크롤링 금지(예: | User-agent: Googlebot
Disallow: /*.gif$ |
전체 사이트의 크롤링을 금지하지만 페이지에 애드센스 광고를 표시하는 경우 Mediapartners-Google을 제외한 모든 웹 크롤러 차단: 이를 통하여 검색결과에서 페이지를 숨길 수 있지만 Mediapartners-Google웹 크롤러가 숨겨진 페이지를 분석하여 내 사이트를 방문하는 사용자에게 어떤 광고를 표시할지 결정할 수 있습니다. | User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: / |
특정 문자열로 끝나는 URL에 적용($ 사용) 예를 들어 예시 코드는 .xls 로 끝나는 URL을 모두 차단합니다. | User-agent: Googlebot
Disallow: /*.xls$ |
https://support.google.com/webmasters/answer/6062596?hl=ko
'Hacking > 정보수집' 카테고리의 다른 글
FOCA (Fingerprinting Orqanization with Collected Archives) 구글 해킹 툴 (1) | 2019.03.26 |
---|---|
SHODAN 쇼단 활용 방법 (0) | 2019.03.26 |
OSINT recon-ng (0) | 2019.03.20 |
OSINT 정보 (0) | 2019.03.20 |
Comments