티스토리 뷰

친구중에 외부에 검색이 안되서 주소를 알아야만 올수 있으면 좋겠다는 친구가 있다.

일종의 싸이월드 보다는 오픈형이지만, 검색은 안되었으면 좋겠다는 두가지 장단점을 합쳤으면 하는 그런 요구사항인거 같다. 사실 기술적으로만 보면  수집을 완벽히 막는건 불가능하다.


하지만, 웹데이터를 수집하는 크롤러에서는 사용자가 수집을 막았다는 의사표시를 했다면, 수집해서는 안된다.

그래서 이런 규칙을 맞춰놓으면 검색엔진에서 수집하는걸 방지할수 있다

어떻게 막는다는거지?

요즘엔 신문을 웹을 통해서 보지만, 옛날엔 종이신문이 직접 배달왔다. 

문제는 일단 넣어두고 돈달라고 하는 이상한 영업(?)이 존재하던 시절이 이었다. 그래서 "신문사절" 이라는 글귀를 대문에 붙여놓고 신문넣지 말라고 하고, 돈받으러오면 이거 못봤냐고 따지고 그러던 파이팅(?)이 넘치던때가 있었다.


잡설이 길었는데, 이런것처럼 웹크롤러에서 수집해가지 말라고 robots.txt 라는 파일에 수집허용/불가 관련 정보를 넣어주면 된다. 그럼 구글이나 네이버에서 수집하다가 이 컨텐츠는 가져가면 안되구나!  하고 수집을 하지 않는 원리이다.


파일 작성하는 방법은 wiki를 참고하자. 

https://ko.wikipedia.org/wiki/%EB%A1%9C%EB%B4%87_%EB%B0%B0%EC%A0%9C_%ED%91%9C%EC%A4%80


잠깐, 티스토리는?

robots.txt 파일을 만들어서 올리면 되는데, 티스토리는 내가 파일을 올릴수 없다. 저건 홈페이지 서버를 내가 직접 관리할때만 가능한팁. 대신 head 태그에 meta 정보를 추가하면 수집을 막을수 있다.


네이버 고객센터에 정리가 잘 되어있는데 참고하면 되는데 잘 모르겠지?

https://help.naver.com/support/contents/contents.nhn?serviceNo=606&categoryNo=1947


참고로 티스토리에서 관리페이지에가서 <head></head> 태그 사이에이 내용을 추가한후 [저장] 하라는 의미이다.



<meta name="robots" content="noindex, nofollow"/>




보통 크롤러에서 다시 수집하는 시점에 반영될테니, 빠르면 몇일 느리면 몇주이상 걸릴것이다.

참고로 noindex 는 문서를 긁어가지 말라는 의미고, nofollow는 링크를 확인해 긁는것도 불허한다는 의미란다.


당연한 말이지만, 티스토리에서 글쓸때 오른쪽에 저장할때 주제 선택을 해서도 안된다.

설명글을 읽어 보면 알겠지만, 주제 선택시 외부 서비스로 글을 전파(?) 함.


Ps. 물론 나는 검색되는걸 좋아해서 이런 설정을 하지는 않는다 ㅋㅋ

공유하기 링크
댓글
공지사항