티스토리의 애드센스 계정을 붙이고, 이리저리 구글에 노출과 분석을 위한 툴들을 붙였다.
그.런.데. 얼마 뒤 메일이 하나 날아왔따.
'~~ 에 대해 제출된 URL에서 페이지 색인 생성 문제가 감지됨'
? 이게 무슨 말인가?
내 티스토리 블로그의 일부 글이 페이지 색인시 문제가 된다는 말이다.
페이지 색인? 무슨 말이지?
색인 또는 목록이라는 의미이며, 데이터를 기록할 경우 그 데이터의 이름, 데이터 크기 등의 속성과 그 기록 장소 등을 표로 표시하는 것. 즉 참조용의 데이터를 색인표 또는 인덱스라 한다. (1) 원(原) 정보 내용을 적절히 나타내는 정보를 추출하고, 원 정보 위치를 가리키는 참조 정보와 함께 나타낸 것. 추출하는 정보는 책명, 저자명 등의 서적 사항뿐만 아니라 자료의 기사 내용 을 나타내는 표제어나 기술어, 나아가 분류 기호에까지 미친다. 서적의 권말에 기사 내용을 포함한 색인이 붙어 있는 것도 많다. 도서관의 책명 카드, 저자명 카드, 근간 서적 리스트 등은 모두 색인이다. 저자명 색인, 책명 색인, 내용(주제) 색인 등 여러 가지 색인이 있다. (2) 표의 요소를 식별하는 번호. (3) 배열 중 요소 위치를 식별하기 위해 배열명 뒤에 덧붙인 것. (예) A1,100, M(I, J, K). 또 동일한 수의 배열(array) 중에 특정 수를 식별하기 위하여 사용하는 「첨자」의 의미도 있다. 예를 들면, X(5)는 배열 X(3)의 5번째이다. 한편 「지표」의 정의는 「데이터 외의 다른 항목에 관련하여 그 데이터 항목의 위치를 식별하는 정수값의 첨자」이다.
출처 : [네이버 지식백과] 색인 [index] (컴퓨터인터넷IT용어대사전, 2011. 1. 20., 전산용어사전편찬위원회)
https://terms.naver.com/entry.naver?docId=825626&cid=42344&categoryId=42344
어렵다.....
간단하게 말하면, 내가 쓴 글을 구글에 노출시키기 위해 내용을 구글내부에 이 블로그 글에 대해서 기록해야하는데 이 때 문제가 발생했을 수 있다는 말이다. 내가 쓴 글이 구글에 노출이 안될 수도 있다.
하.. 그럼 안되는데? 열심히 글 쓴 이유는 이걸 통해 사람들이 많은 도움을 받고, 나도 금융치료도 같이 받고자 하는거 아닌가!? 그런데 구글에서 검색했을때 내 글이 안나온다면 무슨의미인가? 아무리 열심히 써도 내용이 구글내 정리가 되지 않고 인터넷 공간에서 허공을 떠도는 미아신세가 될 수 있다는 말이다.
이 문제를 해결해 보고자 열심히 찾아본다.
내 블로그에 문제가 있으면 안되지 암암 !!
그런데 좀 이상하다.
색인 , 그러니까 내 글에 대해서 구글에 등록하려는 시도는 정상적으로 되었다는 말이다. 그런데 robots.txt에 의해 차단되었다고 나왔다. 그나마 '심각하지 않은 문제'라는 말이 나를 조금이나마 위안을 느끼게 했다. 혹시 그래도 무슨 내용일까 궁금해서 '자세히 알아보기' 버튼을 눌러보았다.
엄청 긴 구글의 안내페이지가 나타난다. 생각보다 구글을 많은 정보를 오픈하여 제공한다. 다만 그 내용이 가독성이나 가시성 좋게 보이진 않는다. 이쁘게 보여서 보기 좋게 하는 한국인의 정서와는 좀 맞지 않지만 그래도 내용을 잘 보고 있으면 해결책이 나온다.
여기서 나온 해결책은 2가지다.
1. robots.txt를 수정해라
2. robots.txt 테스터를 보고 어떤 점이 문제인지 한 번 봐라
여기서 robots.txt를 눌러 보면 아래 화면으로 넘어간다.
구글 서치 콘솔에서 어떤 부분이 이상한지 정확하게 알려준다.
Crawl-delay : 20 이 부분이 '경고'라는 메시지인것
이 내용도 구글링 해서 찾아보니 중복 크롤링으로 과부하가 되는 것을 방지하기 위해 설정해놓은 값이라고 한다. 이 부분을 지운다면 '경고'가 사라질 것으로 보여 이리 저리 시도해보았다. 하지만 결국 티스토리의 robots.txt는 수정할 수 없었다.
그런데 여러 블로그들을 보면 이걸 해결했다고 하는 잘못된 내용들이 퍼져있어 바로 잡으려 한다.
티스토리의 robots.txt는 수정할 수 없습니다!!!!!
수정하려고 여기저기 찾아보지 마세요 !
1. 파일업로드로 robots.txt 를 올려 수정한다(?)
가장 많이 보인 해결 책 중 스킨편집 > 파일 업로드를 통해 robots.txt를 수정한다는 내용이다.
이 내용은 완전히 잘못됐다.
[ 이 글 ] 을 클릭 하여 각종 txt가 하는 일에 대해서 확인해보자
티스토리는 네이버블로그와 다르게 직접 html 을 수정할 수 있는 기능을 제공한다. 이와 더불어 이미지나 파일들을 직접 업로드 하여, 그 파일을 활용할 수 도 있다. 이 방법을 통해 robots.txt를 바꿀 수 있다는 내용의 글들이 아주 많이 보인다. 하지만 그 사람들은 놓친부분이 있다. 바로 '파일의 경로' 이다.
html을 직접 수정할 수 있는 경로로 우선 들어가보자.
티스토리 관리 > 꾸미기 > 스킨편집 > html 편집
여기서 '파일업로드' 탭을 보면 파일을 직접 올릴 수 있다.
이 곳에 직접 만든 robots.txt를 올리면 'image/robots.txt'라고 나와 있는걸 알 수 있다.
이 때 파일의 경로는 이 블로그를 기준으로
http://chanchul.tistory.com/images/robots.txt 가 된다.
하지만 !!!!
각종 크롤러의 설정을 담고 있는 파일의 경로는
http://chanchul.tistory.com/robots.txt 이다.
생각보다 컴퓨터나 봇은 멍청하다. 정확한 경로에 설정파일이 없다면 알아서 유추해서 가져오지 않는다. txt파일은 해당 도메인(블로그나 홈페이지의 주소) 최상단에 위치하고 있어야 정확하게 내용을 가져가 사용할 수 있다. 첫번 째 주소처럼 중간에 경로가 추가된 형태라면 봇은 동일한 이름의 파일이라 하더라도 내용을 가져가서 확인할 수 없는 것이다.
예를 들어 홍길동씨라는 이름은 아주 많다.
역삼동 1번지에도 살고 역삼동 2번지에도 산다.
또 역삼동 1-1번지에도 산다.
동사무소 직원이 홍길동씨를 조사해서 나에 대한 평판을 확인한다고 한다.
그래서 나는 여러명의 홍길동씨 중 한 명을 불러 나에 대해 이렇게 얘기해달라고 일러주었따.
동사무소 직원은 역삼동 1번지의 홍길동씨를 찾아 조사해야한다.
우리가 열심히 내용을 일러주고 교육시킨 사람은 역삼동 1번지 홍길동씨인줄 알았는데 알고보니 1-1번지 홍길동씨 였던 것이다.
예시처럼 결국 우리는 봇에 영향을 주지 못하는 행위를 하고 있었다.
최상위경로에 robots.txt는 티스토리에선 수정이 불가능하다.
워드프레스를 사용해 자신만의 사이트를 만들었다면 수정이 가능하지만, 특정 플랫폼에서 제공하는 글을 쓴다면 거의 불가능하다. 이를 염두해 두어야한다.
혹시나 이거 올렸는데 바뀐거 아니야? 라고 생각하는 분들은 이렇게 업로드 한 뒤 다시 구글 서치콘솔의 robots.txt 테스터를 확인해보면 된다. 혹은 자신의 티스토리 사이트 뒤에 robots.txt 를 넣어보면 된다.
예를 들어 자신의 티스토리 주소가 abc라면
http://abc.tistory.com/robots.txt
위 처럼 주소창에 넣어보면 된다.
2. Meta Tag 플러그인을 통해 robots.txt를 수정한다(?)
정확하게 robots.txt를 수정하는 건 아니다.
Meta 태그를 통해 인덱싱이 되지 않도록 지정할 수 있다.
구글의 기본적인 내용은 나와있기 때문에 아래 링크로 걸어둔다.
https://developers.google.com/search/docs/crawling-indexing/robots-meta-tag?hl=ko
특정 봇들이 오도록 만들 수는 있으나 직접 변경하진 못한다.
메타태그를 활용하는 방법에 대해서는 추후 포스팅 하도록 하겠다.
티스토리 운영을 시작하면 많은 것들을 검색하고 적용하는 중이다.
대부분 정확한 정보가 많지만, 생각보다 '왜'를 생각하지 않고 따라하다가 이상해지는게 보인다.
이렇게 되지 않게 하기 위해 내가 적용하는 부분들도 차근차근 하나씩 올려볼 생각이다.
티스토리 설정 애드센스 설정 등 사람들이 많이 막히는 부분에 대해서 쉽게 설명해보고자 한다.