[출처]
http://www.bloter.net/archives/94717

검색 시스템에서 가장 첫 단계가 웹문서 수집(크롤링)입니다. 그 다음은 색인과 순위 매기입니다. 일단, 크롤링하지 못하면 그 다음 단계는 무용지물입니다. 아무리 좋은 검색 알고리즘이 있어도 문서를 수집하지 못하면 색인과 순위 매기기는 시도조차 못하는 셈이죠. 한국의 웹 검색 품질이 좋지 않은 이유 중 하나가 바로 크롤링하기 어렵기 때문입니다.”
국내 웹사이트는 검색엔진이 접근하는 것을 막아두거나 검색엔진을 전혀 돕지 않는다는 이야기다. 대체로 국내 웹사이트는 검색엔진을 제어하는 robots.txt를 잘못 설정해서 검색엔진이 접근하지 못하는 형편이다. 정부기관 웹사이트의 상당수는 검색엔진의 접근을 막고 있다. 웹페이지 정보를 제대로 입력하지 않아 검색엔진이 웹문서를 수집해도 해당 페이지가 어떤 정보를 담고 있는지 파악하지 못하는 경우도 부지기수라고 3인방은 설명했다.
.... 생략 ....
Posted by gt1000

블로그 이미지
gt1000

태그목록

공지사항

어제
오늘

달력

 « |  » 2024.4
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함