구글 검색1 구글 , 이제는 PDF 내부까지 검색해준다 구글이 문서검색의 폭을 넓혔다는 뉴스가 들어왔다. 구글의 장점인 웹문서 검색, 그리고 텍스트 파일 내용 검색 뿐만 아니라 비정규적인 문서들까지 검색할 수 있다고 한다. 여기서 말하는 비정규적인 문서는 구글 크롤러가 인식할 수 없는 문서들, 즉 PDF와 같은 이미지 형태의 문서들까지 포함한다. 결국 구글이 이번에 검색대상을 웹문서와 텍스트 형식의 문서 파일 이외에 PDF와 그와 비슷한 류의 문서파일들까지 넓혔다는 것이다. 그동안 구글은 이미지 파일을 검색할 수는 있었지만 메타 정보 외에는 정보를 분석할 수 없었다. 그런데 이번에 Optical Character Recognition(OCR)이라는 기술을 채용하여 이미지에 있는 내용을 분석해서 인덱싱할 수 있도록 기능을 확장했다고 한다. OCR은 그림이나 사.. 2008. 11. 4. 이전 1 다음