본문 바로가기
IT

구글 , 이제는 PDF 내부까지 검색해준다

by 성공의문 2008. 11. 4.

구글이 문서검색의 폭을 넓혔다는 뉴스가 들어왔다. 구글의 장점인 웹문서 검색, 그리고 텍스트 파일 내용 검색 뿐만 아니라 비정규적인 문서들까지 검색할 수 있다고 한다. 여기서 말하는 비정규적인 문서는 구글 크롤러가 인식할 수 없는 문서들, 즉 PDF와 같은 이미지 형태의 문서들까지 포함한다. 결국 구글이 이번에 검색대상을 웹문서와 텍스트 형식의 문서 파일 이외에 PDF와 그와 비슷한 류의 문서파일들까지 넓혔다는 것이다.

그동안 구글은 이미지 파일을 검색할 수는 있었지만 메타 정보 외에는 정보를 분석할 수 없었다. 그런데 이번에 Optical Character Recognition(OCR)이라는 기술을 채용하여 이미지에 있는 내용을 분석해서 인덱싱할 수 있도록 기능을 확장했다고 한다. OCR은 그림이나 사진 등의 이미지에 있는 문자열들을 텍스트형으로 바꾸는 기술이라고 한다. 이 기능을 통해서 앞으로는 문서를 검색할 때 PDF로 된 문서는 PDF 원본을 직접 보던지 아니면 구글에서 OCR을 이용하여 변환된 웹페이지(View as HTML 링크를 통해서 텍스트로 변환된 웹페이지를 보여줄 것이다)를 보면 된다.

구글은 이번 검색범위 확장으로 인해 검색할 수 있는 문서의 양이 훨씬 방대해졌으며 특히 PDF 형식으로 되어있는 논문 등의 내용들까지 검색할 수 있게 되어서 대학가 등에서 검색할 수 있는 빈도가 더 높아질 것이라고 생각이 든다. 게다가 처리할 수 있는 양의 크기도 이전에 비해 더욱 방대해졌기에 구글의 기술적인 한계가 어디까지일까 하는 생각을 갖게 만드는 계기로 볼 수도 있을 듯 싶다. 결정적으로 논문검색이 용이해져서 전문 검색으로 구글을 사용하는 사용자층이 더 넓어질 수 있는 기회가 되었다는데 의미를 두고 싶다.

구글 블로그에서 알려준 샘플 페이지들을 보면 이해가 더 빠를 듯 싶다.