cb2bib - pdf 논문 파일에서 논문 정보 추출하기

2006/07/08 03:24
며칠전부터 pdf파일에서 논문 정보를 자동으로 추출하는 스크립트/프로그램을 찾고 있었다. 논문의 제목을 읽어오는 스크립트는 이미 알고 있었고, 구글신을 좀 더 영접한 결과 cb2bib라는 프로그램을 찾았다.

The cb2Bib is a tool for rapidly extracting unformatted, or unstandardized biblographic references from email alerts, journal Web pages, and PDF files.

PDF 파일뿐만 아니라, 이메일, 클립보드 등 여러가지 형식에서 논문 정보를 추출해준다. PDF의 경우 PDF를 평문(일반 텍스트, Plain Text)로 변경하고, 적절히 title/author/abstract등을 추측(guess)해준다.

아직 맥 환경에 익숙하지 않아, 맥에서는 아직 설치를 하지 못했다. 시키는대로 했는데 잘 안된다. T_T

테스트를 위해 윈도우 버전을 사용했다. PDF에서 정보를 추출하려면, xpdf를 다운로드받고,  C:\Program Files\xpdf-3.00-win32에 복사하면 된다. 또는 cb2bib의 Preference에서 폴더를 지정해줘도 된다.

ACM/LNCS/IEEE 논문 몇개로 테스트해본 결과, 수작업이 많이 필요하다. T_T 구분은 정확해 해주지만(라인 단위로 끊으니 당연히), 일일이 지정해줘야 할 경우가 많다.

좀 더 써보거나, 고쳐봐야겠다. 뭔가 방법이 있을듯... (직접 만들기 싫어서 용 쓰는 중)

EndNote도 찾아보면 이런 스크립트/프로그램이 있을 것이다. 찾지 못했거나, 귀찮다면 cb2bib 등을 사용해 bibTex 형식으로 Reference Library를 만든 후에, EndNote에서 import해도 된다.

Trackback

Trackback Address :: http://fribirdz.net/trackback/518

Comments

What's on your mind?

댓글 입력 폼
[로그인][오픈아이디란?]