며칠전부터 pdf파일에서 논문 정보를 자동으로 추출하는 스크립트/프로그램을 찾고 있었다. 논문의 제목을 읽어오는 스크립트는 이미 알고 있었고, 구글신을 좀 더 영접한 결과 cb2bib라는 프로그램을 찾았다.
PDF 파일뿐만 아니라, 이메일, 클립보드 등 여러가지 형식에서 논문 정보를 추출해준다. PDF의 경우 PDF를 평문(일반 텍스트, Plain Text)로 변경하고, 적절히 title/author/abstract등을 추측(guess)해준다.
아직 맥 환경에 익숙하지 않아, 맥에서는 아직 설치를 하지 못했다. 시키는대로 했는데 잘 안된다. T_T
테스트를 위해 윈도우 버전을 사용했다. PDF에서 정보를 추출하려면, xpdf를 다운로드받고, C:\Program Files\xpdf-3.00-win32에 복사하면 된다. 또는 cb2bib의 Preference에서 폴더를 지정해줘도 된다.
ACM/LNCS/IEEE 논문 몇개로 테스트해본 결과, 수작업이 많이 필요하다. T_T 구분은 정확해 해주지만(라인 단위로 끊으니 당연히), 일일이 지정해줘야 할 경우가 많다.
좀 더 써보거나, 고쳐봐야겠다. 뭔가 방법이 있을듯... (직접 만들기 싫어서 용 쓰는 중)
EndNote도 찾아보면 이런 스크립트/프로그램이 있을 것이다. 찾지 못했거나, 귀찮다면 cb2bib 등을 사용해 bibTex 형식으로 Reference Library를 만든 후에, EndNote에서 import해도 된다.
The cb2Bib is a tool for rapidly extracting unformatted, or unstandardized biblographic references from email alerts, journal Web pages, and PDF files.
PDF 파일뿐만 아니라, 이메일, 클립보드 등 여러가지 형식에서 논문 정보를 추출해준다. PDF의 경우 PDF를 평문(일반 텍스트, Plain Text)로 변경하고, 적절히 title/author/abstract등을 추측(guess)해준다.
아직 맥 환경에 익숙하지 않아, 맥에서는 아직 설치를 하지 못했다. 시키는대로 했는데 잘 안된다. T_T
테스트를 위해 윈도우 버전을 사용했다. PDF에서 정보를 추출하려면, xpdf를 다운로드받고, C:\Program Files\xpdf-3.00-win32에 복사하면 된다. 또는 cb2bib의 Preference에서 폴더를 지정해줘도 된다.
ACM/LNCS/IEEE 논문 몇개로 테스트해본 결과, 수작업이 많이 필요하다. T_T 구분은 정확해 해주지만(라인 단위로 끊으니 당연히), 일일이 지정해줘야 할 경우가 많다.
좀 더 써보거나, 고쳐봐야겠다. 뭔가 방법이 있을듯... (직접 만들기 싫어서 용 쓰는 중)
EndNote도 찾아보면 이런 스크립트/프로그램이 있을 것이다. 찾지 못했거나, 귀찮다면 cb2bib 등을 사용해 bibTex 형식으로 Reference Library를 만든 후에, EndNote에서 import해도 된다.
Trackback
Trackback Address :: http://fribirdz.net/trackback/518

Comments