[[NSDeveloper alloc] initWithName:@"Just another developer"]
Posts tagged bibtex
cb2bib – pdf 논문 파일에서 논문 정보 추출하기
Jul 7th
며칠전부터 pdf파일에서 논문 정보를 자동으로 추출하는 스크립트/프로그램을 찾고 있었다. 논문의 제목을 읽어오는 스크립트는 이미 알고 있었고, 구글신을 좀 더 영접한 결과 cb2bib라는 프로그램을 찾았다.
The cb2Bib is a tool for rapidly extracting unformatted, or unstandardized biblographic references from email alerts, journal Web pages, and PDF files.
PDF 파일뿐만 아니라, 이메일, 클립보드 등 여러가지 형식에서 논문 정보를 추출해준다. PDF의 경우 PDF를 평문(일반 텍스트, Plain Text)로 변경하고, 적절히 title/author/abstract등을 추측(guess)해준다.
아직 맥 환경에 익숙하지 않아, 맥에서는 아직 설치를 하지 못했다. 시키는대로 했는데 잘 안된다. T_T
테스트를 위해 윈도우 버전을 사용했다. PDF에서 정보를 추출하려면, xpdf를 다운로드받고, C:\Program Files\xpdf-3.00-win32에 복사하면 된다. 또는 cb2bib의 Preference에서 폴더를 지정해줘도 된다.
ACM/LNCS/IEEE 논문 몇개로 테스트해본 결과, 수작업이 많이 필요하다. T_T 구분은 정확해 해주지만(라인 단위로 끊으니 당연히), 일일이 지정해줘야 할 경우가 많다.
좀 더 써보거나, 고쳐봐야겠다. 뭔가 방법이 있을듯… (직접 만들기 싫어서 용 쓰는 중)
EndNote도 찾아보면 이런 스크립트/프로그램이 있을 것이다. 찾지 못했거나, 귀찮다면 cb2bib 등을 사용해 bibTex 형식으로 Reference Library를 만든 후에, EndNote에서 import해도 된다.
bibdesk, EndNote의 아쉬운 점
Jul 2nd
EndNote는 사람들이 가장 많이 쓰는 상용 논문 관리 소프트웨어다. 논문의 제목, 저자, 초록(abstract), 저널명, 연도, 페이지 등을 기록해 둘 수 있으며, pdf파일의 URL링크나 내 하드디스크의 링크를 걸 수 있다. 구축된 목록은 워드/엑셀등과 연동되어 논문을 작성하거나, Reference를 만들 때 편리하게 쓰인다. bibDesk는 같은 기능을 하는 무료 소프트웨어다. bibTex의 GUI버전이다.
쓰면 좋다. 하지만, 논문의 정보(제목/저자/초록/출간저널/연도 등)을 일일이 넣어야 할까? Web Of Science, Google Scholar, Sci-Finder 등 각종 논문 검색 사이트들은 검색 결과를 EndNote나 bibtex의 입력 포맷에 맞는 텍스트로 제공해준다. 따라서, 그냥 끌어다 놓거나 복사를 하면 쉽게 논문에 대한 정보를 붙일 수 있다.
하지만, 기존에 다운 받아놓았던 논문(pdf)들은 어떻게 해야 할까? 수동으로 넣는 것도 불편하고, 논문 제목을 구글 스칼라에 입력해서 넣는 것도 불편하다. 어짜피 논문 검색 사이트들에서도 대부분 abstract까지는 지원해주지 않기 때문에, 걸리는 시간도 비슷하다.

이렇게 관리했다..-_-;;
나도 사실 얼마전까지는 논문을 폴더단위로 관리했다. 적당히 카테고리를 만들고, 논문을 받으면 파일명을 논문 제목으로 변경했다. 파일명 앞에 1-9까지 중요도를 매겨 정렬을 했다. 저자동고유연성을 선호하지만, 검색이나 관리가 불편하고 한계점이 보여 얼마전부터 bibDesk를 쓰고 있다. EndNote는 너무 무겁다.
기존에 받아놓았던 논문들은 어떻게 해야 할지 난감하다. 어짜피 논문의 포맷은 거의 비슷한데, pdf문서의 첫 페이지를 읽고 자동으로 기입해주는 플러그인이나 스크립트는 없는지 궁금하다. 검색을 해보니, 제목을 입력해주는 스크립트는 있지만, 저자/초록/키워드를 입력해주는 것은 찾지 못했다. (연도와 저널명은 바라지도 않는다. T_T)
- 제목은 첫 페이지의 1번째 줄에 나오며, 가운데 정렬이 되어 있다.
- 제목 다 저자명이 써 있으며 특수기호나 숫자(1,2,3)은 무시한다.
- Abstract 또는 Abstract. 이라고 표기된 다음 줄 또는 다음 칸은 Abstract이 써져 있다.
- Keyword도 마찬가지다.
대충 이런 식으로 정리되는데, 아주 간단하다. 모든 저널들의 정보를 100% 정확히 가져올 순 없겠지만, 가장 많이 보는 유명한 몇몇 저널의 포맷만 가져와도 편리할 것이다.
왜 없을까?
- 있는데 내가 못찾아서
- 다들 처음부터 EndNote나 bibTex형식으로 정리하기 때문에 필요 없어서
- 실제로 만들려면 생각보다 난관이 많아서(내가 Computer Science쪽 논문만 봐서 모르겠는데, 각 분야마다 포맷이 많이 다르거나 할 수도 있겠지)
아무래도 1번이 유력하다 -_-; 열심히 찾아봐야지 -_-
IEEE, ACM, LNCS만 가져와도 만만세일텐데 -_ㅜ
직접 만들어야 되나 T.T