[[NSDeveloper alloc] initWithName:@"Just another developer"]
Posts tagged paper
cb2bib – pdf 논문 파일에서 논문 정보 추출하기
Jul 7th
며칠전부터 pdf파일에서 논문 정보를 자동으로 추출하는 스크립트/프로그램을 찾고 있었다. 논문의 제목을 읽어오는 스크립트는 이미 알고 있었고, 구글신을 좀 더 영접한 결과 cb2bib라는 프로그램을 찾았다.
The cb2Bib is a tool for rapidly extracting unformatted, or unstandardized biblographic references from email alerts, journal Web pages, and PDF files.
PDF 파일뿐만 아니라, 이메일, 클립보드 등 여러가지 형식에서 논문 정보를 추출해준다. PDF의 경우 PDF를 평문(일반 텍스트, Plain Text)로 변경하고, 적절히 title/author/abstract등을 추측(guess)해준다.
아직 맥 환경에 익숙하지 않아, 맥에서는 아직 설치를 하지 못했다. 시키는대로 했는데 잘 안된다. T_T
테스트를 위해 윈도우 버전을 사용했다. PDF에서 정보를 추출하려면, xpdf를 다운로드받고, C:\Program Files\xpdf-3.00-win32에 복사하면 된다. 또는 cb2bib의 Preference에서 폴더를 지정해줘도 된다.
ACM/LNCS/IEEE 논문 몇개로 테스트해본 결과, 수작업이 많이 필요하다. T_T 구분은 정확해 해주지만(라인 단위로 끊으니 당연히), 일일이 지정해줘야 할 경우가 많다.
좀 더 써보거나, 고쳐봐야겠다. 뭔가 방법이 있을듯… (직접 만들기 싫어서 용 쓰는 중)
EndNote도 찾아보면 이런 스크립트/프로그램이 있을 것이다. 찾지 못했거나, 귀찮다면 cb2bib 등을 사용해 bibTex 형식으로 Reference Library를 만든 후에, EndNote에서 import해도 된다.
bibdesk, EndNote의 아쉬운 점
Jul 2nd
EndNote는 사람들이 가장 많이 쓰는 상용 논문 관리 소프트웨어다. 논문의 제목, 저자, 초록(abstract), 저널명, 연도, 페이지 등을 기록해 둘 수 있으며, pdf파일의 URL링크나 내 하드디스크의 링크를 걸 수 있다. 구축된 목록은 워드/엑셀등과 연동되어 논문을 작성하거나, Reference를 만들 때 편리하게 쓰인다. bibDesk는 같은 기능을 하는 무료 소프트웨어다. bibTex의 GUI버전이다.
쓰면 좋다. 하지만, 논문의 정보(제목/저자/초록/출간저널/연도 등)을 일일이 넣어야 할까? Web Of Science, Google Scholar, Sci-Finder 등 각종 논문 검색 사이트들은 검색 결과를 EndNote나 bibtex의 입력 포맷에 맞는 텍스트로 제공해준다. 따라서, 그냥 끌어다 놓거나 복사를 하면 쉽게 논문에 대한 정보를 붙일 수 있다.
하지만, 기존에 다운 받아놓았던 논문(pdf)들은 어떻게 해야 할까? 수동으로 넣는 것도 불편하고, 논문 제목을 구글 스칼라에 입력해서 넣는 것도 불편하다. 어짜피 논문 검색 사이트들에서도 대부분 abstract까지는 지원해주지 않기 때문에, 걸리는 시간도 비슷하다.

이렇게 관리했다..-_-;;
나도 사실 얼마전까지는 논문을 폴더단위로 관리했다. 적당히 카테고리를 만들고, 논문을 받으면 파일명을 논문 제목으로 변경했다. 파일명 앞에 1-9까지 중요도를 매겨 정렬을 했다. 저자동고유연성을 선호하지만, 검색이나 관리가 불편하고 한계점이 보여 얼마전부터 bibDesk를 쓰고 있다. EndNote는 너무 무겁다.
기존에 받아놓았던 논문들은 어떻게 해야 할지 난감하다. 어짜피 논문의 포맷은 거의 비슷한데, pdf문서의 첫 페이지를 읽고 자동으로 기입해주는 플러그인이나 스크립트는 없는지 궁금하다. 검색을 해보니, 제목을 입력해주는 스크립트는 있지만, 저자/초록/키워드를 입력해주는 것은 찾지 못했다. (연도와 저널명은 바라지도 않는다. T_T)
- 제목은 첫 페이지의 1번째 줄에 나오며, 가운데 정렬이 되어 있다.
- 제목 다 저자명이 써 있으며 특수기호나 숫자(1,2,3)은 무시한다.
- Abstract 또는 Abstract. 이라고 표기된 다음 줄 또는 다음 칸은 Abstract이 써져 있다.
- Keyword도 마찬가지다.
대충 이런 식으로 정리되는데, 아주 간단하다. 모든 저널들의 정보를 100% 정확히 가져올 순 없겠지만, 가장 많이 보는 유명한 몇몇 저널의 포맷만 가져와도 편리할 것이다.
왜 없을까?
- 있는데 내가 못찾아서
- 다들 처음부터 EndNote나 bibTex형식으로 정리하기 때문에 필요 없어서
- 실제로 만들려면 생각보다 난관이 많아서(내가 Computer Science쪽 논문만 봐서 모르겠는데, 각 분야마다 포맷이 많이 다르거나 할 수도 있겠지)
아무래도 1번이 유력하다 -_-; 열심히 찾아봐야지 -_-
IEEE, ACM, LNCS만 가져와도 만만세일텐데 -_ㅜ
직접 만들어야 되나 T.T
논문 10%만 고쳐써라
Mar 26th
논문 10%만 고쳐써라! : 체계적이고 정교한 과학논문 작성법김형순 저 | 야스미디어 | 2003년 07월
평가 : ★★★☆
많은 논문들이 ‘논문에 사용하는 문장은 평어와 다르다’라고만 생각하고 쓰여져 있다. 어렵고, 길게 써야 논문답다고 생각하기도 한다. 문장을 길게 늘어뜨리고, 수동태를 잔뜩 집어넣고, 자기도 무슨 말인지 모르는 어려운 단어들을 가득 채워놓는다. 논문을 읽다보면 도저히 무슨 소리인지 알 수가 없어 ‘내가 몰라도 너무 모르는건지’, ‘상대방의 전달력이 떨어지는건지’ 고민을 하곤 한다.
농담처럼 들리겠지만, 실제로 이런 논문들이 많다. 나라고 별 다를 거 있나. -_-;
목차를 보면 이 책의 성격과 내용에 대해 알 수 있다. ‘논문은 무엇이고, 종류와 구성은 어떻게 되는가. 논문은 어떤 식으로 써나가야 하고, 구조는 어떻게 잡아야 하는가. 논문 작성시 유의점들은 무엇이 있나.’ 등에 관해 말하고 있다.
어찌보면, 굉장히 뻔하고 단순한 이야기를 하고 있는 책이다. 논문을 몇번 써봤거나, 많이 읽어봤거나, 지도교수나 선배로부터 멘토링을 받았다면 어설프게라도 알고 있는 내용들이다. 제목 작성시 주제어를 사용하되 가능한 첫 단어로 사용하여..
, 제목에 불필요한 단어(The-, Results-, Study-, An approach to-)를 사용하지 않는다.
, 초록에는 왜 연구를 했고, 어떻게 연구를 했고, 어떤 연구결과가 나왔고, 어떤 결론에 도달했고를 다루며, 한 문단으로 이루어져 있고, 참고문헌을 표시하지 않는다.
, 서론은 저자가 본 연구를 수행한 이유를 기술하여 독자로 하여금 고찰에서 토론이 되는 문제를 제시하는 부분이다. 연구주제 – 연구 방향 – 문제점 – 연구 목적 등의 순서로…
, 와 같은 것들 말이다.
그렇다고 이 책의 가치가 떨어지진 않는다. 모르는것보다 위험한 것은 어설프게 아는 것이다. 이 책을 읽으면서 잘못 알고 있는 것이나, 미쳐 생각하지 못한 것들을 정리할 수 있는 계기를 만들 수 있다.
140페이지정도의 얇은 책이다. 넓고 얇게 설명을 하고 있지만, 논문을 작성하는 또는 작성해야 하는 과학도라면 읽어볼만 하다. 특히, 지도교수나 선배로부터 논문 교정을 제대로 받아보지 못한 사람들에게 일독을 권한다. 내공이 깊은 사람들이 읽으면 시간이 아까울 수 있으니 유의하자. 난 유익했음. – -;
이 책에서 한글로 논문을 쓸 때 문장을 작성하는 방법이나 예제는 논하지 않는다. 영향력있는 논문은 주로 영문으로 작성해 해외 컨퍼런스나 저널에 게재하기 때문이다.
그렇다고 영어로 논문을 쓸 때의 문장 작성법에 대해 깊이 있게 다루고 있지도 않다. 개괄적인 설명정도이고, 예제나 보기 정도가 영문 논문을 기준으로 되어 있다. 더 자세한 것을 배우려면 다른 책을 참고해야 한다.
한국의 이공계는 글쓰기가 두렵다 – 글쓰기의 전략 – 논문 10%만 고쳐써라 – 영어 논문 쉽게 쓰기 의 순서로 읽어보면 도움이 되지 않을까?
PS : 발행일은 ’2005년 11월 15일 3쇄’로 되어 있지만, 초판 발행일이 나와있지 않다. 최신 기술에 관한 책같이 초판 발행일을 꼭 알아야 하는 책은 아니지만, 나처럼 항상 언제 나온 책이지?
를 궁금해 하는 사람이 있다. (책 본문 중에 현재 2003년..
이라는 부분에서 2003년에 나왔다는 걸 알 수 있었다.)