H2TLib - HWP 텍스트 추출 파서

소개

  • H2TLib는 한글(hwp) 문서에서 텍스트만 추출해주는 자바(java) 및 닷넷(.net) 라이브러리 입니다.
    본 제품은 한글과컴퓨터의 한글 문서 파일(.hwp) 공개 문서를 참고하여 개발하였습니다
  • 암호화된 한글(hwp) 문서는 지원하지 않습니다

특징

  • 한글(HWP)문서판단
  • 한글(HWP)문서메타정보추출
  • 한글(HWP)문서텍스트추출

관련정보

연동방법

히스토리

[자바 버전]

alpha 1.0.3 버전
=================================================
- rcc.tikaparser-1.0.1 에서 rcc.tikaparser-1.0.2 로 업그레이드
  => tika 1.10 버전에서 HWP 파싱 버그 수정
  => rcc.tika.detect.hwp.HWPDetector 에서 org.apache.tika.a_rcc.detect.hwp.HWPDetector 로 패키지 이름 변경
  => rcc.tika.parser.hwp.HWPParser 에서 org.apache.tika.a_rcc.parser.hwp.HWPParser 로 패키지 이름 변경

alpha 1.0.2 버전
=================================================
- rcc.tikaparser-1.0.0 에서 rcc.tikaparser-1.0.1 로 업그레이드(META-INF 에 tika service 정보 등록)

alpha 1.0.1 버전
=================================================
- Tika 연동 모듈 추가
- 기타 버그 수정

alpha 1.0.0 버전
=================================================
- 초기배포



[.NET 버전]

alpha 1.0.1 버전
=================================================
- .net 2.0 / .net 4.0 지원


alpha 1.0.0 버전
=================================================
- 초기배포

라이선스

H2TLib는 한글(hwp) 문서에서 텍스트만 추출해주는 라이브러리로
개인 개발자가 프리웨어를 개발하여 배포하는 경우에 한해서 무료로 사용이 가능합니다.

이때의 라이선스 조건은 다음과 같습니다.

   - 본 라이선스의 대상은 개인 개발자에 한합니다.
   - 본 라이선스의 대상은 프리웨어에 한합니다. 프리웨어란 개발자가 소프트웨어를 통한 일체의 금전적 이익(상용 판매, 광고, 소프트웨어 번들 포함)을 얻지 않는 소프트웨어를 의미합니다.
   - 본 라이선스는 제3자에게 재판매하거나 양도할 수 없습니다.
   - H2TLib 라이브러리의 jar 또는 dll 파일을 배포할때 jar 또는 dll 파일이 설치되는 폴더에 반드시 h2tlibLicense.txt 파일을 같이 포함시켜서 배포해야만 합니다.

아워텍(주)과 참여개발자는 업데이트/배포에 대한 권리를 보유하고 있습니다.
단, H2TLib 내에서 사용된 외부 오픈소스의 경우 원 오픈소스의 라이선스 정책을 유지합니다.

본 제품은 한글과컴퓨터의 한글 문서 파일(.hwp) 공개 문서를 참고하여 개발하였습니다.

[주의 사항]
아워텍(주)과 참여개발자는 라이브러리의 완전성과 정확성을 검증하기 위해 노력하였으나,
사용시 발생할 수 있는 오류나 이로 인한 사용자 데이터 손실에 대해서는 책임지지 않습니다.

따라서 이 프로그램의 사용이나 사용 결과에 따른 책임은 전적으로 사용자에게 있으며,
아워텍(주)과 참여개발자는 이에 대해 명시적 혹은 묵시적으로 어떠한 보증도 하지 않습니다.

아워텍(주)과 참여개발자는 이 라이브러리 및 관련 문서의 내용을 예고 없이 변경할 수 있습니다.