본문 바로가기

관심분야/빅데이터

(3)
대량의 데이터처리를 위한 알고리즘... 최근 빅데이터를 다루기 위한 여러가지 기술들이 많이 사용되고 있다. 그 중 하나의 알고리즘을 소개해보고자 한다. lucene redis leveldb 이들의 공통점은 skiplist 알고리즘을 사용한다는 것이다. Skip ListTypeListInvented1990Invented byW. PughTime complexity in big O notationAverageWorst caseSpaceO(n)O(n log n)[1]SearchO(log n)O(n)[1]InsertO(log n)O(n)DeleteO(log n)O(n) 대량의 데이터를 빠르게 검색이 가능하다는 장점이 있으며, 사용하는 방법에 따라서는 최상의 성능을 발휘하지만 몇가지 제약을 가지고 있기도 하다. 그래서, 나는 몇가지 기능을 수정해 보았..
Lucene Java 2.3.1 Release Apache 프로젝트에서 진행하는 Lucene 검색엔진이 2.3.1으로 업데이트 되었습니다. 마이너업그레이드 이므로, 새로운 기능 보다는 기존 2.3.0의 버그수정입니다. 변경 내용 1. LUCENE-1168: Fixed corruption cases when autoCommit=false and documents have mixed term vectors (Suresh Guvvala via Mike McCandless). 2. LUCENE-1171: Fixed some cases where OOM errors could cause deadlock in IndexWriter (Mike McCandless). 3. LUCENE-1173: Fixed corruption case when autoCommit=..
Lucene Java 2.3.0 Release Apache 프로젝트에서 진행하는 Lucene 검색엔진이 2.3.0으로 업데이트 되었습니다. 변경 내용 확연히 향상된 인덱싱 퍼포먼스 백그라운드 스레드에서의 세그먼트 병합(Segment merging) 재갱신 가능한 인덱스리더(refreshable IndexReaders) 더 빨라진 StandardAnalyzer와 향상된 토큰 API 어떤 방법으로 텀 벡터들(term vectors)을 로드하는지 커스터마이징하기 위한 TermVectorMapper 추가 SnapshotDeletionPolicy를 이용한 라이브 백업 (인덱싱 멈춤 없음) 오류가 발생한 인덱스의 테스트와 복구를 위한 CheckIndex 툴 추가 추가하여 쓸 수 있는(pluggable) MergePolicy 와 MergeScheduler "pa..