해시테이블

해시 테이블로 된 작은 전화 번호부

해시테이블(hash table)은 해시함수를 사용하여 키를 해시값으로 매핑하고, 이 해시값을 인덱스 혹은 주소 삼아 데이터의 값(value)을 키와 함께 저장하여 검색을 빠르게 하기 위한 자료 구조이다. 이 때 데이터가 저장되는 곳을 버킷(bucket) 또는 슬롯(slot)이라고 한다. 해시테이블의 기본 연산은 삽입, 삭제, 탐색이다.

개요[편집]

해시테이블은 연관 배열 추상 데이터 유형을 구현하는 데이터 구조로서, 키를 값에 매핑할 수 있는 구조이다. 해시함수를 사용하여 원하는 값을 찾을 수 있는 버킷이나 슬롯의 배열로 인덱스를 계산한다. 이상적으로는 해시함수가 각각의 키를 고유 버킷에 할당하지만, 대부분의 해시 테이블 설계에서는 불완전한 해시함수를 채용하고 있어 해시함수가 둘 이상의 키에 대해 동일한 인덱스를 생성하는 해시 충돌의 원인이 될 수 있다. 적절한 규모의 해시테이블에서, 각 조회의 평균 비용은 표에 저장된 요소의 수와 무관하다. 많은 해시 테이블 설계는 운용당 일정한 평균 비용으로 키 값 쌍을 임의로 삽입과 삭제를 허용한다. 많은 상황에서 해시테이블은 검색 트리나 다른 테이블 조회 구조보다 평균적으로 더 효율적이다. 때문에 해시테이블은 특히 연관 배열, 데이터베이스 색인화, 캐시, 많은 종류의 컴퓨터 소프트웨어에서 널리 사용된다.

Direct-address table[편집]

Direct-address table은 키의 전체 개수와 동일한 크기의 버킷을 가진 해시테이블이다. Direct-address table의 장점은 키 개수와 해시테이블 크기가 동일하기 때문에 해시충돌 문제가 발생하지 않는다는 것이다. 하지만 실제 사용하는 키(actucal key)보다 전체 키(unverse of key)보다 훨씬 많은 경우 사용하지 않는 키들을 위한 공간까지 마련해야 하는 탓에 메모리 효율성이 크게 떨어진다. 보통의 경우 다뤄야할 데이터가 정말 많고, 메모리 등 리소스 문제도 생기기 때문에 Direct-address table보다는 해시테이블 크기( $m$ )가 실제 사용하는 키 개수( $n$ )보다 적은 해시테이블을 더 선호한다. 이 때 해시테이블의 한 버킷에 평균 몇 개의 키가 매핑되는가를 나타내는 지표로 $n/m$ 을 $loadfactor(\alpha )$ 라고 한다. Direct-address table의 load factor는 1 이하이며, 1보다 큰 경우 해시충돌이 발생하게 된다.^[1]

장점[편집]

다량의 데이터를 적은 리소스로 관리할 수 있어 효율적이다. 하드디스크나 클라우드에 존재하는 무한에 가까운 데이터(키)들을 유한한 개수의 해시값으로 매핑함으로써 작은 크기의 캐시 메모리로도 프로세스를 관리할 수 있게 된다.
인덱스(index)에 해시값을 사용해서 모든 데이터를 살피지 않아도 삽입/삭제을 편하게 수행할 수 있다.
언제나 동일한 해시값을 리턴하고, 해당 인덱스만 알면 해시테이블의 크기에 상관없이 데이터에 빠르게 접근할 수 있으며, 인덱스는 계산이 간단한 함수(상수시간)로 작동하기 때문에 매우 효율적이다. 다시 말해, 데이터 액세스 시 계산복잡성으로 0(1)을 지향한다.
키와 해시값 사이에 직접적인 연관이 없기 때문에 해시값만 가지고는 키를 온전히 복원하기 어려워 보안 분야에서 널리 사용된다.
길이가 서로 다른 입력데이터에 대해 일정한 길이의 출력을 만들 수 있어서 데이터를 축약할 수도 있다.

문제점[편집]

해시테이블에서의 연산은 평균적으로 일정한 시간이 걸리지만 좋은 해시 함수의 비용은 순차 목록 또는 검색 트리에 대한 검색 알고리즘의 내부 루프보다 상당히 클 수 있다. 따라서 해시 테이블은 항목 수가 매우 적으면 유효하지 않는다.(해시 함수를 계산하는데 드는 높은 비용은 해시값을 키와 함께 저장하여 완화 할 수 있음)
맞춤법 검사와 같은 특정 문자열 처리 응용 프로그램의 경우 해시테이블은 트리, 유한 오토마타 또는 주디 배열보다 효율적이지 않을 수 있다. 또한 저장할 수 있는 키가 너무 많지 않은 경우 즉, 각 키를 충분히 작은 비트수로 표현할 수 있는 경우 해시테이블 대신 키를 배열의 인덱스로 직접 사용할 수 있다. 이 경우에는 충돌이 발생하지 않는다.
해시테이블에 저장된 항목은 효율적으로(항목 당 일정한 비용으로) 열거되지만 의사 임의의 순서로만 열거 할 수 있다. 따라서 키가 지정된 키와 가장 가까운 항목을 찾는 효율적인 방법은 없다. 특정 순서로 모든 n개 항목을 나열하려면 일반적으로 비용이 항목 당 log(n)에 비례하는 별도의 정렬 단계가 필요하다. 이에 비해 정렬 검색 트리는 조회 및 삽입 비용이 log(n)에 비례하지만 거의 동일한 비용으로 가장 가까운 키를 찾을 수 있으며 입력 당 일정한 비용으로 모든 항목을 나열한 순서가 매겨진다.
해시함수가 충돌하지 않기 때문에 키가 저장되어 있지 않으면 주어진 순간에 테이블에 있는 키를 쉽게 열거할 수 없다.
작업당 평균 비용이 일정하고 상당히 작지만, 단일 작업의 비용은 상당히 높을 수 있다. 특히 해시테이블이 동적 크기 조정을 사용하는 경우 삽입 또는 삭제 작업은 때때로 항목 수에 비례하여 시간이 걸릴 수 있다. 이는 실시간 또는 인터렉티브 애플리케이션에서 심각한 단점이 될 수 있다.
해시테이블은 일반적으로 참조의 지역성이 낮다. 즉, 액세스 할 데이터는 임의로 메모리에서 무작위로 분산되어 있다. 해시테이블이 액세스 패턴을 야기하기 때문에 긴 지연을 유발하는 마이크로 프로세서 캐시 미스가 발생할 수 있다. 선형 검색으로 검색된 배열과 같은 소형 데이터 구조는 테이블이 비교적 작고 키가 소형인 경우 더 빠를 수 있다. 최적의 성능 포인트는 시스템마다 다르다.
해시테이블은 많은 충돌이 있을 때 매우 비효율적이다. 극단적으로 고르지 않은 해시 분포가 우연히 발생 할 가능성은 거의 없지만 해시 함수에 대해 잘 알고 있는 악의적인 공격자는 과도한 충돌로 인해 최악의 행동을 일으키는 정보를 해시에 제공할 수 있다. 예를 들어, 서비스 거부 공격과 같은 매우 낮은 성능을 유발할 수 있다. 중요한 애플리케이션에서 최악의 경우 보증이 더 나은 데이터 구조를 사용할 수 있지만, 범용 해싱은 공격자가 어떤 입력으로 최악의 행동을 유발하는지 예측할 수 없게 하는 무작위 알고리즘이 선호될 수 있다. 리눅스 라우팅 테이블 캐시의 해시테이블에서 사용된 해시 함수는 이러한 공격에 대한 대책으로 리눅스 버전 2.4.2에서 변경되었다.

활용[편집]

연관배열[편집]

해시테이블은 일반적으로 여러 유형의 메모리 내 테이블을 구현하는데 사용된다. 특히 루비, 파이썬, PHP와 같은 해석된 프로그래밍 언어에서 연관배열(지표가 임의의 문자열 또는 기타 복잡한 객체인 배열)을 구현하는데 사용된다.

멀티맵에 새 항목을 지정하고 해시 충돌이 발생하면 멀티맵은 두 항목을 모두 무조건 사용한다. 새 항목을 일반적인 연관배열에 저장하고 해시충돌이 발생하지만 실제 키 자체가 다른 경우 연관배열도 마찬가지로 두 항목을 모두 저장한다. 그러나 새 항목의 키가 이전 항목의 키와 정확하게 일치하는 경우 연관배열은 일반적으로 이전 항목을 지우고 새 항목으로 덮어 쓰기 때문에 테이블의 모든 항목은 고유 키를 갖는다.

데이터베이스 색인화[편집]

해시테이블은 디스크 기반 데이터 구조 및 데이터베이스 인덱스(예:dbm)로도 사용될 수 있지만 B- 트리는 이러한 응용 프로그램에서 더 많이 사용된다. 다중 노드 데이터베이스 시스템에서 해시테이블은 일반적으로 노드 사이에 행을 분산하는 데 사용되어 해시조인에 대한 네트워크 트래픽을 줄인다.

캐시[편집]

해시테이블은 느린 미디어에 주로 저장된 데이터에 대한 액세스 속도를 높이기 위해 사용되는 캐시, 보조 데이터 테이블을 구현하는데 사용할 수 있다. 이 응용 프로그램에서는 충돌하는 두 항목 중 하나를 삭제하여 해시충돌을 처리할 수 있다. 일반적으로 현재 테이블에 저장된 이전 항목을 지우고 새 항목으로 덮어 쓰므로 테이블의 모든 항목은 고유한 해시값을 갖는다.

세트[편집]

주어진 키를 가지고 있는 항목을 복구하는 것 외에도, 많은 해시테이블 구현들은 그러한 항목이 존재 여부를 구별할 수 있다. 따라서 이러한 구조는 특정 키가 특정 키 집합에 속하는지 여부를 기록하는 세트 데이터 구조를 구현하는 데 사용될 수 있다. 이 경우 입력값과 관련된 모든 부분을 제거함으로써 구조를 단순화 할 수 있다. 해시는 정적 집합과 동적 집합을 구현하는 데 사용될 수 있다.

개체 표현[편집]

펄, 파이썬, 자바스크립트, 루아, 루비와 같은 몇몇 동적 언어는 해시테이블을 사용하여 개체를 구현한다. 이 표현에서 키는 개체의 구성원과 메소드의 이름이며, 값은 해당 구성원이나 메소드에 대한 포인터가 된다.

독특한 데이터 표현[편집]

해시테이블은 같은 내용을 가진 다중 문자열 생성을 피하기 위해 일부 프로그램에서 사용할 수 있다. 이를 위해 프로그램에서 사용중인 모든 문자열은 해시테이블로 구현된 단일 문자열 풀에 저장되며, 이 문자열 풀은 새 문자열을 만들어야 할 때마다 확인된다. 이 기법은 해시컨설팅이라는 이름으로 Lisp 인터프리터에 도입되었으며, 다른 많은 종류의 데이터(심볼릭 대수 시스템의 표현트리, 데이터베이스의 레코드, 파일 시스템의 파일, 이진법 결정 다이어그램 등)와 함께 사용할 수 있다.

각주[편집]

↑ ratsgo, 〈해싱, 해시함수, 해시테이블〉, 《개인 블로그》, 2017-10-25

참고자료[편집]

박찬모, 김종원, 〈다양한 P2P 응용을 위한 분산 해쉬테이블 기반 오버레이 네트워크〉, 《광주과학기술원》
ratsgo, 〈해싱, 해시함수, 해시테이블〉, 《개인 블로그》, 2017-10-25
위키피디아 - https://en.wikipedia.org/wiki/Hash_table

같이 보기[편집]

이 해시테이블 문서는 블록체인 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

블록체인 : 블록체인 기술^□^■^⊕, 합의 알고리즘, 암호 알고리즘, 알고리즘, 블록체인 플랫폼, 블록체인 솔루션, 블록체인 서비스

블록체인 기술	Bech32 • BTP • DRC-20 • EIP • IPFS • KRC-20 • NFT 마켓플레이스 • P2P • P2PKH • P2SH • PFP • PUF • SPV • TPS • TRC-20 • UTXO • 가나슈 • 가명성 • 가스 • 가십 • 가십 프로토콜 • 개념증명(PoC) • 검증가능지연함수(VDF) • 게스 • 고스트 프로토콜 • 공공예산 • 대체가능토큰 • 대체불가토큰(NFT) • 도지더리움 브릿지 • 디지털 자산 • 디지털 희소성 • 라운드 • 라운드 로빈 • 라이트하우스 • 랜덤 • 레그테크 • 레이든 • 리카르디안 계약 • 린스타트업 • 마스터키 • 마스트 • 메인넷 • 멜팅 • 믹싱 • 민팅 • 밈블윔블 • 반감기 • 베타넷 • 변경불가성 • 브릿지 • 블록체인 생태계 • 블록체인인공지능 • 블록체인 클라우드 서비스(BaaS) • 블룸필터 • 비블록체인 • 비앱 • 비콘체인 • 비트코인코어 • 빤통경제 • 수정 고스트 프로토콜 • 스냅샷 • 스마트 계약 • 스마트 브리지 • 스웜프로토콜 • 스크립트퍼브키 • 스테이킹 • 스텔스 주소 • 스핀오프코인 • 슬래싱 • 시크릿 컨트랙트 • 심플 컨트랙트 • 아토믹스왑 • 암호경제(크립토 이코노미) • 앵커링 • 언스테이킹 • 에어드랍 • 에폭 • 오프체인 오더락 • 오피리턴 • 옵코드 • 원토큰 문제 • 웨이 • 위스퍼 프로토콜 • 위임 • 유니스왑 • 유동성 • 이더리움 가상머신(EVM) • 이더리움 클라이언트 • 이중지불 • 익명성 • 인증된 익명 아이디 • 인터레저 프로토콜(ILP) • 자산화 • 잠금 스크립트 • 최소기능제품(MVP) • 컨소시엄 블록체인 • 컬러드코인 • 코인셔플 • 코인소각 • 코인에이지 • 코인조인 • 코인토싱 • 크립토노트 • 키스토어 • 타임락 • 테스트넷 • 토다 • 토큰 이코노미 • 토큰화 • 튜링완전 • 튜링불완전 • 트랜잭션 아이디(TxID) • 트러스트 컨트랙트 • 트루빗 • 트릴레마 • 파워 • 파티셔닝 • 퍼블릭 블록체인 • 페널티 • 프라이버시 • 프라이빗 블록체인 • 플랫폼 • 플러딩 • 피어 • 피투피(P2P) • 하이브리드 블록체인 • 합의 • 해시락 • 해시타임락(HTLC) • 해제 스크립트 • 확장성

해시	레인보우 테이블 • 매핑 • 머클경로 • 머클루트 • 머클트리 • 분산해시테이블(DHT) • 블록해시 • 스큐드 머클트리 • 온라인툴즈 • 이전블록해시 • 카뎀리아 • 해시 • 해시레이트 • 해시맵 • 해시충돌 • 해시테이블 • 해시파워 • 해시함수 • 해싱

블록	고아블록 • 그래핀 • 논스 • 마이크로블록 • 베이킹 • 북키퍼 • 브랜치블록 • 브로드캐스팅 • 블록 • 블록높이 • 블록바디 • 블록생성자 • 블록정보 • 블록타임 • 블록헤더 • 비츠 • 세그윗 • 엉클블록 • 완결성 • 제네시스블록 • 타임스탬프 • 프룻 • 프룻체인

체인	더블체인 • 라이트닝 네트워크 • 라이트닝 루프 • 루트체인 • 루프체인 • 메인체인 • 방향성 비순환 그래프(DAG) • 베리파이어블 프루닝 • 블록격자 • 블록체인 • 사용자 활성화 소프트포크(UASF) • 사용자 활성화 하드포크(UAHF) • 사이드체인 • 서브체인 • 소프트포크 • 오페라체인 • 오프체인 • 온체인 • 인터체인 • 차일드체인 • 체인 • 탱글 • 테스트체인 • 토카막 네트워크 • 포크 • 포크체인 • 퓨어체인 • 프로덕트체인 • 프루닝 • 프리포크 • 플라즈마 알고리즘 • 플라즈마캐시 • 플래시 계층 • 하드포크 • 해시그래프 • 홀로체인

노드	검증인(밸리데이터) • 기본노드 • 노드 • 라이트노드 • 랜덤노드 • 마스터노드 • 베이킹노드 • 보조노드 • 보증노드 • 슈퍼노드(슈퍼대표, 대표노드) • 슬롯 • 슬롯리더 • 엔드포인트노드(레인저노드) • 의회 네트워크 • 작업노드 • 종단노드 • 종자노드(시드노드) • 중계노드 • 지갑노드 • 채굴노드(마이닝노드) • 쿼럼 • 풀노드 • 합의노드

샤딩	네트워크 샤딩 • 데이터베이스 샤딩 • 동적샤딩 • 샤드 • 샤딩 • 스테이트 샤딩 • 알고리즘 샤딩 • 적응형 상태 샤딩 • 체인샤딩 • 트랜잭션 샤딩

채굴	병합채굴 • 사전채굴 • 에이식(ASIC) • 에이식부스트 • 에이식 저항 • 일드파밍 • 채굴 • 채굴 난이도 • 채굴량 • 탄소감축채굴 • 페어런치

탈중앙화	TVL • 거버넌스 • 다오(DAO) • 다이코(DAICO) • 닥(DAC) • 닥스(DAX) • 덱스(DEX) • 디앱(DApp) • 디지오(DGO) • 디튜브 • 디파이(DeFi) • 분산경제 • 분산원장(DLT) • 분산 클라우드 • 씨파이(C-Fi) • 오프체인 거버넌스 • 온체인 거버넌스 • 원장 • 준중앙화 • 중앙화 • 탈중앙화 • 탈중앙화 TPS • 탈중앙화 조직(DO) • 탈중앙화 지수(DQ)

분산아이디	DIDs • IETF • ToIP • 검증가능한 자격증명 • 검증인 • 디지털아이덴티티재단 • 발급자 • 보유자 • 분산아이디(DID) • 분산아이디 기관 • 분산아이디 인증(DID Auth) • 아이온 • 자기주권 • 자기주권신원 • 최소화된 자격증명 데이터 • 탈중앙화 키관리시스템 • 통합해석기

오라클	상호인증 블록체인 • 오라클 • 오라클 머신 • 오라클 문제 • 오라클 서비스 • 중간자

BIP	BIP • BIP9 • BIP16 • BIP32 • BIP39 • BIP43 • BIP44 • BIP47 • BIP49 • BIP63 • BIP70 • BIP84 • BIP141 • BIP148

ERC	ERC • ERC-20 • ERC-165 • ERC-223 • ERC-621 • ERC-721 • ERC-777 • ERC-827 • ERC-884 • ERC-998 • ERC-1155 • ERC-1404

위키 : 자동차, 교통, 지역, 산업, 기업, 단체, 업무, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

개발 : 프로그래밍, 소프트웨어, 데이터^□^■^⊕, 솔루션, 보안, 하드웨어, 컴퓨터, 사무자동화, 인터넷, 모바일, 사물인터넷, 게임, 메타버스, 디자인

데이터	ACID • CRUD • CSV • DAO • DB • DBMS • DB 명령어 • DCL • DDL • DML • DTO • ERD • ETL • JDBC • LOD • MDM • ODBC • RDBMS • RDF • SQL • 가상 데이터베이스 • 관계형 데이터베이스 • 그래프 • 기본키(PK) • 내부조인 • 널 • 노드 • 다이어그램 • 대리키 • 대체키 • 데이터 • 데이터댐 • 데이터마트 • 데이터 모델링 • 데이터뱅크 • 데이터베이스(DB) • 데이터베이스 언어 • 데이터 사이언스 • 데이터 사전 • 데이터 웨어하우스 • 데이터 정의어(DDL) • 데이터 제어어(DCL) • 데이터 조작어(DML) • 데이터 클러스터 • 데이터 토큰 (문자열) • 데이터 통합 • 덱 • 디비서버 • 라이트조인 • 락 • 레코드 • 레프트조인 • 로그 • 로그파일 • 로깅 • 롤백 • 리두로그 • 릴레이션 • 마스터데이터 • 마스터데이터관리(MDM) • 마이그레이션 • 메타데이터 • 배열 • 뷰 • 빅데이터 • 서브쿼리 • 수퍼키 • 순차리스트 • 스키마 • 스택 • 슬로우쿼리 • 엔티티 • 역정규화 • 연결리스트 • 외래키(FK) • 외부조인 • 인덱스 • 인덱싱 • 인젝션 • 자료구조 • 정규화 • 정보 • 조인 • 커밋 • 쿼리 • 큐 • 키 • 타깃 • 테이블 • 튜플 • 트랜잭션 • 트리 • 트리거 • 티비마이그레이터 • 풀조인 • 프로시저 • 필드 • 해시 • 해시맵 • 해시태그 • 해시테이블 • 해시함수 • 해싱 • 후보키

데이터베이스 관리 시스템 (DBMS)	관계형 데이터베이스 관리 시스템(RDBMS) • 노에스큐엘(NoSQL) • 데이터베이스 관리 시스템(DBMS) • 더비 • 디비투(DB2) • 레디스 • 마리아디비(MariaDB) • 마이에스큐엘(MySQL) • 몽고디비 • 빅테이블 • 사이베이스 • 선디비 • 알티베이스 • 액세스 • 에스큐엘(SQL) • 에스큐엘라이트(SQLite) • 에이치베이스 • 엠에스에스큐엘(MS-SQL) • 오라클(Oracle) • 인터베이스 • 인포믹스 • 카산드라 • 카우치디비 • 큐브리드 • 티베로 • 파이어버드 • 포스트그레스큐엘(PostgreSQL) • 하이퍼테이블

DB 명령어	alter • array • create • delete • drop • from • full join • grant • inner join • insert • join • left join • null • order by • outer join • rename • revoke • right join • select • truncate • update • where

시스템 연계	API • CGI • EAI • ESB • JPA • RSS • SOA • SOAP • SSL • SSO • web3.js • XML • 디비투디비(DB-to-DB) • 레스트풀(RESTful) • 상호운용성 • 시스템 인터페이스 • 신디케이션 API • 오픈 API • 웹 API • 웹개방성 • 윈도우 API • 자바 API • 크롤링 • 프라이빗 API

위키 : 자동차, 교통, 지역, 산업, 기업, 단체, 업무, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반