Diki 검색중...
#개념
개체명 인식(Named Entity Recognition, NER)은 자연어 텍스트에서 특정한 의미를 가진 단어 또는 구를 찾아내어 미리 정의된 범주(예: 인물, 장소, 조직, 날짜, 수치 등)로 분류하는 기술이다. 이는 정보 추출(Information Extraction)의 핵심 과제 중 하나로, 문장 내에서 중요한 개체를 구조화된 데이터로 변환하는 역할을 한다. NER은 일반적으로 두 단계로 구성된다.NER 구성 단계
- 개체 경계 식별(Entity Boundary Detection): 문장에서 개체가 어디서 시작되고 끝나는지를 찾는다.
- 개체 유형 분류(Entity Classification): 식별된 개체가 사람, 장소, 조직, 시간, 수치 등의 카테고리에 속하는지를 결정한다.
스티브 잡스
는 인물(Person), 애플
은 조직(Organization)으로 인식된다. 이러한 NER 접근 방식은 크게 세 가지로 구분된다.NER 접근 방식- 규칙 기반 방식: 정규 표현식이나 사전(Dictionary) 매칭 규칙을 이용하여 개체를 추출한다.
- 통계 기반 방식: HMM, CRF와 같은 확률적 시퀀스 모델을 학습하여 개체 경계와 유형을 추정한다.
- 딥러닝 기반 방식: BiLSTM, Transformer, BERT 등의 신경망을 활용해 문맥 정보를 반영하여 높은 정확도의 개체 인식을 수행한다.
#관련 용어
텍스트 내에서 특정 의미를 가진 이름(예: 인물명, 지명, 기관명, 시간, 수치 등)
문장 내 각 단어에 대해 태그를 부여하는 방식으로, 개체 경계와 유형을 식별하는 데 사용된다.
#직무 연관도
DA | Data Analyst보통
문서, 뉴스, 소셜미디어 데이터에서 핵심 개체 추출 및 분석
DS | Data Scientist밀접
NER 모델 설계, 개체 사전 구축, 딥러닝 기반 알고리즘 연구
DE | Data Engineer높음
NER 모듈 개발, 검색 및 QA 시스템에 통합
#사용 사례
NER은 비정형 텍스트를 구조화된 데이터로 변환하는 과정으로, 질의응답 시스템, 자동 요약, 추천 시스템, 리스크 분석, 법률 문서 검토 등에서 활용된다.
구글 검색은 뉴스 기사에서 개체명을 인식하여 인물, 사건, 기관 간의 연관성을 시각화한다.
#참고 자료
#추천 포스트
© 2024 diki All rights reserved.