[엘라스틱서치 실무가이드] 한영오타 영한오타 교정하기

Posted by 김흥래 on April 17, 2019

다음은 엘라스틱서치 실무가이드의 일부 부분을 발췌한 내용입니다.

이미지01

7.2.2 한영/영한 오타 교정

한영 키보드로 검색어를 입력할 때 사람들이 가장 흔히 하는 실수 중 하나가 한영키 때문에 발생하는 오타다. 한글 검색어를 영문자판으로 설정해 두고 검색한다거나 반대로 영문 검색어를 한글자판으로 설정해 놓고 검색하는 경우다.

그림 7.2를 보자. 한글로 ‘삼성전자’를 검색하고 싶었지만 영문자판으로 검색어를 입력한 경우다. 이러한 경우에는 유니코드 관점에서 완전히 다른 코드가 입력된 것이기 때문에 편집거리로 비슷한 단어를 찾는 방식은 활용이 불가능하다.

이미지01

그림 7.2 구글에서 지원하는 영한 오타 교정

한글자판으로 설정해 두고 영문으로 검색한 경우도 마찬가지다. 영문으로 ‘apple’을 검색하고 싶었지만 한글 자판으로 검색하는 실수를 저지르는 경우다. 마찬가지로 편집거리 계산이 불가능하다.

이미지01

그림 7.3 구글에서 지원하는 한영 오타 교정

한영/영한 검색어의 오타 교정을 할 때는 다음 두 가지 방식 중 어떤 방식을 사용자에게 제공할지 생각해 봐야 한다.

  1. 해당 단어를 추천만 하는 방법
  2. 해당 단어를 추천하고 추천한 단어로 검색 결과를 보여주는 방법

구글의 경우 검색어로 한영키 오타가 유입됐다고 판단되면 오타가 교정된 검색어를 추천하고 추천된 검색어로 결과까지 출력한다.

이미지01

그림 7.4 구글에서 한글 키보드로 ‘apple’을 입력한 경우

네이버의 경우 사용자가 입력한 단어로 검색 결과를 일단 제공하고 추천 검색어를 상단에 노출해서 사용자가 선택할 수 있게 한다.

이미지01

그림 7.5 네이버에서 한글 키보드로 ‘apple’을 입력한 경우

검색 서비스에 따라 두 가지 방법을 선택적으로 사용하고 있으며, 사회적 이슈가 있는 특정 검색어의 경우 검색어에 따라 교차 적용하는 방법도 사용된다. 이는 검색 품질이 좋고 나쁨의 문제가 아니라 정책의문제임을 이해해야 한다. 각 검색엔진에서 검색 서비스를 어떻게 구현하느냐에 따라 기준이 달라지는 것이다.

검색어 자체가 영문으로 유입돼야 하는데 오타 교정 때문에 한글로 변형되어 의도치 않은 결과가 나오는 경우도 생길 수 있다. 예를 들어, 새로 오픈한 서비스 중 “DJVNP”라는 이름의 서비스가 생겼다고 가정해보자.

그런데 우연히 색인된 문서 중에 “어퓨”라는 이름의 상품이 존재한다면 어떻게 될까? 해당단어는 한영 오타 교정 로직상 “어퓨”로 변경될 수 있다. 하지만 운영자는 한영오타 교정이 되지 않은“DJVNP”라는 검색어로 검색된 결과가 노출되길 원할 것이다.

이처럼 미묘한 문제는 언제든지 일어날수 있다.




Always with you.
책관련 페이스북 Q&A : http://facebook.com/엘라스틱서치-실무-가이드-343249896296014
책관련 유튜브 채널 : https://www.youtube.com/channel/UCcAi2EzWdEobxRsJ14Zo6vg
책관련 문의 메일 : elasticsearch.guide@gmail.com
연관도서  
이미지02 엘라스틱서치를 이용하여 검색사이트 구축 및 운영을 분들을 위한 책입니다.

엘라스틱 실무가이드 (한글 검색 시스템 구축부터 대용량 클러스터 운영까지)
YES24 : http://www.yes24.com/Product/Goods/71893929
이미지03 검색 데이터가 내부적으로 어떻게 색인되는지에 대한 원리를 설명한 책입니다.

실전비급 아파치 루씬7 (엘라스틱서치 검색엔진을 향한 첫걸음)
YES24 : http://www.yes24.com/Product/Goods/66544696
이미지04 Logstash와 Kibana를 이용하여 데이터 시각화를 어떻게 하는지 설명한 책입니다.

실전비급 엘라스틱 스택6.4 (엘라스틱서치, 로그스태시, 비츠, 키바나로 데이터 수집부터 분석, 시각화까지)
YES24 : http://www.yes24.com/Product/Goods/67466481