728x90
반응형
[컴퓨터월드] 우리는 정보 홍수 시대에 살고 있다. 정보가 기하급수적으로 늘어나면서 필요한 정보 또한 이에 비례해 늘어나고 있다. 그러나 필요한 정보를 찾아내는 것은 쉬운 일이 아니다. 빅데이터 분석을 위한 검색 기술의 필요성이 높아지고 있는 이유다. 과거 웹 문서 또는 기업 내 문서를 위한 검색 중심에서 이제는 빅데이터 중심의 검색으로 검색 시장이 변화하고 있는 것이다.
대용량 데이터를 체계적으로 관리하고 필요한 정보를 빠르게 찾을 수 있는 검색엔진 서비스를 제공하고 있는 기업들을 만나 이야기를 들어봤다.
늘어나는 데이터에 비례해 검색 시장도 성장
한국데이터산업진흥원에 따르면 검색엔진은 구글이나 네이버 등 포털업체들이 웹상에서 불특정 다수를 대상으로 검색 서비스를 제공할 수 있도록 해주는 핵심 소프트웨어다. 기업이나 공공기관에서 그동안 축적해온 방대한 콘텐츠를 관리하기 위한 수단으로 활용하는 경우가 많다. 이것을 기업용 검색엔진(이하 검색엔진)이라고 한다.
검색엔진은 데이터베이스(DB)에 축적되고 정리돼 있는 정보 가운데 사용자가 필요로 하는 정보를 신속하게 찾아내는 소프트웨어다. 방대한 양의 기업 정보를 효율적으로 관리하고 신속한 의사결정을 뒷받침하기 위해서 반드시 필요한 솔루션이다. 기업 내부의 애플리케이션들을 통합하고, 기업 정보에 접근하는 방법을 단일화하려는 요구가 늘어나면서 검색엔진의 중요성은 더욱 강조되고 있다. 기업이 적재하는 데이터의 종류가 다양해지고 데이터의 양 또한 기하급수적으로 늘어나고 있어 이를 손쉽게 검색 및 분석, 처리해 활용하고자 하는 수요 또한 증가하고 있다.
IBM의 2021년 자료에 따르면, 전체 데이터의 80% 이상이 비정형 데이터로 기업의 95%가 비정형 데이터를 우선적으로 관리, 분석하고 있는 것으로 조사됐다. 그러나 이전에는 활용하지 않았던 비구조적 데이터들이 분석 대상에 포함됨에 따라 이를 어떻게 검색하고 분석해 활용해야 할지 모르는 기업들이 아직 대다수인 것으로 나타났다. 방대한 양의 데이터를 검색 및 분석할 수 있는 기술 및 제품에 대한 요구가 커지면서 검색 기술을 필요로 하는 시장 역시 지속적으로 성장할 것으로 예상된다.
옛 기법과 새로운 기법의 적절한 조화 필요
과거에는 사용자가 입력한 검색어와 잘 매칭된 결과를 제공하면 좋은 품질의 검색 서비스로 인식됐다. 이런 이유로 많은 검색 관련 회사들은 양질의 검색 결과를 제공하기 위해 사전 및 랭킹을 기반으로 확장된 검색 내에서 사용자가 만족할만한 결과를 내보내는 방식에 대해 고민했다. 하지만 최근 사용자들은 단순히 색인 데이터베이스에 매칭된 결과가 아닌 의미적으로 정확도가 높은 결과를 원하고 있다. 검색 서비스를 제공하는 기업 입장에서는 그만큼 어려운 과제가 생겨난 것이다.
와이즈넛 권준성 실장은 “과거 검색엔진에 대한 요구사항 중에는 ‘개인화 검색’이 있었다”고 말했다. 개인화 검색은 나만의 검색 결과와 키워드를 기반으로 AI가 머신 러닝을 통해 자동으로 사용자의 패턴을 찾아 검색 영역을 구축해주는 것이다. 여기서 개인화가 확장되면 여러 사람들의 검색 결과를 공통적으로 모아 집단 지성의 검색 결과를 보이면서 ‘추천 검색’으로 확장될 수 있다.
코난테크놀로지 오창민 기업부설연구소 인텔리전트엔진그룹 상무는 ‘문서 추천’과 ‘쿼리 추천’을 언급했다. 문서 추천은 검색 결과 이외에도 사용자가 관심을 보일만한 문서를 추가로 보여주는 것이다. 쿼리 추천은 검색 버튼을 누르기 전에 사용자에 입력하는 쿼리를 자동 완성시켜주는 기능이다. 이들 추천은 이미 십여 년 전부터 검색엔진 서비스에서 일반적인 기능으로 제공하고 있다. 오창민 상무는 “최근 사용자 검색 로그를 정교하게 분석해 자동완성 기능의 정확도를 높이는 연구가 이뤄지고 있다”고 말했다.
NHN다이퀘스트 검색그룹 오종건 전무는 “사용자가 원하는 결과를 찾기 위해 여러 키워드를 반복적으로 검색하는 과정을 보다 단축시키려는 노력이 현실화되고 있다. 말뭉치를 학습시켜 단순히 검색어 매칭이 아닌 질문의 의미를 엔진이 파악하게 해 자국어뿐만 아니라 외국어로 이뤄진 문서까지 검색을 확장하는 연구도 진행되고 있다”며, “가까운 미래에는 검색어를 단순 키워드가 아닌 복합 질문의 형태로 입력하게 될 것이다”라고 말했다.
서로 연관성이 없어 보이는 데이터를 군집화 또는 분류함으로써 좀 더 용이하게 검색 및 분석 할 수 있는 기술들에 대한 요구 또한 높아지고 있다. 이를 위해서는 기계학습과 같은 인공지능 방법론과 함께 전통적인 검색 기법도 필요하다. 다양한 형태의 비구조적 데이터를 검색 및 분석할 수 있는 형태로 저장하는 것은 기존 검색 기법에서 많은 연구가 이루어진 분야다. 이들 데이터를 분석하기 위해서는 인공지능을 활용해야 하기 때문에 기존의 검색 기법과 새로운 방법론을 적절하게 조화시켜 나가야 할 것이다.
코난테크놀로지 오창민 기업부설연구소 인텔리전트엔진그룹 상무는 “인공지능(AI) 기술을 검색엔진에 접목할 수 있는 방법이 무엇보다 중요하다. 생각할 수 있는 한 가지는 AI로 만들어지는 벡터 형식의 데이터를 검색할 수 있게 해주는 것”이라고 말했다. 현재 벡터 검색을 할 수 있는 공개된 알고리즘은 이미 시장에 나와 있다. 다만 대다수 알고리즘은 인-메모리 기반으로만 동작하고 있어 10억 건 이상의 대용량 데이터를 검색하기 위해서는 테라바이트에 가까운 메모리가 필요해 비용에 대한 부담이 크다.
오창민 상무는 “메모리는 휘발성이 있기 때문에 벡터데이터를 디스크에 주기적으로 동기화 해야 하는 문제를 해결해야 한다. 벡터검색 결과와 기존 키워드 검색 결과를 어떤 식으로 결합하고 정렬할 것인지도 고려해야 한다”고 조언했다. 물리적인 측면에서 디스크 기반 초대용량 벡터 검색을 지원해야 하고, 논리적인 측면에서는 기존 검색엔진 로직에 벡터 검색을 자연스럽게 융합시켜야 하는 두 가지 기술적인 이슈가 해결돼야 한다는 것이다.
반응형
클라우드 속 데이터 관리 방법이 관건
최근 ICT 인프라 환경은 온프레미스에서 클라우드로 변화하고 있다. 정부 역시 클라우드 대전환을 주요 과제로 삼고 디지털 플랫폼 정부를 외치고 있으며 클라우드 환경에 최적화된 소프트웨어(SW)와 인프라에 대한 요구가 지속적으로 증가하고 있다.
그동안은 기업 및 기관들은 솔루션 개발사가 제공하는 라이선스 형태로 솔루션을 도입했으나. 지금은 오픈소스 검색엔진을 활용하는 사례, 클라우드 기반 서비스형 소프트웨어(SaaS)를 활용해 검색 서비스를 제공하는 사례가 증가하고 있다.
와이즈넛 권준성 실장은 “과거 온프레미스 기반으로 기간계 시스템, ERP 시스템과 같은 문서 관리 시스템 등을 통합해 관리하고 검색했다면 지금은 클라우드의 자원을 활용해 업무 시스템의 확장성에 대한 요구가 늘어나고 있다”고 말했다. 데이터의 양이 많아지면서 클라우드에 있는 데이터들을 어떻게 하면 쉽게 수집하고, 쉽게 검색할 수 있는지가 관건이라는 것이다. 와이즈넛 제품은 클라우드 환경의 설정을 동기화해 복잡하고 다양한 노드 구성을 손쉽게 설정할 수 있다. 1개 노드의 설정만 변경해도 다른 노드들에 자동으로 적용돼, 환경 구성 시 사람의 실수를 줄이고 이를 통해 기존 대비 인력 리소르를 절감하는 효과를 가져온다. 설정 변경 후 재기동이 불필요해 무중단 검색 서비스도 제공하고 있다.
프로텐 또한 서버 이중화 및 색인 이중화 기능과 손쉬운 서버 확장(Scale out) 기능을 제공하고 있다. 멀티 프로세스/스레드(Thread) 병력 색인 처리와 같은 분산 검색구조를 지원하며, 데이터에 대한 색인 완료 이후 운영단계에서 추가 컬럼이 생겼을 경우 해당 정보만 색인을 추가할 수 있는 안정적인 검색 시스템을 운영하고 있다.
품질 유지 위한 지속적인 유지 보수 필수
대부분 검색엔진 서비스는 엔진 설치 후 데이터를 수집하고 색인화하는 구조를 기반으로 하고 있다. 웹 검색 특성상 도메인 데이터 성향에 따라 적용되는 구축 방식과 기법은 천차만별이다. 검색 엔진 솔루션 설치 후 계속해서 추가/수정되는 데이터가 존재하기 때문에 품질 유지를 위해서는 지속적인 유지 보수가 절대적으로 필요하다.
출처 : http://www.comworld.co.kr/news/articleView.html?idxno=50744
728x90
반응형
'데이터 라벨링' 카테고리의 다른 글
데이터라벨링 교육 내일배움카드 최종 합격 (0) | 2023.01.26 |
---|---|
크라우드웍스 AIDE 2급 취득 후기 (1) | 2022.12.24 |
영수증 앱테크 : 칸타모바일패널 가입했습니다. (0) | 2022.12.23 |
'데이터 라벨러' 새 직업으로 공인(NEWS) (0) | 2022.12.21 |
크라우드웍스, 코스닥 상장예비심 청구 (0) | 2022.12.21 |