default_top_notch
default_news_top
default_news_ad1
default_nd_ad1

번역메모리(TM) 활용에서 언어데이터 수집이 중요한 이유

기사승인 2019.03.26  11:11:20

공유
default_news_ad2

데이터는 올바르게 수집·이해·정리 및 분류가 가능할 때 가치를 지닌다. 풍부한 메타데이터와 획기적인 분류법을 적용하는 것은 언어데이터 수집에 있어 특히 중요하다. 

번역메모리(Translation Memory, TM)를 구현하면서 정리·정제되지 않은 데이터를 활용하지 않고 통계기계번역(Statistical Machine Translation, SMT)엔진을 구현하는 것은 유용하지 않음을 우리는 그간의 경험으로 알고 있다.

오늘날 전세계에서 99%의 번역을 처리하는 기계번역(Machine Translation, MT)엔진이 사용하는 대부분의 데이터는 관련 업계와 ‘관련이 거의 없는’ 데이터를 사용하고 있다. 

사실 대규모 MT 프로젝트를 성공적으로 수행하기 위해서는 올바른 종류의 데이터를 생성하는 데이터의 수집, 또 이를 다루기 위한 데이터 생성 단계가 포함된 일련의 프로세스를 구축하는 것은 매우 중요하다.

현지화된 데이터는 유용할 수 있지만, 비즈니스 목적에 맞는 최적화된 교육데이터를 작성·개발하는 것이 가장 바람직하다고 할 수 있을 것이다. 그리고 이는, 오늘날 디지털 시장에서 디지털 경험을 이끌어내는 콘텐츠에서도 마찬가지로 적용된다.

“지능형 콘텐츠는 구조적으로 풍부하고, 의미론적으로 분류되어 자동으로 검색이 가능하며, 재사용할 수 있고, 재구성이 가능하며, 적응력이 우수한 콘텐츠를 말한다.”

올바른 언어데이터는 어디에 있는가?
오늘날의 번역 서비스는 99.99% 이상이 MT를 통해 수행된다. 주요 온라인 MT엔진에 활용되는 대다수 교육데이터는 전통 산업 분야 이외에서 수집된 정보다.

관련 업계의 플레이어(경쟁관계의 기업들)가 제공하는, 사용할 수 있도록 가공이 가능하며 비즈니스 용도로 사용할 수 있는 데이터는 적은 편이라고 할 수 있다. 실제로 활용될 수 있는 데이터(뭉치)는, 관련 시장에서 경쟁하고 있는 다수의 기업들 모두 사용하기에는 턱없이 부족한 실정이다.

중요한 점은, 오늘날 웹 크롤링을 통해 수집된 데이터가 여러 번역 데이터베이스 플랫폼에 저장되어지고 있다는 점이다. 현재 가장 많이 활용되고 있는 온라인 MT엔진에 사용되는 데이터는 수백만 개의 웹사이트, 또는 관련 정보가 집적되어 있는 다수의 데이터베이스를 손쉽게 찾아볼 수 있다.

흥미롭게도 깃허브에 공개되어 있는 bicleaner , TMop , Zipporah와 같은 오픈소스 소프트웨어, 또는 ParaCrawl, Okapi CheckMate와 같은 공공기금 프로젝트는 언어데이터를 수집·분류·체계화 및 정리하기 위해 성장하고 있으며 많은 개발자들이 활용하고 있다.

CAT 도구(tool)와 TMS가 번역전문가, 기업에서 언어데이터를 생성하는 주요 수단으로 활용되는 한 TM은 계속 주목을 받을 것으로 확신한다. 그리고 여기에서 파생되는 2개의 질문에 귀를 기울여볼 필요가 있다.

“원래 동일한 데이터베이스 저장소의 서로 다른 데이터세트를 동일한 시장에서 사용할 수 있는 가능성은 얼마나 될까? 또 하나, 합성데이터는 어떻게 적용될 것인가?”

위의 질문을 통해 알 수 있는 것은, 우리는 올바른 데이터소스를 선택·사용해야 하는 과제를 해결해야만 한다는 사실이다.

관련 시장 플레이어들로 인한 ‘경쟁의 역설(coopetition paradox)’ 효과에도 주목해야 한다. 다양한 번역 솔루션 기업들이 현재 MT기술 고도화를 위한 협력에 나서고 있으나, 이들 대부분은 관련 산업 전체에 이익이 되는 기술의 고도화보다 시장에서의 경쟁력 확보를 위한 노력에 더 치중하고 있을 뿐이다.

글 : 루이지 무지(Luigi Muzii) / 비즈니스 컨설턴트 / SDL

최태우 기자 desk@theinterface.kr

<저작권자 © 인터페이스뉴스 무단전재 및 재배포금지>
default_news_ad5
default_side_ad1
default_nd_ad2

인기기사

set_C1
default_side_ad2

포토

1 2 3
set_P1

섹션별 인기기사 및 최근기사

default_side_ad4
default_nd_ad6
default_news_bottom
default_nd_ad4
default_bottom
#top
default_bottom_notch