Other's책속의책

HOME > Other's > 책속의책
텍스트 데이터와 이미지 데이터 빅데이터와 인기메뉴  <통권 357호>
관리자 기자, foodbank@foodbank.co.kr, 2014-11-28 오전 03:14:05

텍스트 데이터와 이미지 데이터  

빅데이터와 인기메뉴 

 

도해용

•(주)레드테이블 대표

•세종대학교 외식경영학 박사

•세종사이버대학교 MBA 외래교수

•숭의여대 식품영양과 겸임교수

•한국외식산업학회 상임이사 

 

빅데이터와 인기메뉴 두 번째 글에서는 빅데이터를 이용해 인기메뉴를 추출하는 방법에 대한 기술적인 설명과 실제 활용할 수 있는 사례를 알아보겠다. 인기메뉴를 추출하기 위해 사용되는 빅데이터는 텍스트 데이터와 이미지 데이터로 나눌 수 있다. 

 

텍스트 빅데이터 이용한 인기메뉴 추출

소비자들은 자신의 경험을 다른 사람과 공유하기 위해 구전행위를 한다. 구전행위는 과거에는 글자 그대로 입에서 입으로 전파하는 행위였으나, 요즘은 인터넷과 모바일을 통해 구전을 한다. 이를 학문적으로는 e-WOM(Electronic Word of Mouth)라고 하는데 우리가 잘 아는 맛집 블로그와 맛집소개 사이트들의 글들이 대표적인 사례이다. 

사람들이 자신의 생각을 표현한 말과 글에서 의미를 추출해 내는 것을 내용분석(Content Analysis)라고 하는데 텍스트 빅데이터를 이용한 인기메뉴 추출은 내용분석의 진화된 방법이라 볼 수 있다. 

A라는 외식기업의 인기메뉴가 무엇인지를 파악하기 위해서는 해당 기업에 대한 소비자의 글을 수집해야 한다. 소비자의 글을 수집할 때 빅데이터 전문기업은 대량의 데이터를 수집하기 위해 데이터 수집을 위한 전용 크롤러를 개발하고 형태소 분석기, 품수 분석기 등을 개발한다. 하지만 일반기업에서는 무료로 공개된 인터넷 서비스를 이용해도 된다. 

먼저 전문기업들은 수집된 글에서 메뉴를 추출할 때 메뉴사전을 이용하는데, 메뉴사전은 메뉴명들을 모아놓은 데이터베이스로 보통 메뉴명의 사용빈도를 기준으로 만들며, 한국어 음식메뉴사전은 전자통신연구원에서 구축한 한국어 개체명 사전 DB와 한국관광공사에서 구축한 관광용어 외국어 용례사전, 한식재단의 한식 다국어 메뉴명 사전이 있다. 

구축된 메뉴사전을 이용해 메뉴명을 찾아내고 사용빈도를 측정하며, 결과물은 다음과 같이 메뉴별 사용빈도를 그림과 표로 보여준다. 

위 그림은 빅데이터 분석 전문 회사 다음소프트의 소셜인사이트 서비스에서 「불고기브라더스」의 인기메뉴를 분석한 결과다. 소셜인사이트(http://insight.some.co.kr/searchKeywordMap.html)에서 알고 싶은 외식브랜드 이름을 입력하고 검색한 후, 분석 대상을 상품으로 체크하면 메뉴의 사용빈도에 대한 분석결과를 볼 수 있다. 

또한 글에서 메뉴명을 추출할 때 메뉴명 앞뒤에 사용된 서술어를 분석하면 메뉴에 대한 소비자의 감정(부정/긍정)을 알 수 있다. 즉 이 메뉴에 대해 좋게 생각하는지 나쁘게 생각하는지도 파악할 수 있다. 

다음으로 전문기업이 아닌 일반기업이 이용할 수 있는 서비스로는 연합뉴스에서 제공하는 인터랙티브 그래프(http://data.yonhapnews.co.kr/graph/proc/gr_graph_list.aspx)와 워들넷(www.wordle.net)이 있는데 두 서비스 모두 분석을 하고 싶은 글을 복사해서 분석창에 넣고 버튼만 누르면 아래와 같은 분석결과를 쉽게 볼 수 있다. 

다만 빅데이터 분석 전문기업처럼 글에서 메뉴명을 추출한 후 분석하는 것이 아니라 글 전체에서 특정 단어들이 사용되는 빈도를 알아보는 방식이어서 분석결과가 메뉴 외에도 서비스, 분위기 등에 대한 내용이 들어가 있을 수 있다.

이러한 분석결과를 볼 때 주의할 점은 빅데이터 분석기업이 사용하는 메뉴사전이 부정확한 경우가 많다. 전자통신연구원에서 개발한 메뉴사전은 일반적인 목적의 개체명 사전으로 개별 매장의 구체적인 메뉴를 파악하기에는 한계점이 있다. 또한 한국관광공사에서 구축한 사전은 외국 관광객들을 위한 표준화된 레스토랑 메뉴판 작성을 목적으로 개발됐으며, 한식재단에서 구축한 다국어 메뉴사전도 실제 분류와 다른 경우가 많다. 

예시에서 제시된 불고기브라더스의 경우 인기메뉴로 분류된 소고기는 실제 메뉴명이 아니라 일반명사다. 따라서 분석결과의 메뉴명이 실제 매장의 메뉴명이 아닐 수 있음을 감안하고 결과를 볼 필요가 있다.

 

이미지 빅데이터를 이용한 인기메뉴 추출

기존 빅데이터 분석기업들이 텍스트에서 메뉴명의 사용빈도와 긍정, 부정을 통해 인기메뉴를 찾아내는 방법을 제시했다면, 최근에는 이미지에서 인기메뉴를 찾아내는 방법들이 제시되고 있다. 스마트폰이 일반화되면서 소비자들은 블로그나 SNS에 사진을 찍어서 올리는 경우가 많아지고 있다. 이렇게 사진을 많이 올리다보니 레스토랑을 검색하는 고객들이 사진을 보고 판단하는 경우가 많아지고 있다. 따라서 어떤 메뉴에 대한 사진이 많은지를 파악하는 것이 오히려 인기메뉴를 알아내는 더 좋은 방법일 수 있다. 

이미지 분석 기술이 발달하면서 이러한 분석이 가능해 지고 있다. 이미지 빅데이터에서 인기메뉴를 추출하는 방법은 수집된 이미지의 전처리와, 이미지 분할, 이미지 색상 측정, 이미지 분류, 분류 모델 개발, 기계학습 분류기 개발 등의 기술이 사용돼 일반인들이 쉽게 이용하기 어려우나, 그 결과물은 여러 방면에서 사용될 수 있다. 

예를 들면 필자가 농림축산식품부의 연구용역을 받아 개발한 메뉴 분석기술에서는 특정업체의 인기메뉴가 어떻게 변해왔는지를 구체적으로 볼 수 있다. 아래 사진은 2013년 요리계의 오스카상으로 불리는 미국의 제임스 비어드상을 수상한 데이비드 장의 모무후쿠 레스토랑의 대표 메뉴인 포크 번(Pork Bun)이 지난 5년 동안 어떻게 바뀌어 왔는지를 분석하고 이를 연도별로 나열 한 것이다. 포크 번 사진은 모두 고객들이 올린 사진이다. 

한국의 비빔밥과 일본의 비빔밥, 미국의 비빔밥이 어떻게 다른지도 이미지 빅데이터를 분석하면 알 수 있다.

물론 이미지 분석은 메뉴 이미지 수집 및 분류, 레스토랑별 메뉴명 추출 및 매칭, 메뉴 아이템별/레스토랑별 메뉴 이미지 분류, 메뉴 프리젠테이션 DB구축 등 다양한 기술이 적용되어야 하기에 아직은 상용화되고 있지는 않다. 하지만 이미지 수집과 분석 기술이 계속 발전하고 있기에 조만간 상용화될 것으로 기대된다. 


첨부파일1
 
2014-11-28 오전 03:14:05 (c) Foodbank.co.kr
quickmenu
월간식당 식품외식경제 한국외식산업경영연구원 한국외식정보교육원 제8회 국제외식산업식자재박람회