본문 바로가기 주 메뉴 바로가기
전체메뉴 전체메뉴 닫기

로그인 해주세요.

한국관광 데이터랩 우수 활용사례(2022) - 기타 부문 대상

관광 데이터를 이용한 서울시 따릉이 관광 코스 추천 웹 서비스 구현

성균관대학교 글로벌융합학부 데이터사이언스융합전공 - 김O우 외

Q1
소속기관 및 담당업무에 대한 간단한 소개를 부탁드립니다.

저희는 성균관대학교 글로벌융합학부 내 데이터사이언스융합전공에 재학중인 학생들입니다. 저희는 데이터사이언스융합전공 소속 데이터분석 학회 DScover에서 같은 프로젝트 팀에 소속되어 있습니다. DScover는 Data Science의 DS와 발견하다의 discover를 합친 뜻으로, 데이터 분석과 그 속의 인사이트를 발견하는 학과 유일 학회입니다.

주요 활동으로는 데이터분석 툴 세미나 진행, 관련 분야 스터디 진행, 데이터 분석을 통한 인사이트 도출 프로젝트 및 발표 대회, 스터디 진행, 방학 중 각종 공모전 참여, 학회 내 다양한 소모임 활동이 있습니다.

Q2
<한국관광 데이터랩>을 처음 접하게 된 계기 (경로)가 궁금합니다.
또 어떤 목적으로 얼마나 자주 <한국관광 데이터랩>을 방문하고 계신가요?

학회 내 데이터 분석 프로젝트를 진행하는 과정에서 ‘따릉이를 이용한 관광 코스 추천 웹서비스 구현’ 이라는 주제를 선정하게 되었고, 국내 관광 현황에 관한 데이터를 수집하기 시작했습니다. 이 과정에서 <한국관광 데이터랩>을 통해 다양하고 잘 정제된 형태의 국내 관광 빅데이터에 접근할 수 있단 사실을 알게 되었습니다.

학생의 신분으로는 구하기 어려운 데이터를 잘 정제되어진 형태로 무료로 접근할 수 있다는 것이 너무나도 큰 장점으로 다가왔으며, ‘관광’이라는 도메인은 다른 분야에 접목할 수 있는 가능성이 무한하며 모두에게 흥미로운 주제를 도출할 수 있기에 이후에도 다른 전공 수업이나 학회 활동에서 프로젝트를 진행할 때 <한국관광 데이터랩>에서 데이터를 구하는 경우가 종종 있었습니다.

Q3
<한국관광 데이터랩>을 포함하여 다양한 출처의 다양한 관광 데이터를 기반으로 실제 담당업무에 활용한 사례를 말씀해주세요.

학회 내 데이터 분석 프로젝트를 진행하는 과정에서, 주어진 따릉이 데이터를 어떻게 분석해 인사이트를 도출할 수 있을지 고민하던 중 ‘관광’이라는 도메인이 떠올랐습니다. 저희 팀은 따릉이 데이터의 분석을 통해 사용자들에게 새로운 도움을 줄 수 있는 서비스 구현하고자 하였는데, 남녀노소 모두가 즐길 수 있고 전 세계적으로 인기를 끄는 여가 활동인 ‘관광’이라는 도메인을 데이터 분석 과정에 접목한다면 많은 사람에게 도움을 줄 수 있는 서비스를 구현할 수 있을 것이라 생각했기 때문입니다. 또한 최근 코로나의 영향에서 벗어나는 과정에서 해외관광이 재개되고 관광 수요가 증가하고 있기에, 시기상으로도 적절한 주제라는 생각이 들었습니다.

이렇게 ‘따릉이를 이용한 관광 코스 추천 웹 서비스 구현’이라는 주제를 선정하게 되었고, 국내 관광 현황에 관한 데이터를 수집하기 시작했습니다.

<한국관광 데이터랩>에 있는 여러 관광 빅데이터 중 지역별 관광 현황 탭에 있는 서울특별시의 각 구별 관광 데이터를 수집했습니다. 이 중 중심관광지와 지역 맛집 데이터를 활용해 주요 관광지 정보, 맛집과 카페 정보, 주요 관광지의 여행 특성 분류, 주소 정보, 순위 정보 등의 데이터를 얻을 수 있었습니다.

수집한 데이터를 총 4단계의 전처리 과정을 거친 다음, TPS 알고리즘을 적용시켜 현재 위치를 기반으로 관광지 근처 식당/카페와 같은 여행 코스를 추천해주는 서비스를 구현할 수 있게 되었습니다.

우선 첫 번째로 구별 데이터의 결측치 파악과 중복된 장소의 데이터 제거 후, 관광지, 맛집과 카페의 위치 데이터를 Geocoding을 통해 위도, 경도로 반환하여 이를 토대로 따릉이 데이터 속 ‘따릉이 대여소 위치’와 각각의 맛집, 중심 관광지 장소 간 사이의 거리를 계산했습니다.

이를 통해 각 관광지와 맛집의 최단거리 따릉이 대여소와 최단거리 데이터를 새롭게 가공할 수 있었습니다. 그 다음 2차 전처리 과정에서는 각 구 별의 데이터를 통합시켜 최단거리가 200m이하인 곳만 선별하여 데이터를 축소하고 맛집 데이터는 카페/찻집과 일반 음식점으로 세분화 시켰습니다.

3차 전처리 과정으로 각 장소 별 구글 평점, 리뷰 수, 소요 시간을 조사하여 원래 있던 데이터에 추가한 후 여행 관광지 특성에 맞지 않는 데이터를 제거하 고 리뷰 수의 이상치를 제거하여 데이터를 정제해 나갔습니다. 이렇게 하여 구글 평점, 리뷰 수와 기존의 <한국관광 데이터랩>에서 제공한 관광지 순위를 기반으로 하여 저희가 독자적으로 관광지 순위를 매겼습니다.

<한국관광 데이터랩>에서 매긴 순위와 리뷰 수는 계급을 나눈 구간화를 진행해 항목별로 환산 점수를 매겼습니다. 이렇게 각 항목별로 결정된 환산 점수를 토대로 최종 순위 공식을 반영시켜 관광지와 일반 음식, 카페/찻집의 장소에 최종 관광지 순위를 산출했습니다.

위 전처리 과정을 통해 얻은 데이터들은 최단거리 경로를 구하는 TPS 알고리즘에 적용시켜 현재 위치를 기반으로 근처 식당/카페의 순위와 관광지를 추천하는 서비스를 구현하였습니다. 거리 데이터 활용 TPS 알고리즘을 구현하여, 사용자가 선택한 관광지들에 대한 가장 효율적인 최단 거리 경로를 반환할 수 있었습니다.

출발지와 도착지를 제외한 나머지 관광지로 모든 가능한 순열 조합을 생성하여 미리 만들어 둔 관광지 간 거리 데이터를 참조했고 각 루트 별 총 거리를 구하여, 여행 코스를 추천할 때 최단거리인 최적의 경로를 만들었습니다.

이렇게 독자적으로 순위를 산정한 데이터와 최적의 거리 경로 데이터를 토대로 현재 위치를 기반으로 한 따릉이 관광 코스 추천 서비스를 구현할 수 있게 되었습니다.

실제 웹 페이지의 모습을 살펴보면, 우선 메인 페이지에서 저희가 데이터 분석을 통해 만들어낸 저희의 관광지 순위대로 관광지들의 리스트를 보여줍니다. 사용자가 가고 싶은 관광지 몇 곳을 선택하고 상단의 루트/소요시간 구하기 버튼을 누르면 Fast API에 요청을 보내고, 그 내부에서 TSP 알고리즘에 기반한 분석이 진행되어 다음과 같이 여행 루트와 총 소요 시간이 반환됩니다. 사용자의 현재 위치는 Javascript의 기능을 사용해 현재 위도/경도 데이터를 입력 받을 수 있었습니다.

근처 식당 혹은 카페 확인하기 버튼을 누르면 현재 위치에 기반하여 5km 이내에 있는 식당 음식점들을 저희가 만든 순위 순으로 보여주게 됩니다.

저희가 구현한 관광 코스 추천 웹 서비스는 앞으로 서울 시내의 관광 뿐만 아니라 따릉이를 이용한 서비스이기에 따릉이 활용도 같이 활성화될 수 있으리라 확신합니다. 또한 개인의 위치를 기반으로 해 가장 가까운 정류소 위치, 근처 맛집 순위, 근처 카페 순위 등의 정보 제공으로 편리한 여행이 가능해질 수 있습니다. <한국관광 데이터랩>에서 제공한 관광지 순위 데이터를 토대로 리뷰 수, 평점 등이 반영되어 새롭게 관광지 추천 순위를 산출하면서 더 많은 사람이 만족하고 신뢰하는 관광지를 추천할 수 있게 되었습니다.

Q4
<한국관광 데이터랩>이 앞으로 보다 나은 서비스를 제공하기 위하여 어떤 부분이 개선되면 좋을까요?

한국관광 데이터랩의 지역별 분석 - 지역별 현황 - 지역별 관광 현황 부분에서 지역별, 특별시 및 광역 시의 경우 구별로 세분화된 유익한 관광 현황 데이터를 수집할 수 있었습니다. 저희는 지역별 중심 관광지, 인기 관광지, 지역 맛집 데이터를 통해 핵심적인 관광지들을 확인 및 확보하고, 그에 따른 순위를 데이터 분석에 활용했습니다.

하지만 본 데이터들의 경우 내비게이션 데이터를 기반으로 제공되므로, 차량 이동을 기준으로 한다는 특징이 있기에 실제 방문 연계 및 실제 방문자 수 하고는 차이를 보입니다. 따라서 내비게이션 데이터를 기반으로 한 관광지와 맛집 데이터뿐만 아니라, SNS 언급량이나 리뷰 개수 데이터를 기반으로 화제성이나 트렌드를 확인할 수 있는 관광지 및 맛집 데이터가 마련되면 좋을 것 같습니다.

또한 지역 맛집 데이터의 경우 한식 / 외국식 / 간이음식/ 찻집으로 분류되어 있으나, 외국식이 남미음식, 일식, 중식, 양식 등으로 좀 더 세분화된다면 데이터 이용자들이 인기 맛집에 대해 보다 정확하게 분석을 하는 데에 도움이 될 것 같습니다.