Urban Computing

[Urban Computing] 지식그래프와 도시 공간 스터디

이언배 2024. 5. 27. 16:25

지식그래프와 시멘틱 웹, 그리고 도시 공간.

 

1. 지식그래프 (김학래, 커뮤니케이션북스)

○ 데이터의 연결을 넘어 데이터에 의미를 부여해야 했었는데, 데이터가 증가하고 분산되어 있어서 여기에 의미를 부여하고자 시작된 것이 시멘틱 웹(Semantic Web), 제안 by 팀 버너스리(Tim Berners-Lee)

시멘틱 웹은  기계가 정보의 의미를 이해하고 처리할 수 있는 거대한 정보의 공간.지식을 표현하는 방법, 지식에 접근하기 위해 질의하는 방법, 지식의 추론 기법 등 표준화

링크드 데이터(linked data) 는 레거시 데이터에 시맨틱 웹 기술을 적용, 대규모 데이터를 시맨틱 데이터로 변환하는 기법.

지식그래프(by 구글) 는 온톨로지, 링크드 데이터 개념과 구현 방식이 유사.  기계가 인간과 동일하게 세상을 이해하는 데 필요한 지식을 만드는 것을 목표로 하는 기본 데이터.

○ 클라우스 슈밥(Klaus Schwab) said, 초연결사회는 온라인과 오프라인의 경계를 넘어 디지털 기술로 사람, 사물 등 모든 것이 긴밀하게 연결되는 사회.

○ 시멘틱 웹의 출발은 팀 버너스리 아저씨가 "information Management: A proposal), 정보관리를 위해 하이퍼텍스트 시스템으로 정보를 공유하자는 이야기였음. 그러니까, 이 때의 핵심은 하이퍼링크 였던 것. 목차를 보고 정보를 찾는 건 선형이지만, 인덱스(찾아보기)로 탐색하는 건 비선형적이니까

○ 일단 월드와이드웹(WWW) 에서 하이퍼텍스트는 (HTML Hypertext Markup Language: 하이퍼텍스트 기능을 가진 문서를 만드는 언어 / HTTP Hypertext Transfer Protocol 정보를 주고받기 위한 프로토콜로 클라이언트와 서버 사이의 요청과 응답으로 HTML 문서를 전송 / URI Uniform Resource Identifier 웹 서버에 있는 파일들의 위치를 표현) 를 통해 현실화됨. 

○ 시맨틱 웹에서 "의미"는 무엇인가? 시맨틱스(semantics, 의미론) 이란, 언어 기호와 실제 세계의 언어 표현에 대응하는 지시대상과의 의미적 관계. 신택틱스(syntactics, 구문론) 은 대상에 대한 의미를 고려하지 않고 기호와 기호 간의 형식적 관계를 다룬다는 의미.

온톨로지(ontology)란 무엇인가? 철학에서는 세계를 구성하는 대상들의 존재의 본질과 유형에 대한 이론.  컴퓨터과학에서는 개념과 그들간의 관계를 표현. 관심 영역에 대한 공유된 개념의 형식적, 명시화된 명세.  그러니까, "어휘의 내용을 명확하게 정의하고" + "어휘를 이용해 기술된 사실 사이의 논리적 관계로 새로운 사실을 추출"

의미(meaning) 이란? 원래 HTML 로 쓰여진 문서들이 있다면, 얘들이 가진 정보들 끼리는 링크로 연결되지만 명시적 관계를 정의하지는 못함. 예를 들어 "철수가 파리(Paris)를 좋아한다" 가 있으면, 철수-파리는 개체고, 좋아한다 는 연결관계이지만 이게 뭔소리인지 알 수도 없고 해석도 달라짐. 하지만 시맨틱 웹에서 개체들은 '좋아한다' 의 관계를 명시적으로 정의하고 기계가 처리 가능한 언어 = '웹 온톨로지 언어' 로 표현.

○ 트리플 (triple) : 철수(개체 subject) likes (속성 Attribute) Paris (대상 object) 모델로 표현. 그러니 시멘틱 웹을 구현하기 위해 기계가 사람처럼 생각할 수 있도록 정보자원들 간의 관계를 컴퓨터가 알아먹는 방식과 언어로 표현하는 과정이 온톨로지.

○ 링크드 데이터: 웹을 거대한 데이터베이스로 만들기 위해 웹 표준과 온톨로지를 연계.

○ 컴퓨터가 직접 처리할 수 있는 형식의 온톨로지 기술 언어: 자원기술명세(RDF, Resource Description Framework), 웹온톨로지언어(OWL Web Ontology Language) 등.

○ 지식그래프: 고릴라 를 검색했을 때, 동물 고릴라가 나올 수도 있지만, SBS 라디오 고릴라가 나올 수도 있다. 단순히 텍스트 검색이 아닌 의미를 이해하고 결과를 제시하는 것이 중요. 그러니까 지식그래프는 데이터베이스에 저장된 모든 데이터에 의미를 부여하여 사용자의 입력에 정확한 결과를 제시하는 기술. 모든 데이터에 인간이 이해하는 개념을 부여해서 검색의 범위를 정확하게 한정. 구글의 허밍버드(hummingbird) 라는 검색 알고리즘 참고. 이 방대한 지식 데이터를 갖기 위해서 위키피디아의 링크드 데이터를 참고하여 디비피디아 를 만듦. --> 메타데이터 가 필요.

 

2. Silvennoinen et al.-2023-Journal of Urban Management

Silvennoinen et al.-2023

○ 싱가폴의 토지 이용 규제 데이터를 시멘틱 웹으로 결합하여 고오도화 된 쿼리를 가능하게 하는 것이 목적.

○ 온톨로지는 기존에 규명되어있는 의미와 그 관계들을 명시적(formally) 으로 표현한 것. OWL(Web Ontology Language) 가 필요. 기존의 relational database 에는 개별 schema 에 데이터의 의미가 저장되어있었지만 semantic web approach 에서는 triple 에 데이터가 저장되어있음.

○ geographic data 는 워낙에 복잡하고 combine 되어있고 형태와 소스가 다양하기 때문에 semantic web 접근이 쓸만함.

온톨로지를 바탕으로 network 를 구성한 예시

과정1. 온톨로지의 목적과 범위 설정 (질문의 예시: 주어진 plot 에서 어떠한 land use, mix 가 허용되는가? 특정 land use, mix 가 혀용되는 다른 plot은 어디있는가? 등.  Google Maps Places or OSM 태그와 정부 데이터 셋 등을 활용) >> 과정2. 기존 온톨로지의 재사용 포텐셜 검토(LBCS-OWL2 ontology (geospatial parcel data 를 위해 개발, iCity suite, LBCSv2, ) >> 과정3. 온톨로지에 포함될 용어와 자료 리스트업(구글맵스와 토지이용규정(LBCS) 에 나온 규제, 용도 등을 활용) >> 과정4. 용어와 단어의 번역, 변환, 누락된 정보의 보완 >> 과정5. Protege 를 사용한 logical ontology 의 생성과 평가(Python library Owlready2와 protege 활용) >> 과정6. 쿼리를 위한 ontology to geospatial data 연결 (CityGML format 으로 업로드해서 지식그래프를 만들었음, RDFlib library: 온톨로지를 만들어서 RDF 파일로 생성해줌, Blazegraph 로 그래프 데이터베이스를 만듦, City Knowledge Graph 라는 프로젝트가 있음, SPARQL wapper , geopandas, contextily library 로 query 도구를 만듦.)

 

3. City knowledge graph(ETH Zurich, Future Cities Laboratory)

○ 2023년 9월에 종료된 프로젝트. 싱가폴과 취리히 대학에서 진행. 도시에 대한 지식과 데이터를 결합하기 위해 진행된 연구.

○ 연구 목표는 1. Understanding City Dynamics 2. Improving city data and knowledge systems 3. Integrating City planning .

 

4. Chadzynski et al-2023-Cambridge University Press: Semantic 3D city interfaces

○ 연구 목적은 augmented 3D city modelling 을 위한 geospatial knowledge graph 의 활용

○ 기존 Web2.0 에서 geospatial web service 들은 interoperability 의 문제가 있었음. 이걸 해결하고자 지식그래프 기반의 3D City DB 를 참고하고자 함.

○ 공간적 범위, 특정 영역에 대한 query 를 고속화하여 3D로 빠르게 보여주는 것이 목적.

 

5. Gupta et al.-2016-IEEE-A sementic web and linked data based framework for Smart City data management

○ mutiple domain 의 도시 데이터를 쉽게 integrate 하고 query 할 수 있게 도와주는 framework 의 개발

○ 학생들을 위해 제공되는 Semantic web app 의 예시: Protege Eclipse(포로테제 이클립스), Jena, Pellet 등.

○ 구글 Refine: 구글 정제 및 확장 프로그램. 거의 모든 유형의 데이터 형식을 지원함. Google Refine 은 엑셀파일을 가져와서 RDF 스켈레톤과 함께 RDF 형식으로 데이터를 내보냄.

728x90