일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- platformurbanism
- 도시설계
- 네이버
- 핫플레이스
- 도시공간분석
- pandas
- 서울데이터
- 파이썬
- digitalgeography
- QGIS
- 베이지안뉴럴네트워크
- postgres
- naver
- connectivity
- 그래프색상
- Python
- 스마트시티
- 웹크롤링
- 서울
- 공간분석
- multinomiallogitregression
- SQL
- digital geography
- 베이지안
- 도시인공지능
- graphtheory
- spacesyntax
- 공간데이터
- 도시계획
- 그래프이론
- Today
- Total
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- platformurbanism
- 도시설계
- 네이버
- 핫플레이스
- 도시공간분석
- pandas
- 서울데이터
- 파이썬
- digitalgeography
- QGIS
- 베이지안뉴럴네트워크
- postgres
- naver
- connectivity
- 그래프색상
- Python
- 스마트시티
- 웹크롤링
- 서울
- 공간분석
- multinomiallogitregression
- SQL
- digital geography
- 베이지안
- 도시인공지능
- graphtheory
- spacesyntax
- 공간데이터
- 도시계획
- 그래프이론
- Today
- Total
목록분류 전체보기 (71)
이언배 연구노트

이번에 해야할 태스크는 크게 1. PostGRES 에서 Third Place 정보를 불러온다2. Python 으로 Third Place 를 검색한 NAVER API 결과물을 JSON 형태로 얻는다3. 기존 검색 결과와 일치 여부를 확인한다4. 데이터베이스에 저장한다 로 이루어져있다. 여기서 고민해야할 부분은 3번과 4번.JSON 에서 정보를 추출하는 건 python 이 편할 것 같지만,추출한 정보와 기존 정보의 비교 및 저장을Python - csv 로 할지, Python - Postgres - Database 의 형태로 할지가 고민이다.내가 편하고 다루기 좋은 건 csv지만, 용량이 너무 아깝고, 시간도 느리다.Database 는 부가적인 작업이 필요 없지만 업데이트가 까다로운 경우가 있다. 그래, 기왕..

진짜 되도록이면 하나하나 map.naver.com/ 으로 쿼리하는 짓은 하고싶지 않다...그래도 NAVER API 는 공식적으로 제공해주는 데이터니까 조금 낫지 않을까?최소한, 정제되어있는 형태의 무언갈 주지 않을까...? 하는 기대에 NAVER API 를 무턱대고 시작해보았다. 1. NAVER Developers 에 가입하기네이버 개발자 센터 - NAVER Developers NAVER Developers네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, 단축URL, 캡차를 비롯 기계번역, 음developers.naver.com로 접근해서 API 신청에 필요한 정보를 얻으려고 했다.며칠 걸..

Mark Graham.Internet geography 의 대표주자...그가 쓴 책을 살펴보자.위키피디아와 구글 맵스로 cyberspace 의 geography 와 현실 세계에서 나타나는 현상을 전세계 기준으로 살펴본 아주 흥미로운 책이다. Temperance street, Manchester… 이전에는 관심받지 않던 동네. Google street view 가 없었다면 몰랐을. people virtually ‘be there’ in google’s street view예루살렘도 Wikipedia 를 통해서 사람들이 접한다. 영미권 위키피디아에서는 “이스라엘과 팔레스타인의 수도 주장”, 이슬람과 유대권에서는 각자 나라의 수도라고 주장. different people and communities wanti..

이제 손수 하나하나 검색하기 이전,내가 쓸 수 있는 마지막 재료를 넣을 차례다...이전, NDTP 들을 네이버에 손수 검색하는 크롤링 코드를 짜뒀던 나, 칭찬한다. 일단,전체 인허가 데이터: 208,664개전체 NAVER 데이터: 158,249개 1. 같은 건물에 비슷한 이름을 가진 데이터셋 (text similarity > 0.15): (VIEW: buld_match)1:1 매칭으로 105,338개(남은 인허가 데이터는 103,320개 (왜 합이 안맞냐면, 나도 몰라. 아니 왜 query 할때마다 숫자가 다른건데 미친거 아니야?) 2. 같은 도로에 비슷한 이름을 가진 데이터셋 (text similarity > 0.3):1:1 매칭으로 1,370개.(왜 이렇게 적나? 해서 QGIS로 확인해봤더니 진짜로 ..

나의 웹 크롤링 데이터는 어떻게 될 것인가...일단 이전에 크롤링해두었던 나에게 칭찬하며, 18,486개의 크롤링 데이터를 얻을 수 있었다. (파이썬에서 PostGRES로 옮겼다.)그 중에서 similarity 가 0.15이상인 녀석들은 아래와 같다 SELECT title, naver_check, similarity(title, naver_check) FROM overflow_resultWHERE similarity(title, naver_check) > 0.2 ORDER BY similarity ; 사실 네이버에서 매우 러프하게 검색한 결과물이어서 text similarity 를 더욱 보수적으로 잡아야하나 했지만,어차피 걸러낼 수 있는 가능성이 별로 없어보인다. 사실 이번 단계에서는 "네이버에서 검색된..

앞에서 같은 주소를 가진 인허가와 NAVER Place 의 매칭을 완료했다. 이제 남은 건 매칭에 실패한 인허가 103325개, 매칭에 실패한 NAVER place 52907 개를 매칭하는 것.베스트 시나리오는 저 NAVER Place 가 모두 인허가 데이터에 붙어 약 50000개만 손수 검색하면 되게 만들어주는 것 (하 진짜) 이지만,인생은 그렇게 호락호락하지 않다. 쓸 수 있는 전략은 2개다.1. x, y 포인트 좌표 사용하기인허가 데이터에는 5179 기준의 x, y 좌표가, NAVER 데이터에는 4326 기준의 x, y 좌표가 있다.다만, 인허가 데이터 중 학원 데이터 일부는 x, y좌표가 없고, 누락되어있는 경우도 상당하다. 2. 건축물 데이터 사용하기모든 데이터에는 건물 본번과 부번이 있다. ..

소스가 다른 두 데이터를 주소 기반으로 병합해서 표기해보자. naver_place 의 데이터는포인트 geom, 이름, (도로명) 주소 등. permit_place 의 데이터는title, (도로명) 주소 + (동), (손실이 많은) 포인트 geom, 개업일 등. 우선,1. 지난번에 고생했던 인덱싱을 개선하기 위해 두 데이터 소스에 각기 다른 id column 이름과 id 를 부여한다.2. 주소를 기반으로 같은 건물에 있는 장소들을 분류한다.3. 이름이 비슷한 녀석이 있으면, 인허가 데이터를 DTP로 분류한다. 일단, id 먼저 부여하자.naver_place 의 아이디는 nid 로, permit_place 의 아이디는 pmid 로 column 을 지정하겠다.--------------------------S..

내 연구는 소중하다. Digi-Third-Place 데이터는 Naver 등록 여부를 중심으로인허가 데이터는 2023년 7월 기준으로 영업중인- Eating: 식품자동판매기업, 제과점, 단란주점, 유흥주점, 관광식당, 휴게음식점, 일반음식점총 165592 개의 Point. - Recreation: 무도학원업, 서울시 학원 교습소정보(인허가 아닌 학원 정보)4265개의 Point.댄스학원, 무도학원은 인허가에서 받아왔지만 전체 학원 데이터는 교육부 데이터. 그래서 중국어, 어학원, 컴퓨터학원 등이 포함되어 있다. 대신 입시 중심의 학원은 확실히 제거된 것으로 보인다. - Commercial: 미용업, 이용업32879개의 뷰티, 네일샵, 및 이발소.이발소의 경우, 끝에 '이용원', '이발관' 없이 '정릉', ..