일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- connectivity
- 스마트시티
- 도시계획
- 도시인공지능
- graphtheory
- Python
- 베이지안
- 서울
- 그래프색상
- 공간데이터
- 네이버
- spacesyntax
- 파이썬
- QGIS
- 베이지안뉴럴네트워크
- 그래프이론
- 공간분석
- platformurbanism
- naver
- digital geography
- 도시공간분석
- digitalgeography
- postgres
- 웹크롤링
- 서울데이터
- pandas
- 도시설계
- 핫플레이스
- multinomiallogitregression
- SQL
- Today
- Total
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- connectivity
- 스마트시티
- 도시계획
- 도시인공지능
- graphtheory
- Python
- 베이지안
- 서울
- 그래프색상
- 공간데이터
- 네이버
- spacesyntax
- 파이썬
- QGIS
- 베이지안뉴럴네트워크
- 그래프이론
- 공간분석
- platformurbanism
- naver
- digital geography
- 도시공간분석
- digitalgeography
- postgres
- 웹크롤링
- 서울데이터
- pandas
- 도시설계
- 핫플레이스
- multinomiallogitregression
- SQL
- Today
- Total
목록2024/12 (9)
이언배 연구노트

SHAP 은 날 미치게 해...왜냐하면 솔직히 잘 모르고 쓰기 시작했거든...진짜 모르는데 어떻게 썼지...? 문제가 심각하다지금 문제에 봉착하게 된 건 SHAP value 결과물을 저장하고 꺼내는 과정에서 시작되었지...한 번 돌아갈 때 940분 걸리는 코드를 세번이나 돌렸어...빌어먹을... 문제는... 한 번 더 돌려야돼... 우선 데이터를 불러오고, 학습모델을 돌린다.나는 Tree 모델을 썼으니, Random Forest 기준으로 작성한다. import pandas as pdfrom sklearn.linear_model import LinearRegression, LogisticRegressionimport numpy as npfrom scipy import stats from sklearn.me..

$n$ 개의 vertex가 있다고 했을 때, edge가 있을 확률을 $p$라고 주자. 이 자체가 probability space야.Definition.$q_n$: property $Q$ 가 probability space $\Omega_n$ 내에서 성립할 확률. Property $Q$ 는 $\lim_{n \rightarrow \infty} q_n = 1$일 때 거의 (almost always) 성립probability space $G(n, p)$: $p$ 를 $n$에 대한 function 이라고 했을 때, edge가 $p$ 확률로 있을 확률 공간, independently at random. 그래프 자체를 하나의 probability space 로 본 것. 또, 이 probability space로 만..

선형대수와 그래프 이론을 요렇게 조렇게 막 섞어서 다양한 성질을 살펴보자.왜냐하면, graph 는 finite vertices 의 binary relation 이기 때문이다. Definition.The adjacency matrix $A_{i, j} = \begin{cases}1 & \textit{ if } ij \in E(G) \\ 0 & \textit{otherwise} \end{cases}$i랑 j 가 edge로 이어졌니?The incidence matrix $B_{i,e} = \begin{cases}1 & \textit{ if } i \in e \\ 0 & \textit{otherwise} \end{cases}$vertex $i$ 가 edge $j$ 안에 들어가있니? Degree matrix $D..

10.1. The extremal numbers. graph 의 parameter 와 structure. 그래프에 관련된 수 (엣지, 노드 갯수)와 그래프의 구조를 연결시키는 그래프 이론.예를 들면, n-vertex graph 의 엣지 갯수가 삼각형의 갯수를 어떻게 보장할까? 뭐 이런.심플하게 생각하면, edge가 많을수록 삼각형도 많겠지. no triangle이 되게 하는 엣지의 최대 갯수는 몇 개일까? 이런 질문들이 가능.Definitionextremal number, Turan number, $ex(n, F)$: n짜리 그래프가 $F$ 를 subgraph로 갖지 않는 최대의 엣지 갯수. 엣지는 최대한 그리는데, F는 없게.Turan graph, $T_r(n)$: balanced complete r-..
내가 쓸 모델들은 총 4개. 1. Multinomial Logit Regression from sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_scorefrom sklearn.model_selection import train_test_split######################학습, 테스트 셋 구분# Split the dataset into training and testing setsX_train, X_test, y_train, y_test = train_test_split(X, Y, test..

데이터 구축이 끝났다.이제 지난번에 거쳤던 요리의 과정을 고스란히 다시 거쳐보는 작업이 남아있다.결과가 어떻게 나올지는 나도 잘 모른다.그냥 해야할 것을 차근차근 해보자.1. 전처리# 불러올 column들을 지정해주자.col_names = ['pmid', 'title', 'cls_main', 'digi_type', 'gro_flo_co', 'und_flo_co', 'total_area', 'bdtyp_cd', 'roa_cls_se', 'rds_dpn_se', 'road_bt', 'buld_age', 'dist_tord', 'dist_toapt', 'dist_tocbd', 'dist_tostation', 'mlsfc_cl']# 위 column 들로 query 문을 작성해보자.col_t..

내가 지금까지 활용한 데이터는 juso.go.kr 에서 제공하는 건축물 정보 데이터.geometry 가 가장 깔끔하고, 건축물 용도도 나오고, 가장 정리가 잘 되어있는 데이터다. 하지만 문제는, 준공연도, 건폐율, 용적률 등에 대한 정보 등 상세한 정보가 없다는 게 흠.그리고, 그런 상세한 데이터는 nsdi 데이터에 있는데,이녀석은 분명 key, id로 보였던 column 들에 중복이 있다...이런 잘못되어먹은 DB 같으니라고. 생각해보니, 이런 잘못되어먹은 DB의 데이터상의 한계를내가 극복할 (수 있다면 해야겠지만 한계가 있으니까 여기에 매달리고 있을) 수는 없지 않은가? 일단 붙여보자.우선, nsdi 데이터에서 가장 key (역할을 하는 것 처럼 보이고, juso 건물 데이터에도 있는 column 인..

가장 큰 관건이었던 데이터의 재생성 작업을 마쳤다.이제 남은 건 분석만 하면 된다.늘 그렇듯, 요리에 비유하면 재료 준비 과정이 가장 오래 걸린다. 이제 본격적으로 요리를 해볼 차례. 내가 붙여야 할 공간 변수들은도로 위계, 도로 등급, 도로 너비, 도로까지의 거리 (도로데이터)아파트까지 거리 (아파트 데이터)CBD까지의 거리 (CBD)지하철역까지의 거리 (지하철역)층수, 지하층수, 총연면적, 건물 용도, 건물 연식 (빌딩데이터를 juso 에다가 nsdi 건물까지)토지용도 (토지용도 데이터) 등이다. 일단, dtp_data_2024_buld 에 geometry 를 추가해준다.ALTER TABLE dtp_data_2024_buld ADD COLUMN geom GEOMETRY;UPDATE dtp_data_2..