분류 전체보기 17

TIL (24.10.16) - GitHub와 로컬폴더 동기화

GitHub / 로컬폴더 동기화1. 로컬 폴더에 깃허브의 브랜치를 연결시키는 방법>> git remote add origin {레포지토리 url}url 잘못 입력했을 때 : git remote set-url origin 등록한 url 확인 : git remote -v원격 저장소 삭제 : git remote remove origingit push origin 브랜치명 : 로컬에서 작업한 내용을 원격 저장소에 푸시하는 명령입니다. 이 명령어의 각 부분을 자세히 설명하면 다음과 같습니다:git push: 로컬의 커밋된 변경 사항을 원격 저장소로 푸시합니다.origin: 푸시할 원격 저장소의 이름입니다. Git에서 원격 저장소는 보통 origin으로 설정됩니다.master: 푸시할 브랜치의 이름입니다. 보통 m..

카테고리 없음 2024.10.16

TIL (24.10.15) - Git/GitHub

git.bash 와 cmd 의 차이점 cmd 는 Window에서 내장된 명령어만 명령이 가능하다.>> powershell을 출시했지만, 뭔가 조금 부족하다.>> git.bash 는 리눅스에서 쓰이는 명령어가 전부 동작한다.경로 중 "~" (틸다)는 Home directory 를 의미한다.>> 어느 경로에 있던 cd ~/Desktop 을 하면 이동이 가능하다.+ pwd : 현재 위치 보기그 외 다양한 리눅스 명령어들chmod >> 접근 권한 변경 명령어지만, root 권한이 있어야 사용 가능(Window는 사용 불가)cp >> 파일/폴더를 복사하는 명령어mv >> 파일/폴더를 이동하는 명령어code .  >> 현재 경로에서 VSCode 생성TMI : 작성 중 tab 누르면 자동완성 Git의 세가지 영역1...

카테고리 없음 2024.10.15

TIL (24.10.14) - 머신러닝(데이터 전처리)

conda env list : 현재 시스템에 존재하는 모든 가상환경을 보여줌 캐글이란?데이터 과학 및 머신러닝 경진대회 플랫폼데이터 사이언티스트 / 머신러닝 엔지니어들이 다양한 문제를 해결하고 데이터를 분석모델을 개발하는데 필요한 데이터셋과 도구를 제공데이터 타입 변환 인코딩이란?범주형 데이터를 수치형 데이터로 변환하는 과정머신러닝 모델은 수치형 데이터를 입력으로 받기때문에, 범주형 데이터를 수치형으로 변환하는 것이 필요 샘플링이란?데이터셋의 크기를 줄이거나 늘리는 과정데이터셋의 대표성을 유지하면서 데이터의 크기를 조절하는 데 사용기타 특징선택/추출

카테고리 없음 2024.10.14

TIL (24.10.11) - 리스트 정렬(lambda), BFS, DFS, 판다스 실습, 람다

기본 정렬 sort에서 특정 조건을 만족시켜야 한다. (문자열의 n번째 인덱스를 기준으로 정렬)또한, 문자열의 n번째 인덱스값이 동일하면 전체 단어의 오름차순으로 정렬해야 한다.따라서, strings.sort() 를 먼저 진행한 후, 람다를 사용해 strings.sort(key=lambda x : x[n]) 으로 재차 정렬한다. 리스트 정렬 시 람다사용 예시 TMI : 람다 함수 (이름을 가지지 않는 익명 함수)백준 2908번 : 문자열 뒤집기string[::-1] 사용 : 슬라이싱에서 [시작:끝:스텝] 형식을 사용하며, -1은 문자열을 거꾸로 하나씩 가져오는 방식 너비 우선 탐색 (BFS, Breadth-First Search) - 시작 노드에서 가까운 노드부터 차례대로 탐색하는 방식- 한 레벨의 모든..

카테고리 없음 2024.10.11

TIL (24.10.10) - 판다스 오류, 네트워크 기초, 시저암호

판다스 과제 중 오류 Note파일 불러올 때, 경로 복사로 가져오면 아래와 같이 역슬래시 형태로 복사된다.이때, 역슬래시를 일반 슬래시(/)로 변경하면 해결된다.또한, csv 파일을 열었을 때 한글글자가 깨져보이는데, MAC에서 저장된 UTF-8 형식이 Windows 환경과 맞지 않아 발생한다. 때문에 엑셀 안에 텍스트/CSV에서 로 형식을 바꿔서 저장해줘야 한다. 딕셔너리 형태로 매핑된 컬럼 추가 방식 (replace) apply() 함수와 lambda inline 함수를 활용해 다른방식으로도 표현 가능>> df['관서'].apply(lambda x : dic[x] if x in dic else np.nan)map()을 사용할 때:단순한 값의 변환 (예: 숫자 변환, 딕셔너리 매핑 등).시리즈 객체에만..

카테고리 없음 2024.10.10

TIL (24.10.08) - 판다스 심화 + 코드카타 풀이

멀티 인덱스 - 여러개의 컬럼값을 인덱스로 활용해서 데이터프레임을 구조화하는 방법 - 멀티 인덱스를 사용한 데이터프레임은 정렬된 상태로 관리하는 것이 일반적 (sort_index() 사용) 복합 인덱스 활용df.unstack(level='OO') : 멀티 인덱스를 열로 변환df.stack(level='OO') : 열을 멀티 인덱스로 변환 데이터프레임 구조화1. pivot() 활용 2. melt() 활용 : 데이터 구조 해체 3. 데이터 행, 컬럼 추가/삭제# 2번째와 3번째 컬럼을 제외하고 표시 (컬럼 번호는 0부터 시작)df_filtered = df.drop(df.columns[[1, 2]], axis=1) -----------------------------------------------------..

카테고리 없음 2024.10.08

TIL (24.10.07) - 데이터 전처리(결측치, 이상치, 데이터 정규화/표준화, 인코딩)

목차결측치이상치데이터 변환 (정규화, 표준화 등..)인코딩 결측치 (Missing Values)isna(), isnull() 함수 : 데이터프레임의 각 요소가 결측치인지 여부를 확인 (동일한 기능)df.isna() 생성 시, 각 cell값은 결측 여부에 따라 True 나 False로 반환됨True 값은 1, False값은 0인점을 활용해 df.isna().sum() 으로 결측치의 갯수를 확인할 수 있다.  결측치 관리dropna() : 결측치가 포함된 행이나 열을 삭제 df.dropna(axis=1)fillna() : 결측치를 특정값으로 대체 df.fillna('없음')interpolate() : 결측치를 주변값 기반으로 보간 df.interpolate()특정 조건으로 처리 이상치 (Outlier)정의 ..

카테고리 없음 2024.10.07

데일리 루틴 TIL 1 (24.10.04) - 데이터프레임 관리

파일 불러오기 - df = pd.read_OOO('data.OOO')파일 생성 - df = pd.DataFrame({                         '이름' : ['철수', '영희', '민수'],                         '나이' : [25,30,35],                         '직업' : ['학생', '회사원', '프리랜서']})df.to_OOO('data.OOO', index = False)파일 미리보기 : df.head(3) , df.tail(6)df['나이'].describe()) : 나이 열의 각종 통계수치 확인df.loc[2, '이름'] : 3번째 행의 '이름' 열 데이터 확인 (df.loc[:,'이름'] 도 가능)df.iloc[2, 5] : ..

카테고리 없음 2024.10.04

데일리 루틴 TIL 1 (24.10.02) - 시리즈, df, numpy, 브로드캐스팅, 선형대수 TMI

TMI : 주피터 노트북에서 코드 중 Shift+Tab 을 누르면 해당 코드의 자세한 설명을 볼 수 있다.TMI : 코드 중간에 에러구문이 있어도 1줄씩 실행되는 파이썬 특성상 에러 이전까지는 코드가 실행된다. 시리즈(Series) - 1차원 배열과 같은 데이터 구조 - 인덱스(Index)와 데이터 값(Value)이 쌍으로 구성 (파이썬 딕셔너리 구조) - 하나의 데이터타입 (자동 설정) 데이터 프레임(DataFrame) - 2차원의 표 형태 데이터 구조 - 여러 개의 시리즈(Series)가 모인 구조 (각 시리즈는 열(Column)에 대응) - 여러 개의 데이터타입TMI : df.set_index('이름', inplace = True) 로 이름 컬럼을 인덱스처럼 세팅할 수 있다. NumPy (Numer..

카테고리 없음 2024.10.02