본문 바로가기

데이터

[데이터 분석] 데이터의 이해 ■  데이터의 유형정성적 데이터: 저장,검색,분석에 많은 비용이 소모 되는 언어, 문자 형태의 데이터정량적 데이터:  정형화된 데이터로 수치, 도형, 기호 등의 형태를 가진 데이  ■  DIKW 피라미드   ■  데이터베이스 특징- Integrated data (통합된 데이터) : 동일한 내용의 데이터가 중복되어 있지 않음.- Stored data (저장된 데이터) : 데이터베이스는 컴퓨터가 접근할 수 있는 저장 매체에 저장되어 있음. - Shared data (공용 데이터) : 여러 사용자가 다른 목적으로 데이터를 공동으로 이용함. 대용량화되고 구조가 복잡함.- Changable data (변화되는 데이터) : 데이터베이스는 새로운 데이터의 삽입, 기존 데이터의 삭제 및 갱신으로 항상 변화하면서도 항상.. 더보기
[데이터 분석] 데이터 분석 전문가 가이드(ADP/ADsP) 내용 정리 (In Progress) 당장 실무에서 실질적인 데이터를 이용해 분석하고 전략을 고안하는 것이 가장 큰 도움이 되겠지만그 전에 이론을 한번 쭉 정리해놓을 필요성을 느꼈다. 어떤 순서로 정리를 할 까 고민하던 중, 데이터 분석 전문가 교재가 많은 내용을 다루고 있고 짜임새 있다고 생각되어데이터 분석 전문가 가이드 교재의 내용을 정리해두고자 한다. 이 페이지는 데이터 분석 전문가 가이드 책의 전체 내용을 요약하거나, 각 개별 과목의 정리된 링크를 모아두는 곳이다.    책 내용 정리- The Guide for Advanced Data Analytics Professional 책 정보 (한국어): https://www.yes24.com/Product/Goods/29430751 목차 1 데이터 이해2 데이터 처리 기술 이해3 데이터 분.. 더보기
[데이터 시각화] The Truthful Art 내용 정리 (In Progress) (진실을 드러내는 데이터 시각화의 과학과 예술) 책 내용 정리- 진실을 드러내는 데이터 시각화의 과학과 예술 책 정보 (한국어): https://product.kyobobook.co.kr/detail/S000001033079책 정보 (영어 원서): https://www.oreilly.com/library/view/the-truthful-art/9780133440492/목차 기초1 우리가 시각화를 논할 때 말하는 것2 훌륭한 시각화의 다섯 가지 조건 진실성3 진실의 연속체4 추측과 불확실성 기능성5 시각화의 기본 원칙들6 간단한 차트로 데이터 탐색하기7 분포 시각화하기8 변화 드러내기9 관계 발견하기10 데이터 맵 만들기11 불확실성과 유의성 실전12 창의성과 혁신에 관하여 서문: 지식의 섬과 경이의 해안     1.  우리가 시각화를 논할 때 말하는 .. 더보기
[데이터 시각화] Visual Complexity 내용 정리 (In Progress) 책 내용 정리- 비쥬얼 컴플렉시티: 복잡한 정보를 효과적으로 표현하는 놀라운 시각화 기법 책 정보 (한국어): https://www.yes24.com/Product/Goods/25411256책 정보 (영어 원서): http://www.visualcomplexity.com/vc/book/목차 1 생명의 나무2 나무에서 네트워크로3 네트워크 해석4 무한한 상호연결성5 새로운 언어의 문법6 복잡계의 아름다움7 시각화의 미래  1.  생명의 나무■ 신성한 나무■ 지식의 나무: 계보 | 분류-- 초기: 포르피리오스의 나무: 아리스토텔레스의 범주론을 확장-- 백과사전주의 단점: 중앙집중적, 하향식 2.  나무에서 네트워크로■ 나무 메타포의 제한적인 개념에서 벗어나, 전체론적인 시스템 접근을 통한 네트워크적 사고■ .. 더보기
[데이터 시각화] 시각화 라이브러리 종류 시각화 라이브러리 종류가 많은데,웹(자바스크립트), 파이썬 환경 등 조건을 비교하기 위해 정리합니다.  D3- 공식 사이트: https://d3js.org/- 그래프 갤러리: https://d3-graph-gallery.com/ - 데이터 시각화를 위한 오픈소스 자바 스크립트 라이브러리- 논문 D3: Data-Driven Documents에서 소개되었다.> Michael Bostock, Vadim Ogievetsky, and Jeffrey Heer. 2011. > D3 Data-Driven Documents. > IEEE Transactions on Visualization and Computer Graphics 17, 12 (December 2011), 2301–2309. > https://doi.or.. 더보기
[ML] Metrics 자연어처리 관련 논문을 읽어보면, 태스크 별로 적합한 데이터셋을 쓰고 그에 맞는 기준으로 성능과 품질을 평가한다. 이 페이지에서는 태스크 별로 평가를 위한 방법들을 정리해두고자 한다. Accuracy Precision Recall F1 score Sensitivity Specificity ROC AUC EM (=Exact Match) EM은 말그대로 정확하게 전부 일치하는지 측정하는 simple한 metric입니다. 모든 character가 일치하면 EM=1, 그 외의 경우는 모두 EM=0이 됩니다. EM=1인 sample수에 전체 sample수를 나눠 값을 구할 수 있습니다. EM을 사용하여 평가한 연구: BLEU (Bilingual Evaluation Understudy Score) - 블루 스코어라.. 더보기
[IR] Beam Search Beam Search 자연어 생성은, 단어들의 시퀀스를 아웃풋으로 예측해내는 태스크이다. Generation Model은 각각 decoding time step에서 전체 Vocabulary에 대한 각 확률 분포를 예측하고, 확률이 높은 것을 다음 예측 단어로 선택한다. 그러므로 모델의 예측 확률 분포를 이용해서, 각 타임 스텝의 단어로 변환하는 과정이 필요하다. 모델이 예측한 확률 분포에 따라 가능한 아웃풋 시퀀스 조합을 찾기 위해 탐색(Search) 작업이 필요한데, Vocabulary는 수 만개의 토큰을 가지고 있으므로 모든 경우의 수에 따른 전체 공간을 탐색하는 것은 불가능하다. 그래서 휴리스틱한 방법을 사용해 이것을 진행하며, 여기엔 Greedy Search 와 Beam Search 가 있다. 정.. 더보기
[Ranking] BM25 (=Best Matching 25) BM25 정의 BM25는 'Best Matching 25'의 줄임말 쿼리와의 관련성에 따라 문서의 연관성을 평가하여 순위를 매기는 데 사용되는 Ranking function에 사용되는 알고리즘이다. 설명 기존의 TF-IDF (Term Frequency-Inverse Document Frequency) 의 변형으로, 기존 TF-IDF 수식을 바탕으로하지만, 용어(term)와 문서(document)와의 관계를 더 잘 모델링하기 위해 추가 파라미터를 도입한다. Term Frequency (TF): term이 document에 나타나는 횟수 특정 문서에서 많이 언급된 term은 중요한 키워드일 것이라는 가정. Inverse Document Frequency (IDF): 모든 document를 고려했을 때, do.. 더보기