일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 자가격리면제
- 헬로톡후기
- 무료강의
- 호텔연남장
- 은둔형외톨이취업
- 정원분식
- 여성1인점포
- 안심홈세트
- 토플무료모의고사
- 토플
- 토플시험전날
- 토플점수캔슬
- 해외백신접종자
- 해외백신
- 개구장애
- 턱관절장애
- 턱관절통증
- 데이터분석
- 맥북이중눌림
- 데이터분석강의
- 커리어계발
- 헬로톡
- 토플사이트
- 해피캠퍼스부수입
- 미국백신접종자
- 서울시여성
- 외국인친구
- 쯔양
- 토플결제
- 헬로톡친구
- Today
- Total
도리의 블로그
[도서] 머신러닝을 위한 실전 데이터셋 본문
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
안녕하세요 :)
한빛미디어의 머신러닝을 위한 실전 데이터셋 (Practical Synthetic Data Generation) 을 리뷰하도록 하겠습니다.
머신러닝을 위한 실전 데이터셋 이라는 제목만 보고는 이게 도대체 무슨 내용인가, 감이 안 잡히기도 하는데요.
이 책은 합성 데이터에 대한 개괄적인 지식을 담고 있습니다.
그럼 합성 데이터란 무엇일까요?
합성 데이터란, 실제 데이터에서 생성되어 실제 데이터와 통계 속성이 동일한 데이터를 의미합니다.
실제 데이터에서 합성 데이터를 생성하는 프로세스를 합성(Synthetic) 이라고 부른다고 합니다.
합성 데이터는 다양한 장점을 가지고 있습니다.
프라이버시 문제를 해결할 수 있고, 데이터에 보다 효율적으로 접근할 수 있으며, 실제 데이터가 없을 때 사용할 수 있습니다.
데이터 분석을 여러 곳에서 배워보았지만, 데이터 합성을 배운 적은 없어 제게는 새로운 주제였습니다.
당연히 어떤 방식을 사용해서 합성 데이터를 만드는 지도 알지 못했는데요.
합성 데이터를 만들기 위해서는 분포 적합이라는 과정이 필요하다고 합니다.
분포 적합을 하는 데도 여러 방법이 있더라구요.
합성 과정이 아주 어렵지는 않았지만, 또 그렇다고 아주 간단하고 단순한 작업은 아닌 것 같다고 생각했습니다.
다음으로 이 책의 장단점을 간단히 말해보자면,
장점
1. 합성 데이터의 전반적인 지식을 얻을 수 있다
합성 데이터에 관한 거의 모든 주제를 다루고 있는 것 같습니다.
합성 데이터의 개념 소개부터 합성 방법, 프레임워크 등 다양한 챕터로 구성되어 있습니다.
2. 직관적으로 이해하기 쉽다
쉽고 간단한 예시와 적절한 시각화가 들어있어 전문가가 아니더라도 책의 내용을 이해하기 쉽습니다.
3. 짧고 간단하여 읽는데 부담이 없다
단점
1. 코드가 없다
합성 방법에 대한 파이썬이나 R 코드를 포함하고 있지 않습니다.
다양한 방법을 알려주고는 있지만 그에 대한 코드는 독자가 알아서 찾아야 합니다.
2. 구체적인 지식을 위한 추가 학습이 필요할 수 있다
다양한 내용을 짧고 간단하게 다루고 있습니다.
따라서 특정한 내용에 대해 구체적으로 더 깊이 학습하고자 할 때는 이 책 외에도 다른 공부가 필요할 것 같습니다.
이렇게 오늘은 합성 데이터에 대한 책을 알아보았습니다 :)
요즘처럼 개인정보가 중요한 이슈로 떠오를 때, 합성 데이터를 잘 다룰 줄 아는 것이 기업과 현직자에게 필수적일 것 같습니다.
'데이터 과학' 카테고리의 다른 글
[도서] 이것이 데이터 분석이다 with 파이썬 (0) | 2021.05.04 |
---|---|
[파이썬] csv 파일 한글 깨질 때 인코딩 설정 (0) | 2021.04.09 |
[도서] 혼자 공부하는 첫 프로그래밍 with 파이썬 (0) | 2021.03.31 |
데이터 분석가 면접 질문 리스트 정리 (4) | 2021.03.20 |