DGIST 전자도서관 전자책도서관

상세정보

미리보기

파이썬으로 웹 크롤러 만들기 (2판)

저자: 라이언 미첼 저/한선용 역
출판사: 한빛미디어
출판일: 2019-06-16
등록일: 2020-04-28

파일포맷: PDF
파일크기: 0
공급사: 예스이십사
지원기기: PC PHONE TABLET 웹뷰어 프로그램 수동설치 뷰어프로그램 설치 안내

현황

보유 1
대출 0
예약 0

대출가능

책소개

웹 어디서든 내가 원하는 데이터를 쏙쏙쏙웹에 존재한다면 그것이 어떤 형태이든 데이터로 추출할 수 있다. 필요한 무기는 이 책과 파이썬뿐. BeautifulSoup, 셀레니움, 테서랙트 등 강력한 파이썬 라이브러리 사용법과 함께 API, 인증, 이미지 및 텍스트 인식, 로그인 처리 등 웹 크롤링의 기초부터 고급 기법까지 종합적으로 다루는 유일한 책. 실제 업무와 생활에 적용할 수 있는 예제가 가득하다. 2판은 예제를 추가 및 업데이트했고 모던 웹에서 거의 모든 종류의 데이터를 가져오는 방법을 포괄적으로 다룬다.

Part I 스크레이퍼 제작CHAPTER 1 첫 번째 웹 스크레이퍼1.1 연결1.2 BeautifulSoup 소개__1.2.1 BeautifulSoup 설치__1.2.2 BeautifulSoup 실행__1.2.3 신뢰할 수 있는 연결과 예외 처리CHAPTER 2 고급 HTML 분석2.1 닭 잡는 데 소 잡는 칼을 쓸 필요는 없습니다2.2 다시 BeautifulSoup__2.2.1 find()와 findAll()__2.2.2 다른 BeautifulSoup 객체__2.2.3 트리 이동2.3 정규 표현식2.4 정규 표현식과 BeautifulSoup2.5 속성에 접근하기2.6 람다 표현식CHAPTER 3 크롤링 시작하기3.1 단일 도메인 내의 이동3.2 전체 사이트 크롤링__3.2.1 전체 사이트에서 데이터 수집3.3 인터넷 크롤링CHAPTER 4 웹 크롤링 모델4.1 객체 계획 및 정의4.2 다양한 웹사이트 레이아웃 다루기4.3 크롤러 구성__4.3.1 검색을 통한 사이트 크롤링__4.3.2 링크를 통한 사이트 크롤링__4.3.3 여러 페이지 유형 크롤링4.4 웹 크롤러 모델에 대한 생각CHAPTER 5 스크레이피 5.1 스크레이피 설치__5.1.1 새 스파이더 초기화5.2 간단한 스크레이퍼 작성하기5.3 규칙에 의한 스파이더링5.4 항목 만들기5.5 항목 출력하기5.6 파이프라인5.7 스크레이피 로깅5.8 더 읽을 거리CHAPTER 6 데이터 저장6.1 미디어 파일6.2 데이터를 CSV로 저장6.3 MySQL__6.3.1 MySQL 설치__6.3.2 기본 명령어__6.3.3 파이썬과 통합__6.3.4 데이터베이스 테크닉과 모범 사례__6.3.5 여섯 다리와 MySQL6.4 이메일Part II 고급 스크레이핑CHAPTER 7 문서 읽기7.1 문서 인코딩7.2 텍스트__7.2.1 텍스트 인코딩과 인터넷7.3 CSV__7.3.1 CSV 파일 읽기7.4 PDF7.5 마이크로소프트 워드와 .docxCHAPTER 8 지저분한 데이터 정리하기8.1 코드에서 정리 8.2 사후 정리__8.2.1 오픈리파인CHAPTER 9 자연어 읽고 쓰기9.1 데이터 요약9.2 마르코프 모델__9.2.1 위키백과의 여섯 다리: 결론9.3 자연어 툴킷__9.3.1 설치__9.3.2 NLTK를 사용한 통계적 분석__9.3.3 NLTK를 사용한 사전적 분석9.4 추가 자료CHAPTER 10 폼과 로그인 뚫기10.1 파이썬 requests 라이브러리10.2 기본적인 폼 전송10.3 라디오 버튼, 체크박스, 기타 필드10.4 파일과 이미지 전송10.5 로그인과 쿠키 처리__10.5.1 HTTP 기본 접근 인증10.6 기타 폼 문제CHAPTER 11 자바스크립트 스크레이핑__11.1.1 널리 쓰이는 자바스크립트 라이브러리11.2 Ajax와 DHTML__11.2.1 셀레니움으로 파이썬에서 자바스크립트 실행__11.2.2 그 밖의 셀레니움 웹드라이버11.3 리다이렉트 처리11.4 자바스크립트에 대한 마지막 노트CHAPTER 12 API를 통한 크롤링12.1 API에 대한 간단한 소개__12.1.1 HTTP 메서드와 API__12.1.2 API 응답에 대해12.2 JSON 파싱12.3 문서화되지 않은 API__12.3.1 문서화되지 않은 API 찾기__12.3.2 문서화되지 않은 API 문서화하기__12.3.3 API 자동으로 찾고 문서화하기12.4 API와 다른 데이터 소스의 결합12.5 마치며CHAPTER 13 이미지 처리와 텍스트 인식13.1 라이브러리 개관__13.1.1 필로__13.1.2 테서랙트__13.1.3 파이테서랙트__13.1.4 넘파이13.2 형식이 일정한 텍스트 처리__13.2.1 이미지 자동 조정__13.2.2 웹사이트 이미지에서 텍스트 스크레이핑하기13.3 CAPTCHA 읽기와 테서랙트 훈련__13.3.1 테서랙트 훈련13.4 CAPTCHA 가져오기와 답 보내기 CHAPTER 14 스크레이핑 함정 피하기14.1 스크레이핑의 윤리에 관해14.2 사람처럼 보이기__14.2.1 헤더를 수정하십시오__14.2.2 쿠키 처리__14.2.3 타이밍이 가장 중요합니다14.3 널리 쓰이는 폼 보안 기능__14.3.1 숨긴 필드 값__14.3.2 허니팟 피하기14.4 사람처럼 보이기 위한 체크리스트CHAPTER 15 스크레이퍼로 웹사이트 테스트하기15.1 테스트 입문 __15.1.1 단위 테스트란?15.2 파이썬 unittest__15.2.1 위키백과 테스트15.3 셀레니움을 사용한 테스트__15.3.1 사이트 조작15.4 unittest vs 셀레니움CHAPTER 16 병렬 웹 크롤링16.1 프로세스 vs. 스레드16.2 멀티스레드 크롤링__16.2.1 경쟁 상태와 큐__16.2.2 threading 모듈16.3 멀티프로세스 크롤링__16.3.1 멀티프로세스 크롤링__16.3.2 프로세스 간 통신16.4 멀티프로세스 크롤링의 다른 접근법CHAPTER 17 원격 스크레이핑17.1 원격 서버를 쓰는 이유__17.1.1 IP 주소 차단 방지__17.1.2 이동성과 확장성17.2 토어__17.2.1 파이삭스17.3 원격 호스팅 __17.3.1 웹사이트 호스팅 계정에서 실행__17.3.2 클라우드에서 실행17.4 추가 자료CHAPTER 18 웹 스크레이핑의 합법성과 윤리18.1 상표? 저작권? 특허?__18.1.1 저작권법18.2 동산 침해18.3 컴퓨터 사기와 악용에 관한 법률18.4 robots.txt와 이용 약관18.5 세 가지 웹 스크레이퍼 사례__18.5.1 이베이 vs. 비더스 에지: 동산 침해__18.5.2 미국 vs. 오언하이머: 컴퓨터 사기와 악용에 관한 법률__18.5.3 필드 vs. 구글: 저작권과 robots.txt18.6 미래를 향해

연관도서 연관도서를 소개해드립니다!

출판사동일

저자동일

함께 대출한 도서

이 책을 대출한 회원이 함께 대출한 컨텐츠가 없습니다.

책소개

저자소개

목차