파이썬 모듈 설치를 위해 pip을 install 해야한다.. 방법은 구글링으로..!!
파이썬으로 웹에 접근하기 위해 써야하는 코드를 실행하기 위해 request lib를
설치해주었다.
*****python2.x 에서는 request 가 실행이 되지 않는다.ㅠㅠ 나는 python2.X 환경에서 하고 있어서 ,
import re
from bs4 import BeautifulSoup
from urllib2 import urlopen
네이버 영화 페이지에서 영화제목,리뷰,평점,날짜를 크롤링 해오는 코드이다.
코드에 대한 분석은 wikidoc의 점프 투 파이썬을 참고하여 올릴 예정
1. 네이버 영화 평점 페이지 F12 태그 분석
2. Beautiful soup Document 태그 navigate method 참고
***navermovie.py 를 cmd에 실행해보았더니,
no encoding error
해결 >>> #-*- coding: utf-8 -*- 를 vi 맨 위에 적어준다 .
but 여전히 유니코드 에러가 뜬다.
print html로 확인했더니
python html 파서결과 한글이 깨져 나온다
Unicode Encode Error: 'cp 949'
shell로 확인해보면 cp949로 되어있는 것을 확인할 수 있다.
윈도우 환경변수 설정>cmd>PYTHONIOENCODING
의 값을 utf-8
로 설정
ctrl + r > control (제어판)
파이썬 인코딩/디코딩 참고 사이트
Parser library를 설치 필요
soup = BeautifulSoup(html,"lxml")
에서 에러가 남.
참고
위의 코드를 사용하기 전에
Python2.7 compiler가 설치되어야한다.
2. Microsoft visual c++ 이 설치 되어있어야한다.
https://www.microsoft.com/en-us/download/confirmation.aspx?id=44266
C:\Users\yeseul\VC
$ pip install lxml
참고
'Python_ > Analysis' 카테고리의 다른 글
dict , iteritems() (0) | 2017.10.02 |
---|---|
<Pandas 데이터 분석> 1. 디렉토리 설정 (0) | 2017.01.16 |
파이썬 웹 크롤링 연습 (0) | 2017.01.07 |
[파이썬 모듈 설치] Beautiful Soup4 install, import 윈도우 cmd에서 실행 (0) | 2016.12.06 |