기록들 https://github.com/ndgndg91

글

python으로 웹 데이터를 긁어보자

- 5월 19, 2017

제가 긁을 페이지는 무신사인데, 정한이유가 여러가지가 있지만,, 생략하고.. 먼저 긁기 전에 페이지의 구조를 봅니다. 무신사에는 아주 많은 옷에 대한 정보들이 있는데 저는 바지만 긁어모을것이기 때문에,, 먼저 url구조를 보면 http://store.musinsa.com/app/product/detail/200979/0 200979가 해당 제품을 식별할 수 있게 해준다. 이숫자는 제품을 업로드한 순으로 추측되는데 이유는 정확히 모른다. 그 다음에 긁을 태그들을 분석한다. 가져와보니까 table형식으로 되어있다. 전체 html -> 필요한 태그 -> 필요한 정보를 얻을수 있도록 정제하기 뽑아내서 파일에 모아서 저장하기 따라서 허접하지만 여러 블로그들을 참고해서 노가다형식으로 코드를 짜봤다. 보완할 필요가 많은 코드지만 돌아가긴해서 ,, # -*- coding: utf-8 -*- from bs4 import BeautifulSoup from urllib.request import urlopen import re import csv def spider ( max_pages ): page = 346086 fixpage = page while page < max_pages: link = ' http://store.musinsa.com/app/product/detail/ ' + str (page) + ' /0 ' pantsno = link[ 44 : 50 ] f = urlopen(link) soup = BeautifulSoup(f, ' lxml ' ) a = soup.find_all( ' p ' ,{ ' class ' : ' item_categories ' }) b = bool (re.search( ' 하의 ' , str (a))) c = bool (soup....

자세한 내용 보기