python으로 웹 데이터를 긁어보자

이미지
제가 긁을 페이지는 무신사인데, 정한이유가 여러가지가 있지만,, 생략하고.. 먼저 긁기 전에 페이지의 구조를 봅니다. 무신사에는 아주 많은 옷에 대한 정보들이 있는데 저는 바지만 긁어모을것이기 때문에,, 먼저 url구조를 보면 http://store.musinsa.com/app/product/detail/200979/0 200979가 해당 제품을 식별할 수 있게 해준다. 이숫자는 제품을 업로드한 순으로 추측되는데 이유는 정확히 모른다. 그 다음에 긁을 태그들을 분석한다. 가져와보니까 table형식으로 되어있다. 전체 html -> 필요한 태그 -> 필요한 정보를 얻을수 있도록 정제하기 뽑아내서 파일에 모아서 저장하기 따라서 허접하지만 여러 블로그들을 참고해서 노가다형식으로 코드를 짜봤다. 보완할 필요가 많은 코드지만 돌아가긴해서 ,, # -*- coding: utf-8 -*- from bs4 import BeautifulSoup from urllib.request import urlopen import re import csv def spider ( max_pages ): page = 346086 fixpage = page while page < max_pages: link = ' http://store.musinsa.com/app/product/detail/ ' + str (page) + ' /0 ' pantsno = link[ 44 : 50 ] f = urlopen(link) soup = BeautifulSoup(f, ' lxml ' ) a = soup.find_all( ' p ' ,{ ' class ' : ' item_categories ' }) b = bool (re.search( ' 하의 ' , str (a))) c = bool (soup....