파싱2 파이썬 웹크롤링 1 (urllib, urlopen, 주식 정보 조회하기, 정규식 사용) ■ 크롤링(Crawling)이란? 웹크롤링이란 말은 한 번 쯤 들어보았을 것이다. 페이지를 그대로 가져와 데이터를 추출해 내는 행위다. 스크레이핑(scraping)이라고도 불린다. 파이썬(Python)은 이 분야의 선두주자인데, 비전공자들인 인문학이나 통계 분야의 종사자들이 쓰기 쉽도록 라이브러리(예: 뷰티풀 숲 Beautiful Soup)들이 잘 발달되어있다. ■ 크롤링(Crawling) 쓰기 예? 30개의 회사의 주식 정보를 정리해보고 싶다. 네이버 금융 페이지에서 회사 이름을 검색하면 정보가 뜨긴 하지만, 몇 십개 회사 이름을 다 검색해가기엔 너무 시간이 많이 걸린다. 검색 창을 마우스로 클릭, 키보드로 회사 이름 치기, 검색 버튼 클릭, 마우스를 스크롤하며 정보 조회 손목 터널 증후군이라도 있는 .. 2021. 4. 18. 정규식 정규표현식 Regular Expression (parsing 파싱할 때 꼭 필요) Regular Expression = 정규식 = 정규표현식 (줄여서 regex regexp) 일종의 형식 언어로, 주로 문자열(=string) 관련 프로그래밍에 많이 사용된다. 프로그램 작성 특성상 일정한 규칙을 가진 텍스트 문자열을 사용하는 경우가 많은데 (특히 웹 프로그래밍), 이럴 때 정규 표현식을 사용한다. 특히 컴파일러 파싱에서는 이 정규표현식이 필수다. 잘 알아두면 문자열을 다루는 데 대단히 유용하기 때문에 C를 비롯한 여러 프로그래밍 언어에서 이 정규 표현식을 지원한다. 정규식을 안 쓸 경우 문자열 처리 코드 자체가 대단히 복잡해진다. (출처 나무 위키) 이 글은 파이썬(Python)으로 웹에 있는 내용을 긁어와 검색할 때, 정규식을 사용하는 방법에 대해 다루도록 하겠다. 원래대로라면, st.. 2021. 4. 18. 이전 1 다음