본문 바로가기

파이썬5

파이썬 웹크롤링 1 (urllib, urlopen, 주식 정보 조회하기, 정규식 사용) ■ 크롤링(Crawling)이란? 웹크롤링이란 말은 한 번 쯤 들어보았을 것이다. 페이지를 그대로 가져와 데이터를 추출해 내는 행위다. 스크레이핑(scraping)이라고도 불린다. 파이썬(Python)은 이 분야의 선두주자인데, 비전공자들인 인문학이나 통계 분야의 종사자들이 쓰기 쉽도록 라이브러리(예: 뷰티풀 숲 Beautiful Soup)들이 잘 발달되어있다. ■ 크롤링(Crawling) 쓰기 예? 30개의 회사의 주식 정보를 정리해보고 싶다. 네이버 금융 페이지에서 회사 이름을 검색하면 정보가 뜨긴 하지만, 몇 십개 회사 이름을 다 검색해가기엔 너무 시간이 많이 걸린다. 검색 창을 마우스로 클릭, 키보드로 회사 이름 치기, 검색 버튼 클릭, 마우스를 스크롤하며 정보 조회 손목 터널 증후군이라도 있는 .. 2021. 4. 18.
정규식 정규표현식 Regular Expression (parsing 파싱할 때 꼭 필요) Regular Expression = 정규식 = 정규표현식 (줄여서 regex regexp) 일종의 형식 언어로, 주로 문자열(=string) 관련 프로그래밍에 많이 사용된다. 프로그램 작성 특성상 일정한 규칙을 가진 텍스트 문자열을 사용하는 경우가 많은데 (특히 웹 프로그래밍), 이럴 때 정규 표현식을 사용한다. 특히 컴파일러 파싱에서는 이 정규표현식이 필수다. 잘 알아두면 문자열을 다루는 데 대단히 유용하기 때문에 C를 비롯한 여러 프로그래밍 언어에서 이 정규 표현식을 지원한다. 정규식을 안 쓸 경우 문자열 처리 코드 자체가 대단히 복잡해진다. (출처 나무 위키) 이 글은 파이썬(Python)으로 웹에 있는 내용을 긁어와 검색할 때, 정규식을 사용하는 방법에 대해 다루도록 하겠다. 원래대로라면, st.. 2021. 4. 18.
Beautiful Soup 파이썬 xml 읽기 xml parsing XML 파일이란? eXtensible Markup Language의 약어로 다목적 마크업 언어. 태그 등을 이용하여 데이터의 구조를 기술하는 언어의 한 가지. 가장 친숙하고 흔하게 접할 수 있는 비슷한 마크업 언어로 HTML이 있음. 일반 텍스트 파일이랑 다르게 태그가 달려 있으며, 태그의 구조/레벨에 따라 인덴트도 되어있다. XML 파일을 어떻게 읽을까? 일단 XML과 JSON처럼 특수 형태의 파일 읽기의 기본 과정은 같다. 1. open과 read 함수를 이용하여 일단 파일을 string으로 읽어오기 2. 전용 모듈로 한 번 가공해주기 3. 원하는 정보 추출하기 ■ 1. 파일을 스트링으로 읽어오기 여기 books.xml파일이 있다. 먼저 텍스트 파일 읽었을 때처럼 간단히 read, readline, .. 2021. 4. 11.
파이썬 파일 읽고 쓰기 (read, write, append) [1] 기본 규칙 파이썬은 파일 처리를 위해 "open"이라는 키워드를 사용한다. 여기서 말하는 파일 처리란, 파일을 읽고 쓰는 행위를 말한다. fh = open(, ) fh1 = open('lecture_note_1.txt', 'w') #파일 쓰기 write 예 fh2 = open('lecture_note_2.txt', 'r') #파일 읽기 read 예 □ 파일핸들러 fh: 파일 핸들러 변수명. 관례상 변수명은 f, fh, fr, fw 등이 흔히 쓰인다. 파일 핸들러가 무엇이냐면 파일을 다루어주는 컨트롤러라고 보면 된다. 파일 핸들러를 생성한 후에 ( fh = open('mytext.txt','r') 라고 외치기 ) 이 컨트롤러를 이용하여 파일 처리를 해나갈 것이다. □ 파일경로: 파일이름이 아닌 파일.. 2021. 4. 5.
File Handling Overview □ 파일 : 컴퓨터를 실행시킬 때 가장 기본이 되는 단위. (정보를 저장하는 논리적 단위) 파일의 이름과 확장자로 식별 실행, 쓰기, 읽기 등을 할 수 있음 □ 파일 실행 : 아이콘을 더.블.클.릭. (당연 ^^;;) = 파일의 실행을 명령하는 것 □ 파일의 이해: 파일은 (파일) + (파일을 담고 있는 위치)로 나눌 수 있음 ※ 디렉토리(Directory) : 파일의 위치 폴더. 파일과 다른 디렉토리를 포함 가능. 텍스트로 되어있다고 해서 무조건 Text File이 아님 (어감에 주의하자. 워드 파일은 텍스트 파일이 아니니까) 컴퓨터는 Text 파일을 처리하기 위해 Binary 파일로 변환시킴 (예: pyc파일) Text파일은 메모장으로 읽고, Binary파일은 그럼 어떻게 읽냐? → 전용 프로그램이 .. 2021. 4. 5.