일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- HTML
- 오차역전파법
- Apache2
- flag
- 책
- C언어
- 우분투
- 리뷰
- PICO CTF
- PostgreSQL
- 파이썬
- 신경망
- Python
- Python Challenge
- 아파치
- PHP
- 신경망 학습
- sgd
- picoCTF
- 설치
- FastAPI
- 기울기
- 백준
- AdaGrad
- CTF
- 순전파
- 소프트맥스 함수
- 코딩
- 딥러닝
- 역전파
- Today
- Total
목록크롤링 (2)
Story of CowHacker

안녕하세요 CowHacker입니다. 오늘은 뉴스 기사 사이트에서 간단히 제목을 본 후 관심이 가는 기사만 선택해 그 기사 HTML을 PDF로 자동 저장시키는 것을 해보겠다. https://www.boannews.com/media/o_list.asp 보안뉴스_뉴스 www.boannews.com 저기 밑 줄 친 부분이 기사의 제목들이다. 위 코드를 보면 사이트의 url를 통해 해당 기사 제목만 가져오는 것을 볼 수 있다. 실행을 하면 위와 같은 결과가 나온다. 그다음 해당 번호를 입력받아 준다. 나는 5번째 MS 관련 기사를 PDF로 저장하고 싶었다. 조금 기다리면 'PDF 저장 완료'라고 뜬다. 내가 저장 경로로 설정한 곳에 가면 떡하니 기사 제목으로 PDF가 만들어져 있다. 열어 보면 PDF로 정상 저장..

Python을 이용한 크롤링을 해보겠다. 이번 크롤링의 대상은 나의 블로그 사이트로 정했다. 내 블로그 메인 페이지다. import requests # HTTP 요청처리를 위해 사용하는 모듈이다. from bs4 import BeautifulSoup # HTML 및 XML 파일에서 원하는 데이터를 손쉽게 Parsing 할 수 있는 Python 라이브러리다. url = 'https://cowhacker.tistory.com/' # 크롤링할 주소를 입력하는 구간이다. response = requests.get(url) # HTTP 요청처리를 GET방식으로 response라는 변수한테 주는 구간이다. html = response.text # 응답을 읽고 텍스트를 반환하는 구간이다. soup = Beautifu..