티스토리 뷰

반응형


#. 구글 이미지 크롤링


+ 2020.04.22 추가 

(google-images-download does not work)

해당 라이브러리로 이미지 크롤링이 제대로 작동하지 않는다는 댓글이 생겨서 확인해보았습니다.

google images download library 홈페이지 에 명시된대로 다시 구현해보았는데 역시나 같은 현상이 발생하였습니다.

문제 해결을 위해 구글링을 해본 결과 stack overflow, google-images-download github issue 에서도 같은 현상을 보이는 개발자들이 많은 것을 알게 되었습니다.

Google 이미지 형식이 변경되어 크롤링을 하는 과정에서 기존에 파싱이 가능한 객체를 보내주었다면, 지금은 파싱이 가능했던 깨끗한(?) 하나의 객체를 보내주지 않고 정보를 흩뜨려(?) 보내준다고 합니다. 따라서 흩어진 필터를 통합하는 과정이 필요하다고 하네요.


결론적으로 제가 찾은 정보가 정확하지 않을 수 있지만 다수가 같은 현상을 보았고, 대부분이 대체 방법으로 selenium 을 추천하고 있었습니다.

링크 <- 급하신 분들은 왼쪽 링크의 코드를 사용해보시길 추천합니다!

시간이 생기면 링크의 방법대로 다시 포스팅해보도록 하겠습니다.




아래 코드는 구글의 이미지 형식 변경으로 더이상 작동되지 않을 수 있습니다. (위 추가글 참고)


-- Google Images Download (Arguments 참고)


우선. terminal 에서 library download

1
pip install google_images_download
cs



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
from google_images_download import google_images_download
 
import ssl  # ssl Error 발생 시
ssl._create_default_https_context = ssl._create_unverified_context  
 
 
def imageCrawling(keyword, dir):
    response = google_images_download.googleimagesdownload()
 
    arguments = {"keywords":keyword, # 검색 키워드
                 "limit":100, # 크롤링 이미지 수
                 "print_urls":True, # 이미지 url 출력
                 "no_directory":True, #
                 'output_directory':dir} # 크롤링 이미지를 저장할 폴더
 
    paths = response.download(arguments)
    print(paths)
 
imageCrawling('cat','/Users/aaron/Desktop/test/')
cs




반응형
댓글
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday