본문 바로가기

프로그래밍 공부/google GAS + spreedsheet

[GAS+SpreedSheet] 3. IMPORTXML 함수로 쉽게 웹페이지 크롤링 하기

반응형

오늘은 IMPORTXML 함수를 사용하여 웹페이지를 크롤링하는 방법을 포스팅하려고 합니다.

 

가장 좋은 방법은, 구글에서 제공하는 문서를 참고하는 것이기에 

참고 링크를 우선 첨부합니다.

https://support.google.com/docs/answer/3093342?hl=ko 

 

IMPORTXML - Google Docs 편집기 고객센터

도움이 되었나요? 어떻게 하면 개선할 수 있을까요? 예아니요

support.google.com

 

 

사용 방법은 이렇습니다.

=IMPORTXML(URL, Xpath)

 

 

예제를 보여드립니다.

로스트아크 인벤 30추 글 목록을 가져와 볼까요??

아래와 같이 작성하면 됩니다.

=IMPORTXML("https://www.inven.co.kr/board/lostark/4811?my=chuchu","//*[@id="new-board"]/form/div/table/tbody/tr")

 

위와 같이 작성하면 오류가 발생합니다.

왜일까요? " " 때문입니다.

=IMPORTXML("https://www.inven.co.kr/board/lostark/4811?my=chuchu","//*[@id="new-board"]/form/div/table/tbody/tr")

 

얘는 이렇게 바꿔줘서 하나의 문자열로 만들어 주면 됩니다.

=IMPORTXML("https://www.inven.co.kr/board/lostark/4811?my=chuchu","//*[@id="&"new-board"&"]/form/div/table/tbody/tr")

 

그러면 스프레드시트에 아래와 같이 목록이 생성됩니다.

 

더 쉽게 쓰려면,

아래처럼 표현해도 되겠구요.

 

A1 셀에 Xpath를 넣어주고, 인자로 받아옵니다.

 

그러면 별도의 "&" 처리를 안해도 되겠죠.

 

 

간단하게, URL을 바꿔주는 것 만으로 

키워드가 들어간 제목의 목록을 크롤링 할 수 있습니다.

 

 

 

아니 근데

Xpath 어떻게 가져옴???

 

다음 포스팅 확인 ㄱㄱ

반응형