리눅스 백과사전: wget 을 웹소스 땡기기

다운받는 경로

http://www.gun.org/software/

(리눅스용은 대부분 디폴트로 깔려있습니다.)

설치 방법

# tar xvfz wget-5.x.x.tar.gz

# ./configure

# make install

사용 방법

# wget http://www.naver.com/index.html

현재 디렉토리에 index.html 파일을 가져옵니다.

index.html 파일에 링크되어 있는 것까지 가져오려면 -r 옵션을 사용합니다.

# wget -r http://www.naver.com/index.html

-r 옵션은 재귀적을 의미하는 recursive 입니다. 디렉토리 구조와 파일을 그대로 가져옵니다.

재귀적 탐색의 깊이 레벨은 기본값이 5로 설정되어 있으며, -l depth 옵션을 사용하여 바꿀수 있습니다.

기본갑이 -l 5 인데 이 레벨이 증가함에 따라 복사해오는 파일은 지수 함수적으로 증가하게 됩니다.

특정페이지와 링크된 것만 받고싶으면

# wget -r www.naver.com/index.html/doc/lecture/lecture.html

이렇게 하면 lecture.html과 이파일과 링크된 파일들을 복사해 옵니다. 이 과정에서 링크된 파일 중 상위 디렉토리에 있는 것도 있는데, 이 파일들을 빼고 원하는 파일이 있는 디렉토리와 그 이하에서만 받아오려면 아래와 같은 명령을 수행 합니다.

# wget -r -np www.naver.com/index.html/doc/lecture/lecture.html

-np 옵션은 no-parent를 의미합니다.

사이트에서 이미지나 오디오 파일 등을 제외하고 html 문서만 가져오고 싶으면

# wget -r -np -A html, htm www.naver.com/index.html

-A 옵션은 accept를 의미합니다. 만약 이와 반대로 일부 파일을 제외하고 싶으시면 -R 옵션을 사용 합니다. reject를 의미합니다.

# wget -r -R gif, jpg, jpeg www.naver.com/index.html

gif, jpg, jpeg만 제외하고 나머지만 가져옵니다.

-L 옵션은 상대주소를 이용한 링크들만 불러옵니다. 타 호스트에 있는 자료는 불러오지 않습니다.

대부분 html내의 링크는 상대주소를 이용하기 때문에 크게 중요하지는 않습니다.

# wget -r -L www.naver.com/index.html

만약 타 호스트의 자료까지 재귀적 탐색에 넣고싶으면 H 옵션을 씁니다. span-hosts를 의미합니다.

- 참고 -

wget -r http://대상사이트/ --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.0.0) Gecko/20020529

위 명령어대로 실행시키면 해당 사이트에 끊임없이 접속해서 그곳의 파일들을 긁어옵니다.

(F5 새로고침을 계속 누르는 것 이상으로 효과적이라도 함)

실행해보면 당해 디렉토리에 공격대상사이트의 이름으로 된 폴더가 생기게 되고 그곳에 파일이 계속 저장됩니다.

p.s 브라우져에서 보이는 것만 긁어온다. 소스자체를 긁어오는 것이 아니다.

리눅스 백과사전

2009. 8. 19.

wget 을 웹소스 땡기기

댓글 없음:

블로그 보관함

친구 블로그 목록