Вопрос: Python / Java-скрипт для загрузки всех файлов .pdf с веб-сайта


Мне было интересно, можно ли написать сценарий, который мог бы программно пройти по всей веб-странице и автоматически загрузить все ссылки .pdf-файла. Прежде чем я начну предпринимать попытки самостоятельно, я хочу знать, возможно ли это.

С уважением


9


источник


Ответы:


Да, это возможно. для загрузки файлов в формате PDF вам даже не нужно использовать Beautiful Soup или Scrapy.

Загрузка с python очень проста Создайте список ссылок linkpdf и загрузите их

Ссылка на создание списка ссылок: http://www.pythonforbeginners.com/code/regular-expression-re-findall

Если вам нужно просканировать несколько связанных страниц, возможно, одна из фреймворков может помочь Если вы готовы создать свой собственный искатель здесь, отличный учебник, который также хорошо подходит для Python. https://www.udacity.com/course/viewer#!/c-cs101


8



Да, это возможно.

В python это просто; urllib поможет вам загрузить файлы из сети. Например:

import urllib
urllib.url_retrive("http://example.com/helo.pdf","c://home")

Теперь вам нужно создать скрипт, который найдет ссылки, заканчивающиеся на .pdf.

Пример страницы html:      Вот ссылка

Вам нужно загрузить html-страницу и использовать htmlparser или использовать регулярное выражение.


5



Да, это возможно. Это называется веб-соскабливанием. Для Python существуют различные пакеты, которые помогут в этом, включая scrapy, beautifulsoup, mechanize, а также многие другие.


4



использование urllib для загрузки файлов. Например:

import urllib

urllib.urlretrieve("http://...","file_name.pdf")

Пример скрипта для поиска ссылок, заканчивающихся на .pdf : https://github.com/laxmanverma/Scripts/blob/master/samplePaperParser/DownloadSamplePapers.py


0