Trình thu thập thông tin web  - Crawler website

Trình thu thập thông tin web  – Crawler website (còn được biết đến với các thuật ngữ khác như automatic indexers, bots, web spiders, web robots hoặc web scutters) là một chương trình tự động, hoặc tập lệnh, có phương pháp quét hoặc “thu thập dữ liệu” thông qua các trang web để tạo ra một chỉ mục dữ liệu nó được thiết lập để tìm kiếm. Quá trình này được gọi là Thu thập thông tin web hoặc spidering.

Có nhiều cách sử dụng khác nhau dành cho trình thu thập thông tin web, nhưng về cơ bản trình thu thập thông tin web được sử dụng để thu thập / khai thác dữ liệu từ Internet. Hầu hết các công cụ tìm kiếm sử dụng nó như là một phương tiện cung cấp dữ liệu cập nhật và để tìm thấy những gì mới trên Internet. Các công ty Analytics và các nhà nghiên cứu thị trường sử dụng trình thu thập thông tin web để xác định xu hướng khách hàng và thị trường trong một địa lý nhất định. Trong bài này, chúng tôi giới thiệu hơn 50 open source trình thu thập dữ liệu webvhàng đầu trên web để khai thác dữ liệu.

TênLanguagePlatform
HeritrixJavaLinux
NutchJavaCross-platform
ScrapyPythonCross-platform
DataparkSearchC++Cross-platform
GNU WgetCLinux
GRUBC#, C, Python, PerlCross-platform
PHP Simple HTML DOM ParserPHPCross-platform
HTTrackC/C++Cross-platform
MechanicalSouppythonCross-platform
mnoGoSearchCWindows
Norconex HTTP CollectorJavaCross-platform
Open Source ServerC/C++, Java PHPCross-platform
PHP-CrawlerPHPCross-platform
YaCyJavaCross-platform
WebSPHINXJavaCross-platform
WebLechJavaCross-platform
AraleJavaCross-platform
JSpiderJavaCross-platform
HyperSpiderJavaCross-platform
ArachnidJavaCross-platform
SpindleJavaCross-platform
SpiderJavaCross-platform
LARMJavaCross-platform
MetisJavaCross-platform
SimpleSpiderJavaCross-platform
GrunkJavaCross-platform
CAPEKJavaCross-platform
ApertureJavaCross-platform
Smart and Simple Web CrawlerJavaCross-platform
Web HarvestJavaCross-platform
AspseekC++Linux
BixoJavaCross-platform
crawler4jJavaCross-platform
EbotErlandLinux
HounderJavaCross-platform
Hyper EstraierC/C++Cross-platform
OpenWebSpiderC#, PHPCross-platform
PavukCLunix
SphiderPHPCross-platform
XapianC++Cross-platform
Arachnode.netC#Windows
CrawwwlerC++Java
Distributed Web CrawlerC, Java, PythonCross-platform
iCrawlerJavaCross-platform
pycreepJavaCross-platform
OpeseC++Linux
AndjingJava
CcrawlerC#Windows
WebEaterJavaCross-platform
JoBoJavaCross-platform

Khác:

  • Cola describes itself as a “high-level distributed crawling framework” that might meet your needs if you’re looking for a Python 2 approach, but note that it has not been updated in over two years.
  • Demiurge, which supports both Python 2 and Python 3, is another potential candidate to look at, although development on this project is relatively quiet as well.
  • Feedparser might be a helpful project to check out if the data you are trying to parse resides primarily in RSS or Atom feeds.
  • Lassie makes it easy to retrieve basic content like a description, title, keywords, or a list of images from a webpage.
  • RoboBrowser is another simple library for Python 2 or 3 with basic functionality, including button-clicking and form-filling. Though it hasn’t been updated in a while, it’s still a reasonable choice.
Xem thêm HTML-PHP

Được đề xuất cho bạn

Chia sẻ 190 Template Bootstrap Premium