Trình thu thập thông tin web  - Crawler website

Trình thu thập thông tin web  – Crawler website (còn được biết đến với các thuật ngữ khác như automatic indexers, bots, web spiders, web robots hoặc web scutters) là một chương trình tự động, hoặc tập lệnh, có phương pháp quét hoặc “thu thập dữ liệu” thông qua các trang web để tạo ra một chỉ mục dữ liệu nó được thiết lập để tìm kiếm. Quá trình này được gọi là Thu thập thông tin web hoặc spidering.

Có nhiều cách sử dụng khác nhau dành cho trình thu thập thông tin web, nhưng về cơ bản trình thu thập thông tin web được sử dụng để thu thập / khai thác dữ liệu từ Internet. Hầu hết các công cụ tìm kiếm sử dụng nó như là một phương tiện cung cấp dữ liệu cập nhật và để tìm thấy những gì mới trên Internet. Các công ty Analytics và các nhà nghiên cứu thị trường sử dụng trình thu thập thông tin web để xác định xu hướng khách hàng và thị trường trong một địa lý nhất định. Trong bài này, chúng tôi giới thiệu hơn 50 open source trình thu thập dữ liệu webvhàng đầu trên web để khai thác dữ liệu.

Tên Language Platform
Heritrix Java Linux
Nutch Java Cross-platform
Scrapy Python Cross-platform
DataparkSearch C++ Cross-platform
GNU Wget C Linux
GRUB C#, C, Python, Perl Cross-platform
PHP Simple HTML DOM Parser PHP Cross-platform
HTTrack C/C++ Cross-platform
MechanicalSoup python Cross-platform
mnoGoSearch C Windows
Norconex HTTP Collector Java Cross-platform
Open Source Server C/C++, Java PHP Cross-platform
PHP-Crawler PHP Cross-platform
YaCy Java Cross-platform
WebSPHINX Java Cross-platform
WebLech Java Cross-platform
Arale Java Cross-platform
JSpider Java Cross-platform
HyperSpider Java Cross-platform
Arachnid Java Cross-platform
Spindle Java Cross-platform
Spider Java Cross-platform
LARM Java Cross-platform
Metis Java Cross-platform
SimpleSpider Java Cross-platform
Grunk Java Cross-platform
CAPEK Java Cross-platform
Aperture Java Cross-platform
Smart and Simple Web Crawler Java Cross-platform
Web Harvest Java Cross-platform
Aspseek C++ Linux
Bixo Java Cross-platform
crawler4j Java Cross-platform
Ebot Erland Linux
Hounder Java Cross-platform
Hyper Estraier C/C++ Cross-platform
OpenWebSpider C#, PHP Cross-platform
Pavuk C Lunix
Sphider PHP Cross-platform
Xapian C++ Cross-platform
Arachnode.net C# Windows
Crawwwler C++ Java
Distributed Web Crawler C, Java, Python Cross-platform
iCrawler Java Cross-platform
pycreep Java Cross-platform
Opese C++ Linux
Andjing Java
Ccrawler C# Windows
WebEater Java Cross-platform
JoBo Java Cross-platform

Khác:

  • Cola describes itself as a “high-level distributed crawling framework” that might meet your needs if you’re looking for a Python 2 approach, but note that it has not been updated in over two years.
  • Demiurge, which supports both Python 2 and Python 3, is another potential candidate to look at, although development on this project is relatively quiet as well.
  • Feedparser might be a helpful project to check out if the data you are trying to parse resides primarily in RSS or Atom feeds.
  • Lassie makes it easy to retrieve basic content like a description, title, keywords, or a list of images from a webpage.
  • RoboBrowser is another simple library for Python 2 or 3 with basic functionality, including button-clicking and form-filling. Though it hasn’t been updated in a while, it’s still a reasonable choice.
Xem thêm bài viết liên quan
Xem thêm HTML-PHP

Được đề xuất cho bạn

Blumentals HTMLPad | Rapid CSS | Rapid PHP | WeBuilder v16.0 2020

Một bộ bốn chương trình cần thiết và hiệu quả cho các webmaster bởi phần mềm Blumentals: W…