【nodejs】用Node.js实现简单的壁纸网站爬虫

1. 简介

在这个博客中，我们将学习如何使用Node.js编写一个简单的爬虫来从壁纸网站获取图片并将其下载到本地。我们将使用Axios和Cheerio库来处理HTTP请求和HTML解析。

2. 设置项目

首先，确保你已经安装了Node.js环境。然后，我们将创建一个新的文件夹，初始化项目并安装所需的依赖库：

Copy code
mkdir wallpaper-scraper
cd wallpaper-scraper
npm init -y
npm install axios cheerio

编写爬虫代码

在项目文件夹中，创建一个名为scraper.js的文件，并将你提供的代码复制粘贴进去。

const axios = require('axios');
const cheerio = require('cheerio');
const fs = require('fs');

const baseUrl = 'http://www.netbian.com/';
const page = 3;

const pachong = async () => {
  const imgList = [];
  for (let i = 0; i < page; i++) {
    const res = await axios.get(
      `${baseUrl}index${i === 0 ? '' : `_${i + 1}`}.htm`,
    );
    const $ = cheerio.load(res.data);
    const imgList2 = $('.list li a img')
      .toArray()
      .map((item) => {
        return $(item).attr('src');
      });
    imgList.push(...imgList2);
  }
  writeFile(imgList);
};

const writeFile = async (urls) => {
  urls.forEach(async (item) => {
    try {
      const res = await axios.get(item, { responseType: 'arraybuffer' });
      const imgBuffer = Buffer.from(res.data, 'binary');
      await fs.promises.writeFile(
        `./img/${new Date().getTime()}.jpg`,
        imgBuffer,
      );
      console.log('写入成功 --- ' + item);
    } catch (error) {
      console.log('写入失败 --- ' + error);
    }
  });
};

pachong();

4. 运行爬虫

现在，你可以在命令行中运行爬虫脚本：

node scraper.js

脚本会自动爬取壁纸网站的图片并将它们下载到一个名为img的文件夹中。每张图片将使用当前时间戳作为文件名，以确保唯一性。

5. 注意事项

确保遵守网站的使用条款和条件。不要过度请求或滥用网站，以免造成不必要的麻烦。
代码中使用的选择器、URL结构等可能会因网站结构的更改而失效。需要根据实际情况进行调整。

记录kafka踩坑：marking the coordinator (id rack null) dead for group

工作中用java代码连接k8s集群中的kafka集群时消费者java代码一直报异常marking the coordinator (id rack null) dead for group。经过长时间试错，有两点解决办法。首先，更新pom文件中的kafka-clients版本，我

稀疏数组的压缩存储示例

稀疏数组的压缩存储适用于数组中0较多或者是相同的内容较多的时候，例如以下数组：

【Spring专题】手写简易Spring容器过程分析

目录前言

Java WEB 项目部署，查看日志

文章目录一. 部署项目

并发编程系列（四）—深入理解java内存模型和volatile

【Clickhouse】Cannot allocate block number in Zookeeper write prefix view location

fabric-sdk-go编写

今天我们来学下fabric-sdk-go的编写区块链是未来互联网的发展趋势，区块链是一个信息技术领域的术语。从本质上讲，它是一个共享数据库，存储于其中的数据或信息，具有“不可伪造”“全程留痕”“可以追溯”“公开透明”“集体维护

twitter技术架构

随着信息爆炸的加剧，微博客网站Twitter横空出世了。用横空出世这个词来形容Twitter的成长，并不夸张。从2006年5月Twitter上线，到2007年12月，一年半的时间里，Twitter用户数从0增长到6.6万。又过了一年，2008年12月，Twitter的用户数

php设置整体文字的编码统一,PHP统一页面编码避免乱码问题

页面编码统一 MySQL数据库编码、html页面编码、PHP或html文件本身编码要全部一致。 1、MySQL数据库编码：建立数据库时指定编码(如gbk_chinese_ci)，建立数据表、建立字段、插入数据时不要指定编码，会自动继承数

RNN（Recurrent Neural Network）循环神经网络

**RNN（Recurrent Neural Network）在传统的全连接神经网络中，从输入层到隐藏层再到输出层，每一层之间的节点是无连接的，因为输入和输出是独立的，所以这种普通的神经网络对于序列数据的处理是无能为力的。而现实中，绝大多数