记一次node爬虫经历,手把手教你爬虫

需求说明

  • 访问网站
  • (循环)获取页面指定数据源
  • 根据页面数据源再(循环)访问详情数据
  • 记录详情数据,以Excel形式导出。

所需模块

根据需求所得五个模块

// 请求模块(1.访问网站)
const request = require('request');

// 可以看做成node版的jQuery(2.获取页面指定数据源)
const cheerio = require("cheerio");

// node异步流程控制 异步循环(3.根据页面数据源再访问详情数据)
const async = require("async");

// Excel表格导出+node自带文件系统(4.以Excel形式导出)
const excelPort = require('excel-export');
const fs         = require("fs");

安装模块:

npm install request cheerio async excel-export --save-dev

开始发送请求

一开始我直接用request请求网站,但直接返回了404,但我在浏览器上看又是没毛病的。然后我就改了下请求的header。

request({
    url: 'http://www.foo.cn?page=1',
    method: 'get',
    headers: {
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
        // 这里巨坑!这里开启了gzip的话http返回来的是Buffer。
        // 'Accept-Encoding': 'gzip, deflate',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Cache-Control': 'no-cache',
    },
    // 想请求回来的html不是乱码的话必须开启encoding为null
    encoding: null
}, (err, res, body) => {
    // 这样就可以直接获取请求回来html了
    console.log('打印HTML', body.toString()); // <html>xxxx</html>
});

获取指定数据源

request({
    url: 'http://www.foo.cn?page=1',
    method: 'get',
    headers: {
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
        // 'Accept-Encoding': 'gzip, deflate',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Cache-Control': 'no-cache',
    },
    encoding: null
}, (err, res, body) => {
    console.log('打印HTML', body.toString()); // <html>xxxx</html>
    const list = [];
    const $ = cheerio.load(body.toString());
    // 获取指定元素
    let item = $('.className tbody tr');
    // 循环得到元素的跳转地址和名称
    item.map((i, index) => {
    let obj = {};
    obj.link = $(index).children('a').attr('href');
    obj.name = $(index).children('a').text();
    list.push(obj);
    });
    console.log('list', list); // [{ link: 'http://xxxx.com', name: 'abc' }]
});

异步流程控制

先将request封装多一层,传入page值和async.series的callback

async function requestPage(page = 1, callback) {
    request({
        url: 'http://www.masuma.cn/product.php?lm=21&page=' + page,
        method: 'get',
        headers: {
            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            // 'Accept-Encoding': 'gzip, deflate',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            'Cache-Control': 'no-cache',
        },
        encoding: null
    }, async (err, res, body) => {
        console.log('打印HTML', body.toString()); // <html>xxxx</html>
        const list = [];
        const $ = cheerio.load(body.toString());
        // 获取指定元素
        let item = $('.className tbody tr');
        // 循环得到元素的跳转地址和名称
        item.map((i, index) => {
        let obj = {};
        obj.link = $(index).children('a').attr('href');
        obj.name = $(index).children('a').text();
        list.push(obj);
        });
        console.log('list', list); // [{ link: 'http://xxxx.com', name: 'abc' }]
        callback(null, list);
    });
}

打印出数据 + 导出Excel

async function main() {
    const requestList = [];
    // 在这里为什么要用到async.series?
    // 是因为这个爬虫需要具有顺序性,必须得异步请求完一个地址并获取数据然后再存到一个变量里才能执行下一个
    // 在此期间我想过其他方法。例如:
    // for循环 + await 直接否定了
    // Promise.all这个并不能保证数据具有顺序
    // 最终敲定用async.series 用完之后!真香啊!
    // 很好奇async.series找个时间也做个源码解析
    for (let i = 1; i < 36; i++) {
        requestList.push(callback => {
        requestPage(i, callback);
        });
    }
    console.log('requestList', requestList); // [Function, Function] 全是function的数组
    async.series(requestList, (err, result) => {
        // 因为async.series返回来的结果是[[], [], []]这种二维数组形式,每个function返回来的值都放在一个数组里,我们需要将它弄成一维数组好做导出列表
        const arry = [].concat.apply([], result);
        console.log('最终结果!!!!', arry); // [{ link: 'http://xxxx.com', name: 'abc' }, ...]
        writeExcel(arry);
    });
}

const writeExcel = (datas) => {
    // 定义一个对象,存放内容
    let conf = {};
    // 定义表头
    conf.cols = [
        {caption:'玛速玛编码', type:'string', width:40},
        {caption:'原厂编码', type:'string', width:60},
    ];
    // 创建一个数组用来多次遍历行数据
    let array = [];
    // 循环导入从传参中获取的表内容
    for (let i=0;i<datas.length;i++){
        //依次写入
        array[i] = [
        datas[i].name,
        datas[i].code,
        ];
    }
    // 写入道conf对象中
    conf.rows = array;
    // 生成表格
    const result = excelPort.execute(conf);
    // 定义表格存放路径
    fs.writeFile('./表格.xlsx', result, 'binary',function(err){
        if(err){
            console.log(err);
        }
    });
}

main();
贡献者: mankueng