各类RSS订阅源的获取、处理方法

未分类 2022-05-07

一、提供RSS订阅支持服务的网站

可以用浏览器插件Shoyu RSS、Atom Feed Preview,插件Tampermonkey的RSS+、RSSHelper油猴脚本,在浏览网站时,直接页面右下方显示该网站RSS订阅源(前提是该网站提供了RSS支持服务)。

image-20220503170154099

二、未支持RSS订阅的网站,可以使用RSS生成器,为其生成订阅源

1. RSSHub

RSSHub目前支持包括微博、知乎、B站、YouTube、推特等国内外主流网站在内,近千内容源烧制订阅源的服务。

RSSHub可以直接白嫖使用网上其他网友公开的镜像域名,域名能直接谷歌搜索到的,例如https://rssforever.com/https://rss.qiuyuair.comhttps://rss.itggg.cn

同时支持自建服务,例如Nas、云服务器Docker部署,Heroku部署,Vercel部署。

Heroku和Vercel都是免费的,流量也基本够用,相比腾讯云等国内服务器自建RSSHub服务,还能规避部分网站的抓取限制。

以Vercel为例,首先注册登录GitHub,打开https://vercel.com/import/project?template=https://github.com/DIYgod/RSSHub 用GitHub授权登录Vercel;

添加Github仓库的访问权限,

输入仓库名→点击“Create”。

出现“Congratulations!”界面后,点击”Go to Dashboard”,获取 Vercel 的RSSHub域名地址。

image-20220503162813610

将获取到Vercel的RSSHub域名地址或者网上网友分享的镜像域名,直接填入RSSHub浏览器插件,油猴脚本RSS+设置域名的地方,

image-20220503165057731

这样在微博、贴吧、推特等页面,都能自行嗅探,显示以这个镜像域名为基础生成的RSS订阅源。

image-20220503165457408

2. RSS-Proxy

RSS-Proxy可以针对RSSHub未支持抓取的网站,提供个人自主生成网站RSS链接的服务。

这是公用示例网址RSS-proxy playground (migor.org)

也可以Docker部署:

docker pull damoeb/rss-proxy
docker run -p 3000:3000 -it damoeb/rss-proxy

打开RSS-Proxy链接后,在有上角输入要抓取的网站链接,点击“show Feeds”,然后点击右下角的按钮,

image-20220503175223150

在浏览器地址栏获取生成的订阅链接。

image-20220503175551957

3. Huginn

3.1 Docker-compose部署

huginn可以直接登入官网使用,也可以自行部署,这里提一下docker-compose部署。

在宝塔后台文件目录,新建docker-compose.yml文件,打开后,将下面的代码贴入保存。

version: "3.5"
services: 
    huginn-server:
        image: huginn/huginn
        container_name: huginn
        depends_on: 
            - huginn-mariadb
        environment: 
            - HUGINN_DATABASE_HOST=huginn-mariadb
            - HUGINN_DATABASE_PORT=3306
            - HUGINN_DATABASE_NAME=huginn
            - HUGINN_DATABASE_USERNAME=huginn
            - HUGINN_DATABASE_PASSWORD=123456
            - SMTP_SERVER=mail.233.fi
            - SMTP_PORT=587
            - SMTP_USER_NAME=imlala@233.fi
            - SMTP_PASSWORD=123456
            - EMAIL_FROM_ADDRESS=imlala@233.fi
        ports:
            - 3000:3000
        restart: unless-stopped
    huginn-mariadb:
        image: mariadb
        container_name: huginn-mariadb
        environment: 
            - MYSQL_DATABASE=huginn
            - MYSQL_USER=huginn
            - MYSQL_PASSWORD=123456
            - MYSQL_ROOT_PASSWORD=123456
        volumes: 
            - ./db:/var/lib/mysql
        restart: unless-stopped

“终端”输入:

docker-compose up -d 

部署结束后,在浏览器地址栏输入“服务器IP:3000”并访问,显示页面就表示部署成功。默认的账户名是admin,密码是password。

3.2 新建第一个Agent,抓取网页信息

登入huginn后,点击Account→修改一下邮箱、密码。

点击页面上方的Agents →New Agents 创建新任务。

image-20220503002233643

Type:选择Website Agent;Name:填入项目、网站名;Schedule:选择抓取内容的更新频率。

image-20220503001859051

Options代码区,在”url”后填入抓取网站的链接,”mode”后填入on_change。

在chrome内核浏览器中,打开网站链接,右键点击页面选择“检查”(或者按F12),右键点击选择要抓取的元素,审查元素面板会定位到该节点,右键点击该元素节点→复制→复制完整Xpath。

image-20220503001038117

然后在huginn界面options→extract→url→“xpath”后填入复制好的Xpath节点路径(li后面的“[1]”标签需要删除,因为不是只抓第一个li,而是整个列表),在“url”的”value“后填入@href提取链接;

image-20220503000346403

“title”也是一样,填入复制好的Xpath节点路径,”value“后填入string(.)提取节点路径下的所有字符串,或者normalize-space(.)来提取去除多余空格的字符串。也可以选择其他的如./node()、text()来测试看看效果。

添加一个与extract平级的template链接补全模板,url后填入:“抓取的网址链接”+“{{url}}”。

image-20220503000225264

最后点击Dry Run 看看抓取效果。

image-20220503210532528

3.3 创建第二个Agent,生成RSS地址

Type:选择 DataOutputAgent;Name:填入项目、网站名;Schedule:选择抓取内容的更新频率;Sources:选择第一个Agent。

image-20220503213152942

配置Options,title填入RSS名,link填入抓取页面的网址,item的title、link等项,填入{{title}}、{{url}}。

image-20220503214529866

点击Save保存Agent,就可以用显示的xml地址,去RSS阅读器订阅该网站了。

image-20220503214914617

三、订阅源翻译

zapier

使用于云端服务 API 自动化流程的工具 zapier 的RSS订阅源翻译工作流 Connect your RSS by Zapier to Translate by Zapier integration in 2 minutes | Zapier

点击Choose app &event,点击Continue,进入下一步;

填入要抓取翻译的网站链接后,点击Continue,进入下一步;

进入 Test trigger,点击Continue,进入下一步。

在翻译环节,点击Choose app &event,点击Continue,进入下一步;

选择好订阅源的语言和翻译后的语言,进入下一步;

来到最后一个环节,点击Choose app &event,点击Continue,进入下一步;

复制好要翻译后的订阅源链接(最终到RSS订阅器订阅的链接),填入订阅源名称后,点击Continue,进入下一步;

在Test action测试环节点击测试,

运行无误后,点击开启运行工作流。

工作流生效会有延迟,需要等一段时间才能看到所有翻译后的内容。

四、订阅公众号

1. WeRss

稳定运行多年,体验良好。

2. 瓦斯阅读

适合订阅公众号数量非常多的人,80块一年,无限制订阅。

3. 微阅读

会员可以无限制订阅公众号。没有收录的公众号,提交申请后,也会很快被收录。缺点是不提供全文输出,不过这对大多数主流阅读器来说,都不是问题。

五、订阅推特

自建RSSHub玩家,如果网络上找的镜像域名失效,也可以用https://twiiit.com/这样的推特镜像网站,在推特用户页面,获取订阅源。

image-20220429223901344

六、订阅Instagram

同上,也可以用Bibliogram烧制订阅源。

image-20220429224332993

七、订阅Newsletter

可以使用Kill the Newsletter! (kill-the-newsletter.com)服务生成的邮箱去订阅Newsletter。

image-20220429231403779
image-20220429231801342

八、订阅微博

Weibo to RSS

image-20220507233439236

九、多源合并

http://feed.informer.com/

image-20220504005055370

登录后点击My digests,填入RSS项目名,复制好下方的RSS地址。

image-20220505111124563

添加需要合并的多个RSS地址,

image-20220505111313447

点击Save保存,然后就可以用之前第一步复制的RSS地址,去到RSS阅读器订阅使用了。

image-20220505111515277

十、订阅源过滤

siftrss.com

支持标题包含或排除关键词,

image-20220503221550818

支持正则表达式过滤(”/关键词|关键词|关键词/i”,可以用“shift+\”打出”|“符号)。

十一、关键词搜索

11.1 Google Alerts

设定好关键词,比如“RSS”,以及对应的搜索配置,就可以用邮箱或者RSS订阅,还可以和IFTTT等自动化工具联动,实现推送提醒功能。

11.2 GigaAlert

为关键词搜索结果建立RSS 订阅服务,免费试用版可以建立3个关键词搜索订阅链接。

11.3 Reddit关键词

Reddit关键词搜索结果订阅。

评论 (0)
Top