2024-06-07
1、主要是編程,工具都有比較明顯的爬蟲標(biāo)識或者爬取的頻率行為模式等,容易屏蔽,自己開發(fā)的可以隨時改請求信息中可以自定義的部分(標(biāo)識),采集頻率也可以靈活變動,比如間隔多少,或者嘗試在發(fā)送請求的時候加代理ip等,用php和python都有一些開源的采集框架和類庫可以使用,咱們主要用的是python自動化測試那一套來改的,python + pytest + selenium + webdriver,能做到普通的采集方式,和模擬瀏覽器下人工點擊的方式
python采集框架這里有幾個帶git地址 https://blog.csdn.net/weixin_46428928/article/details/128239671
php的不推薦,沒好用的,而且性能不能python
2、如果資源網(wǎng)站有限制ip請求次數(shù),可以購買多個低配服務(wù)器實現(xiàn)多個ip分布式采集,或者用家用網(wǎng)絡(luò)的動態(tài)ip來繞過(部分網(wǎng)絡(luò)可能需要定時重啟路由器更新ip地址)
如果有限制賬號下獲取的次數(shù),可以購買多個賬號
3、不會編程可以用 爬山虎,火車頭那種安裝性的帶界面的軟件
4、ai爬蟲,目前學(xué)習(xí)到的思路主要還是前半截省事點 給他說我要采集哪一塊數(shù)據(jù),ai理解后提取那塊的元素,提取的技術(shù)邏輯還是和編程一樣根據(jù) xpath 找html元素節(jié)點并獲取元素內(nèi)容那種,從采集的整體流程看只是一小部分工作量可以給ai,獲取后的數(shù)據(jù)怎么處理,效果不好再去清洗之類的還要人工編程處理
6款可用于LLMs的爬蟲工具/方案: 最近爬蟲工具很多,整理了一個工具集合
1、Crawl4AI
Crawl4AI可將語義標(biāo)記的數(shù)據(jù)塊提取成 JSON 格式,提供干凈的 HTML 和 Markdown 文件,用于 RAG(檢索增強生成)、微調(diào)以及 AI 聊天機器人的開發(fā) Crawl4AI提供爬取功能和多 URL 支持,可輕松集成為庫或服務(wù)器,并提供了 Docker 容器來簡化設(shè)置
特點: 1、高效且提取有價值數(shù)據(jù) 2、適合LLM格式(JSON、清理后的 HTML、Markdown) 3、支持同時多個 URL 4、用 ALT 替換媒體標(biāo)簽
github:https://github.com/unclecode/crawl4ai
2、FireCrawl
FireCrawl能夠抓取任何網(wǎng)站的所有可訪問子頁面,無需站點地圖,并將內(nèi)容轉(zhuǎn)換為干凈的Markdown格式 FireCrawl 與傳統(tǒng)的網(wǎng)頁爬蟲工具不同,即使網(wǎng)站使用JavaScript動態(tài)生成其內(nèi)容,F(xiàn)ireCrawl 也能有效的進行抓取 此外,還提供了易于使用的API,使開發(fā)者能夠通過簡單的API調(diào)用實現(xiàn)內(nèi)容的爬取和轉(zhuǎn)換
github:https://github.com/mendableai/firecrawl
3、Scrapegraph-ai
Scrapegraph-ai使用 LLM 和直接圖形邏輯為網(wǎng)站和本地文檔(XML、HTML、JSON 等)創(chuàng)建抓取流程 用戶只需要指定想要提取的信息類型,ScrapeGraphAI 庫就能自動執(zhí)行數(shù)據(jù)抓取的任務(wù)
github:https://github.com/VinciGit00/Scrapegraph-ai
4、Markdowner 一個快速的開源工具,可以將網(wǎng)站轉(zhuǎn)換為 Markdown 數(shù)據(jù) 支持自動爬蟲、詳細模式、javascript網(wǎng)站等 易于擴展和自托管,運行成本低
github:https://github.com/dhravya/markdowner
5、Jina Reader Jina Reader可以將任何 URL 轉(zhuǎn)化為 LLM 所需Markdown格式 可以針對這些內(nèi)容集成不同的模型,支持 API
github:https://github.com/jina-ai/reader
6、Skyvern 支持自然語言進行網(wǎng)頁導(dǎo)航、過時/電商網(wǎng)站的數(shù)據(jù)爬取、填寫表單等復(fù)雜多步操作 支持繞過 CAPTCHA/Authentication 等驗證操作 支持API 調(diào)用/Debug 模式
github:https://github.com/Skyvern-AI/skyvern
7、EasySpider易采集:免費開源可視化爬蟲工具
—可視化瀏覽器,自動化測試/數(shù)據(jù)采集/爬蟲軟件
—可以無代碼圖形化的設(shè)計、執(zhí)行爬蟲任務(wù)
只需要在網(wǎng)頁上選擇自己要操作的內(nèi)容,根據(jù)提示框操作即可完成任務(wù)的設(shè)計和執(zhí)行
也可以單獨以命令行的方式進行執(zhí)行,非常便捷的嵌入到其他系統(tǒng)中
github:https://github.com/NaiboWang/EasySpider
推薦7
二、短視頻獲客(經(jīng)驗談):目前短視頻獲客有兩種方式,一種是按爆款視頻7步生成法來制作視頻,見下圖:
一種是把自己的生活融入到短視頻中,相當(dāng)于日記體,我們看一些知名人物都會經(jīng)常分享自己的日常,就是這種日記體,也是很吸粉的
對于電商賣家來說,還可以通過買家來加用戶數(shù)據(jù),如下圖
千萬不要把小紅書當(dāng)朋友圈發(fā),起號前就要明確自己要做的垂直賽道進行深耕創(chuàng)作。
如何選擇垂直賽道?
a、興趣所在
就是你的愛好,你喜歡做的事,總被朋友或家人表揚的地方。
b、專業(yè)所在
你所學(xué)的專業(yè)或者你擅長的做的,比如擅長畫畫,或者擅長刷題,都可以。
選一個有興趣又擅長的賽道,不僅會促進你的更新,還會讓你覺得有趣,容易堅持,并且在這個領(lǐng)域不斷研究下去。
用一個新手機號創(chuàng)建一個新賬號并進行為期一周的養(yǎng)號,這是為了讓紅薯判定你是真實用戶而不是四(防止后面限流),并且判定你賬號的賽道后面更精準(zhǔn)的推流。
養(yǎng)號方法
(1)關(guān)注紅薯所有官方賬號,關(guān)注你要做的領(lǐng)域的大V。
(2)搜索并查看你要做的領(lǐng)域的內(nèi)容,并且進行點贊收藏評論,每天點贊10條,收藏和評論各5條。
(3)每天用這個賬號刷1小時。
養(yǎng)號完成后開始修改自己的名稱和簡介一名稱:簡單好記并且和你要做的領(lǐng)域相關(guān)。
假如你要做一個運營賬號,那么可以取名:運營xx,xx的運營筆記等,其他賽道以此類推。
簡介:一句話介紹自己,可以是你的職位,行業(yè),經(jīng)驗。如:上市公司十年運營總監(jiān)。并且說明你的內(nèi)容方向,如:知識分享,面試經(jīng)驗,個人成長等。給用戶一個初始印象。
背景圖:簡單大方即可,不要太過花哨。博主標(biāo)簽:如大學(xué)生,上班族,xx博
博主標(biāo)簽:如大學(xué)生,上班族,xx博主,xx專家,咖啡師,產(chǎn)品經(jīng)理,運營等
4、找對標(biāo)、拆爆款a、如何找對標(biāo)賬號:
(1)名稱搜索:
可以直接搜索你領(lǐng)域的關(guān)鍵詞然后關(guān)注粉絲量多并且持續(xù)更新的博主。
(2)爆款帖子搜索:
直接搜索垂直領(lǐng)域爆款筆記,去查看發(fā)布筆記的博主,關(guān)注和自己領(lǐng)域相關(guān)的。
(3)系統(tǒng)推薦:會根據(jù)你的日常搜索和查看給你推薦相關(guān)領(lǐng)域帖子,可以關(guān)注低粉但是有豹文的博主。
關(guān)注 50個對標(biāo)賬號并且收藏他們點贊收藏最高的帖子進行爆款拆解。
b、如何拆爆款:
(1)看選題:筆記主要是做什么主題的內(nèi)容內(nèi)容都包括了什么,如何呈現(xiàn)的(視頻or圖文),面對的人群是哪些
(2)看封面:單圖/多圖,圖片拍攝角度等圖片文案的內(nèi)容,字體,大小,位置,其他
參考賬號:栗嘻嘻 https://www.xiaohongshu.com/user/profile/59d3608320e88f102221c85d
競價SEM投放
做搜索引擎投放有很多小技巧。第一,你得確定目標(biāo)市場和關(guān)鍵詞,細分市場找到目標(biāo)客戶,才能把關(guān)鍵詞合理分組,這樣廣告的相關(guān)性和覆蓋面會更高。第二是賬戶結(jié)構(gòu),不能在一個推廣單元里放太多關(guān)鍵詞,確保關(guān)鍵詞和創(chuàng)意高度相關(guān)。然后是創(chuàng)意撰寫,要簡潔明了,突出產(chǎn)品或服務(wù)的優(yōu)勢,可以用通配符和飄紅來吸引點擊。投放策略也很重要,需要根據(jù)不同的地域和時間段來調(diào)整,還要控制好投放成本。比如,先用高價吸引流量,再逐步降價。最重要一點,定期監(jiān)控數(shù)據(jù),優(yōu)化關(guān)鍵詞質(zhì)量度,這樣不僅能提升推廣效果,還能降低點擊成本。對于競價投放選擇自建團隊還是第三方服務(wù)公司運營,取決于企業(yè)的預(yù)算、目標(biāo)和需求。自建團隊適合預(yù)算充足、追求長期發(fā)展和靈活控制的企業(yè),而第三方服務(wù)公司則適合預(yù)算有限、需要快速見效并利用外部專業(yè)經(jīng)驗的短期或階段性需求。對于靠譜的代理商選擇,如聚圣萬合,國雙科技,品眾集團,無雙科技,這些都是老牌且實力雄厚的代理商。
小紅書聚光投放
在小紅書進行聚光投放,先分析用戶從哪些渠道進入你的筆記,比如發(fā)現(xiàn)頁、搜索頁、關(guān)注頁等,再根據(jù)數(shù)據(jù)制定投放策略。如果搜索頁流量高,可以考慮追投搜索廣告。選擇那些跑量能力強、轉(zhuǎn)化效果好的筆記進行投流,關(guān)注點擊率和曝光量,挑選最具種草價值的筆記。使用內(nèi)容加熱工具提高筆記曝光量,確保更多用戶看到。配置聚光廣告時,要注意時間和內(nèi)容能吸引目標(biāo)用戶,上傳的素材和鏈接符合廣告審核標(biāo)準(zhǔn)。投放后,評估廣告效果,通過數(shù)據(jù)反饋優(yōu)化策略,確保廣告效果最大化。
抖音投放
要在抖音上做廣告,先得了解用戶喜歡什么,通過調(diào)查和數(shù)據(jù)分析找到他們的興趣點。內(nèi)容要有創(chuàng)意,開頭幾秒尤其重要,得抓住眼球。視頻中可以加些互動環(huán)節(jié),比如提問題、做小游戲,增加用戶參與感。投放廣告時,用千川、隨心推等工具精準(zhǔn)定位用戶,提高轉(zhuǎn)化率。投放后,關(guān)注數(shù)據(jù)反饋,播放量、點贊數(shù)等都是關(guān)鍵指標(biāo)。發(fā)現(xiàn)問題及時調(diào)整策略。投放時間也很重要,選在用戶活躍的時段,比如早上、中午或晚上。這樣,抖音投放才能更有效,吸引更多關(guān)注和參與。
抖音抖+投放技巧
投放前需考慮賬號粉絲情況及新舊,新賬號選自定義推薦增加精準(zhǔn)粉絲,老賬號選系統(tǒng)推薦。選擇播放量高的視頻投放,發(fā)布后24小時再投放。投放時長可選6-48小時,新賬號選長時,老賬號選短時。追投需滿足完播率、點贊率和粉絲成本條件。達人相似選擇數(shù)量根據(jù)預(yù)算定。
目前社群中提供全國所有企業(yè)的公開聯(lián)系方式,包括固話、手機、郵件,可以通過電話機器人、郵件群發(fā)系統(tǒng)、群發(fā)短信等方式聯(lián)系,當(dāng)然需要有電話費、郵件發(fā)送費用、短信費用的支出
https://telrobot.talkingview.com.cn/,注冊后可獲得全國所有企業(yè)公開的聯(lián)系方式
完 謝謝觀看
CDA認證
關(guān)于CDA考試 最新考試安排 考試報名入口 CDA證書查詢CDA合作
CDA教育 Pearson CVA協(xié)會 電子工業(yè)出版社關(guān)注CDA
關(guān)于我們 Email:exam@cdaglobal.com 電 話:010-68454276 微 信:15311595173