崗位職責(zé):
1、負(fù)責(zé)設(shè)計、開發(fā)和維護(hù)分布式爬蟲系統(tǒng),提升爬蟲效率并提高爬蟲穩(wěn)定性;2、維護(hù)并對現(xiàn)有爬蟲程序進(jìn)行性能調(diào)優(yōu),提升爬蟲效率;
3、根據(jù)業(yè)務(wù)需求,抓取多平臺網(wǎng)頁、小程序等數(shù)據(jù),并進(jìn)行簡單的數(shù)據(jù)處理及存儲;
4、設(shè)計爬蟲策略和防屏蔽規(guī)則,解決反爬問題,提升數(shù)據(jù)抓取效率和質(zhì)量;
5、對抓取的數(shù)據(jù)進(jìn)行深度提取和挖掘,為業(yè)務(wù)提供數(shù)據(jù)支持;
6、參與數(shù)據(jù)層建設(shè),解決技術(shù)疑難問題,如復(fù)雜驗證碼破解、動態(tài)網(wǎng)頁抓取等。崗位要求:
教育水平:本科及以上;專業(yè):計算機(jī)相關(guān);從事相關(guān)行業(yè)3年以上經(jīng)驗者優(yōu)先。
專業(yè)能力要求:
1、精通Python語言,熟悉HTML、CSS、JavaScript、XPath、Ajax、正則表達(dá)式等技術(shù);
2、熟悉網(wǎng)頁、小程序、APP抓取原理及技術(shù),熟悉常用的爬蟲網(wǎng)絡(luò)框架及組件;
3、熟悉MySQL、MongoDB、Redis等數(shù)據(jù)庫,有數(shù)據(jù)清洗、存儲經(jīng)驗;
4、熟悉反爬機(jī)制,能夠解決賬號限制、IP限制、驗證碼等問題;
5、熟悉分布式爬蟲架構(gòu),具有搭建分布式爬蟲系統(tǒng)的能力;
6、具備JavaScript逆向能力,驗證碼破解能力;
7、熟悉Linux系統(tǒng),有數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、自然語言處理(NLP)技術(shù)背景者優(yōu)先;
8、具有帆軟平臺數(shù)據(jù)爬取經(jīng)驗優(yōu)先;
9、了解SM2、SM4等國密算法優(yōu)先;
10、具備良好的團(tuán)隊合作精神、溝通能力和問題解決能力。
北京 - 石景山
北京大享科技有限公司北京 - 海淀
北京 - 海淀
北京 - 東城
北京 - 海淀
北京 - 海淀