您好!歡迎進入孢子科技(深圳)有限公司,西安全網推廣,西安網站建設,西安網站優化(huà),西安網絡公司,!
你的(de)低價機票(piào)可(kě)能被“爬蟲吃(chī)了(le)”
作者:網絡    點擊次數:3342次    發布時(shí)間:2018-01-02

不到一個(gè)月(yuè),2018年春節要來(lái)了(le)。
    “今年我得(de)早下(xià)手,搶張回家的(de)低價機票(piào)。”在北(běi)京打工的(de)小王對(duì)科技日報記者說,由于老家在雲南(nán),春節機票(piào)太貴,他(tā)都選擇坐(zuò)兩天兩夜的(de)火車回去,長(cháng)途跋涉,苦不堪言。
    然而,就在小王摩拳擦掌,準備使出“洪荒之力”搶張便宜機票(piào)時(shí),看到網上曝出這(zhè)樣一則消息:航空公司放出的(de)低價機票(piào),80%以上被票(piào)務公司的(de)“爬蟲”搶走,普通(tōng)用(yòng)戶很少能買到。
小王傻眼了(le),“爬蟲”究竟是什(shén)麽鬼?它又是怎麽搶機票(piào)的(de)?難道就沒有辦法治理(lǐ)嗎?
    借助超鏈接信息抓取網頁
    “‘爬蟲’技術是實現網頁信息采集的(de)關鍵技術之一,通(tōng)俗來(lái)說,‘爬蟲’就是一段用(yòng)來(lái)批量、自動化(huà)采集網站數據的(de)程序,幾乎不需要人(rén)工幹預。”北(běi)京理(lǐ)工大(dà)學網絡科學與技術研究院副教授闫懷志告訴科技日報記者。
闫懷志介紹,“爬蟲”又稱網頁“蜘蛛”、網絡機器人(rén),它是一種按照(zhào)規則自動抓取網頁信息的(de)程序或者腳本,通(tōng)常駐留在服務器上。在Web網頁中,既包含可(kě)供用(yòng)戶閱讀的(de)文字、圖片等信息,還(hái)包含一些超鏈接信息。網絡“爬蟲”正是借助這(zhè)些超鏈接信息來(lái)不斷抓取網絡上的(de)其他(tā)網頁。
    “這(zhè)種信息采集過程很像一個(gè)爬蟲或蜘蛛在網絡上漫遊,網絡‘爬蟲’或網頁‘蜘蛛’因此得(de)名。”闫懷志說,“爬蟲”最早應用(yòng)在搜索引擎領域,比如谷歌(gē)、百度、搜狗等搜索引擎工具每天需要抓取互聯網上數百億的(de)網頁,它們需要借助龐大(dà)的(de)“爬蟲”集群來(lái)實現搜索功能。
當前,“爬蟲”已被廣泛用(yòng)于電子商務、互聯網金融等諸多(duō)領域。比如,“爬蟲”可(kě)以抓取航空公司官網的(de)機票(piào)價格,發現低價或緊俏機票(piào)後,“爬蟲”可(kě)以利用(yòng)虛假客源的(de)真實身份信息實現搶先預訂。再有,很多(duō)互聯網浏覽器都推出了(le)自己的(de)搶票(piào)插件,以高(gāo)訂票(piào)成功率來(lái)推廣浏覽器。
    根據抓取任務和(hé)目标的(de)不同,網絡“爬蟲”可(kě)大(dà)緻分(fēn)爲批量型、增量型和(hé)垂直型。批量型“爬蟲”的(de)抓取範圍和(hé)目标較爲明(míng)确,可(kě)以是網頁的(de)設定數量,也(yě)可(kě)以是消耗時(shí)間的(de)設定。增量型“爬蟲”主要用(yòng)于持續抓取更新的(de)網頁,以适應網頁的(de)不斷變化(huà)。垂直型“爬蟲”主要是用(yòng)于特定主題内容或特定行業的(de)網頁。
“爬蟲”究竟是如何搶票(piào)的(de)
    此前,在線票(piào)務服務公司攜程的(de)“反爬蟲”專家在技術分(fēn)享中透露,某網站的(de)一個(gè)頁面,每分(fēn)鐘(zhōng)的(de)浏覽量是1.2萬,真實用(yòng)戶隻有500個(gè),“爬蟲”流量占比爲95.8%。
    采訪中,很多(duō)業内人(rén)士也(yě)表示,即使在“爬蟲”活動的(de)淡季,虛假流量也(yě)占到訂票(piào)網站總流量的(de)50%,高(gāo)峰期更是在90%以上。
那麽,“爬蟲”究竟是如何實現搶票(piào)的(de)呢(ne)?對(duì)此,闫懷志解釋,主要是機票(piào)代理(lǐ)公司利用(yòng)“爬蟲”技術,不斷抓取航空公司售票(piào)官網網頁信息,如果發現該航空公司有低價票(piào)放出,“爬蟲”即刻利用(yòng)虛假客源身份進行批量預定但不實際支付,以達到搶占低價票(piào)源的(de)目的(de)。由于“爬蟲”的(de)效率遠(yuǎn)遠(yuǎn)超過正常的(de)手動操作,導緻通(tōng)過正常操作幾乎無法搶到票(piào)。
    随後,機票(piào)代理(lǐ)公司會通(tōng)過其自身銷售渠道(包括公司網站、在線旅行社、客戶電話(huà)訂購(gòu)等)找到真正的(de)客源,在航空公司允許的(de)賬期内,退訂此前使用(yòng)虛假客源身份預定的(de)低價票(piào),然後使用(yòng)真實身份信息進行訂購(gòu),實現該低價票(piào)的(de)加價轉售。
如果未在航空公司規定的(de)賬期内找到真正客源,機票(piào)代理(lǐ)公司會在訂單失效前再追加虛假身份訂單,繼續“霸占”該低價票(piào),如此反複,直至找到真正客源售出爲止。
    “上面的(de)操作流程就構成了(le)完整的(de)機票(piào)銷售鏈條。在這(zhè)個(gè)過程中,航空公司售票(piào)系統允許在賬期内反複訂、退票(piào)的(de)規定爲機票(piào)代理(lǐ)公司利用(yòng)‘爬蟲’搶票(piào)并加價獲利提供便利。這(zhè)種搶票(piào)方式,被稱爲技術‘黃(huáng)牛’。”闫懷志強調。
    的(de)确,有業内人(rén)士表示,這(zhè)些“爬蟲”流量消耗了(le)大(dà)量的(de)機器資源,卻不産生任何消費,這(zhè)是每個(gè)公司最痛恨的(de)東西。但是,因爲怕誤傷真實用(yòng)戶,各家公司的(de)“反爬蟲”策略做(zuò)得(de)非常謹慎。
    采用(yòng)手段 “爬蟲”可(kě)防可(kě)控
    任何事情都有兩面,“爬蟲”技術也(yě)不例外。
    在闫懷志看來(lái),“爬蟲”既可(kě)爲正常的(de)數據批量獲取提供有效的(de)技術手段,也(yě)可(kě)被惡意使用(yòng)以獲取不當利益。如果“爬蟲”技術被不正當利用(yòng),就會帶來(lái)的(de)危害。
首先,威脅數據。航空公司售票(piào)網站數據被惡意爬取,數據可(kě)能會被機票(piào)代理(lǐ)公司惡意利用(yòng),而且還(hái)存在被同業競争對(duì)手獲取的(de)風險。
    其次,導緻系統性能下(xià)降,影(yǐng)響用(yòng)戶體驗。“爬蟲”大(dà)量的(de)抓取請求會導緻航空公司售票(piào)網站服務器資源負載上升、性能下(xià)降,網站響應變慢(màn)甚至無法提供服務,對(duì)用(yòng)戶搜索和(hé)交易體驗造成負面影(yǐng)響。但由于存在巨大(dà)的(de)灰色利益空間,同時(shí)“反爬蟲”技術在與“爬蟲”對(duì)抗中作用(yòng)有限,使得(de)這(zhè)種顯失公平的(de)“作弊”方式成爲擾亂機票(piào)市場(chǎng)秩序的(de)技術“頑疾”。
    “從技術角度來(lái)看,阻擊‘爬蟲’可(kě)以通(tōng)過網站流量統計系統和(hé)服務器訪問日志分(fēn)析系統。”闫懷志說,通(tōng)過流量統計和(hé)日志分(fēn)析,如果發現單個(gè)IP訪問、單個(gè)session訪問、User-Agent信息超出設定的(de)正常頻(pín)度阈值,則判定該訪問爲惡意“爬蟲”所爲,将該“爬蟲”的(de)IP列入黑(hēi)名單以拒絕其後續訪問。
    再就是設置各種訪問驗證環節。比如,在可(kě)疑IP訪問時(shí),返回驗證頁面,要求訪問者通(tōng)過填寫驗證碼、選取驗證圖片或者字符等方式實現驗證。如果是惡意“爬蟲”爬取,顯然很難完成上述驗證操作,進而可(kě)以封鎖該“爬蟲”的(de)訪問,防止其惡意爬取信息。
互聯網空間不能有“灰色地帶”
    當前,雲計算(suàn)、大(dà)數據等爲代表的(de)新一代信息技術處在高(gāo)速發展階段。
    “上述新技術如果被非法或者不當應用(yòng),則會産生嚴重的(de)危害。互聯網空間需要建立健全完善的(de)保護體系,絕不能‘裸奔’。”闫懷志說。
    2017年6月(yuè)1日,我國《網絡安全法》正式實施,明(míng)确了(le)各方在網絡保障中的(de)權利與責任。這(zhè)是中國網絡空間治理(lǐ)和(hé)法制建設從量變到質變的(de)重要裏程碑,這(zhè)部法律作爲依法治網、化(huà)解網絡風險的(de)法律重器,成爲我國互聯網在法治軌道上健康運行的(de)重要保障。
然而,目前對(duì)于高(gāo)科技“黃(huáng)牛”倒票(piào)行爲,尚未有明(míng)确規定,使得(de)惡意爬取信息并不當獲利行爲處在法律法規監管的(de)“灰色地帶”。
闫懷志介紹,針對(duì)“爬蟲”應用(yòng),專門制訂了(le)Robots協議(yì)(即“爬蟲”協議(yì)、網絡機器人(rén)協議(yì)等)。該協議(yì)全稱爲“網絡爬蟲排除标準”,網站可(kě)通(tōng)過該協議(yì)告知“爬蟲”可(kě)以爬取哪些頁面及其信息,不能爬取哪些頁面及其信息。該協議(yì)作爲網站和(hé)“爬蟲”的(de)溝通(tōng)方式,用(yòng)來(lái)規範“爬蟲”行爲,限制不正當競争。
    作爲互聯網界通(tōng)行的(de)道德規範,該協議(yì)的(de)原則是:“爬蟲”及搜索技術應服務于人(rén)類,同時(shí)尊重信息提供者的(de)意願,并維護其隐私權;網站有義務保護其使用(yòng)者的(de)個(gè)人(rén)信息和(hé)隐私不被侵犯。這(zhè)就規定了(le)爬取者和(hé)被爬取者雙方的(de)權利和(hé)義務。
一位不願具名的(de)法律專家也(yě)表示,“反爬蟲”不僅要依靠技術防範和(hé)業界自律,還(hái)應該通(tōng)過完善管理(lǐ)和(hé)法律法規手段來(lái)約束這(zhè)種行爲,尤其是法律手段才能彰顯懲治力和(hé)震懾力。航空公司也(yě)要完善賬期管理(lǐ),不給“爬蟲”搶票(piào)提供機會。



·上一篇:網信辦:群主實名制,誰建群誰負責管理(lǐ)
·下(xià)一篇:盜竊網絡域名,網站劫持可(kě)能獲刑
打印本篇文章(zhāng)    關閉窗(chuāng)口

您可(kě)以在線咨詢...

029-88258663

18629546790

陝西省西安市雁塔區(qū)雁展路曲江會展國際H座

關注有驚喜

Copyright © 2008-2018 孢子科技(深圳)有限公司,西安全網推廣,西安網站建設,西安網站優化(huà),西安網絡公司, 版權所有 陝ICP備17022562号-1  

獲取同行營銷方案,10秒填寫,急速獲取
獲取方案,走向成功!