Chrome Web Scraper ձեռնարկը Semalt Expert- ից

Եթե օգտվում եք Google Chrome- ից, ձեր զննարկչի համար կա մի ընդլայնում, որը կարող է օգնել վեբ էջերը ջարդել: Այն հայտնի է որպես '' Scrapper '', և այն հնարավոր է օգտագործել առանց խնդիրների: Scrapper- ը կօգնի կայքի կայքէջը պարունակող նյութերը ջնջելուն և արդյունքը Google փաստաթղթերին վերբեռնելուն:
Ինչպե՞ս ջարդել կայք ՝ օգտագործելով Scraper ընդլայնումը:
1. Ընտրեք Chrome Web Store- ը Google Chrome- ում;
2. Ընդլայնումներում կատարեք որոնում '' Scrapper '';
3. Առաջին որոնման արդյունքն այն ընդլայնումն է, որը հայտնի է որպես '' Scrapper '';
4. Ընտրեք «« Chrome- ին ավելացնել »կոճակը,
5. Վերադառնալ Միացյալ Թագավորության պատգամավորների ցուցակագրմանը.
6. Կտտացրեք հետևյալ հղմանը ;
7. Այժմ փնտրեք մեկ պատգամավոր և համոզվեք, որ մուտքը նշված է.

8. Աջ սեղմեք `« Scrape Same ... »տարբերակը ընտրելու համար;

9. Գրությունների համար նախատեսված վահանակը կհայտնվի մեկ այլ պատուհանի մեջ.
10. Դիտեք քերծվածքների վահանակում քերված բովանդակությունը.
11. Որպեսզի բովանդակությունը պահպանվի որպես Google Աղյուսակ, ընտրեք «Պահել Google Փաստաթղթերին ...»:
Ընդարձակ քերել
Այս բաղադրատոմսին կպչելուց առաջ օգտակար է հասկանալ HTML- ի հիմունքները: Օրինակ, այս հղման միջոցով կարող եք կարդալ HTML- ի կարճ ներածություն
Եկեք պատկերացնենք, որ մեզ հետաքրքրում են բոլոր կինոնկարները, որոնք նկարահանել են հայտնի իտալացի դերասանուհի Ասիայի Արգենտո:
1. IMDB- ում դերասանների շատ մանրամասն արխիվ կա: Asia Argento կայքը հետևյալն է ՝ http://www.imdb.com/name/nm0000782/;
2. Այստեղ կարող եք դիտել դերասանուհու խաղացած բոլոր դերերը: Եկեք սկսենք ջնջել մեզ հետաքրքրող տեղեկատվությունը.
3. Փորձեք քերել այն այնպես, ինչպես նկարագրված էր վերը;
4. Դուք կտեսնեք, որ ցուցակը մի փոքր աղավաղված է: Դա պայմանավորված է նրանով, որ այստեղ ցանկը կարող է տարբեր կերպ կառուցված լինել;
5. Գնացեք դեպի քերիչ վահանակ: Վերևից ձախ, կտեսնեք այն փոքրիկ տուփը, որն ասում է XPath;
6. Xpath- ը հարցումների մի տեսակ է, որն աշխատում է XML- ի և HTML- ի համար.
7. XPath- ը կօգնի ձեզ գտնել ձեզ հետաքրքրող էջի այն մասերը. Հաջորդը `գտնել համապատասխան տարր և գրել դրա համար XPath;
8. Հիմա եկեք դասավորենք մեր սեղանը;
9. Դուք կտեսնեք, որ մեր գոյություն ունեցող XPath- ը, որն ունի բոլոր անհրաժեշտ տվյալները ՝ «// div [3] / div [3] / div [2] / div»;
10. XPath- ը տեղեկացնում է համակարգին ՝ HTML փաստաթղթերը դիտելու և երրորդ տարրը ընտրելու համար, ապա երկրորդ տարրը, ապա բոլորը.
11. Բայց մենք կցանկանայինք առանձնացնել մեր տվյալները.
12. Օգտագործեք սյունների հատվածը վահանակում, որպեսզի սկրապը կատարի դա:
13. Եկեք նախ գտնենք մեր վերնագիրը – Օգտագործեք Inspect Element անվանումը ՝ վերնագիրը դիտելու համար;
14. Ստուգեք վերնագիրը պիտակի մեջ: Ավելացնել պիտակը XPath;

15. Արտահայտությունը, ըստ երևույթին, գործում է պատշաճ կերպով, այնպես որ այն դարձրեք մեր առաջին սյունակը.
16. «Սյունակներ» բաժնում առաջին սյունակի անունը փոխարինել «վերնագրով».
17. Դրան ավելացրեք XPath;
18. Սյունակի հատվածում XPath- ները հարաբերական են, և դա նշանակում է, որ «./b» - ն ընտրելու է <b> տարրը
19. Վերնագրի սյունակի XPath- ում ավելացնել «./b» կետը և ընտրել «գրությունը»;

20. Հիմա եկեք շարունակենք մեկ տարի: Տարիները կարելի է գտնել մեկ տողում:
21. Ստեղծեք նոր սյունակ `ընտրելով ձեր վերնագրի համար սյունակի կողքին գտնվող փոքր գումարածը.
22. Օգտագործելով XPath »./span« սյունակը ստեղծեք «տարվա» համար.
23. Կտտացրեք գրությունը և տեսեք, թե ինչպես տարին ավելացավ;
24. Կատարված է: