Chrome Web Scraper ձեռնարկը Semalt Expert- ից

Եթե օգտվում եք Google Chrome- ից, ձեր զննարկչի համար կա մի ընդլայնում, որը կարող է օգնել վեբ էջերը ջարդել: Այն հայտնի է որպես '' Scrapper '', և այն հնարավոր է օգտագործել առանց խնդիրների: Scrapper- ը կօգնի կայքի կայքէջը պարունակող նյութերը ջնջելուն և արդյունքը Google փաստաթղթերին վերբեռնելուն:

Ինչպե՞ս ջարդել կայք ՝ օգտագործելով Scraper ընդլայնումը:

1. Ընտրեք Chrome Web Store- ը Google Chrome- ում;

2. Ընդլայնումներում կատարեք որոնում '' Scrapper '';

3. Առաջին որոնման արդյունքն այն ընդլայնումն է, որը հայտնի է որպես '' Scrapper '';

4. Ընտրեք «« Chrome- ին ավելացնել »կոճակը,

5. Վերադառնալ Միացյալ Թագավորության պատգամավորների ցուցակագրմանը.

6. Կտտացրեք հետևյալ հղմանը ;

7. Այժմ փնտրեք մեկ պատգամավոր և համոզվեք, որ մուտքը նշված է.

8. Աջ սեղմեք `« Scrape Same ... »տարբերակը ընտրելու համար;

9. Գրությունների համար նախատեսված վահանակը կհայտնվի մեկ այլ պատուհանի մեջ.

10. Դիտեք քերծվածքների վահանակում քերված բովանդակությունը.

11. Որպեսզի բովանդակությունը պահպանվի որպես Google Աղյուսակ, ընտրեք «Պահել Google Փաստաթղթերին ...»:

Ընդարձակ քերել

Այս բաղադրատոմսին կպչելուց առաջ օգտակար է հասկանալ HTML- ի հիմունքները: Օրինակ, այս հղման միջոցով կարող եք կարդալ HTML- ի կարճ ներածություն

Եկեք պատկերացնենք, որ մեզ հետաքրքրում են բոլոր կինոնկարները, որոնք նկարահանել են հայտնի իտալացի դերասանուհի Ասիայի Արգենտո:

1. IMDB- ում դերասանների շատ մանրամասն արխիվ կա: Asia Argento կայքը հետևյալն է ՝ http://www.imdb.com/name/nm0000782/;

2. Այստեղ կարող եք դիտել դերասանուհու խաղացած բոլոր դերերը: Եկեք սկսենք ջնջել մեզ հետաքրքրող տեղեկատվությունը.

3. Փորձեք քերել այն այնպես, ինչպես նկարագրված էր վերը;

4. Դուք կտեսնեք, որ ցուցակը մի փոքր աղավաղված է: Դա պայմանավորված է նրանով, որ այստեղ ցանկը կարող է տարբեր կերպ կառուցված լինել;

5. Գնացեք դեպի քերիչ վահանակ: Վերևից ձախ, կտեսնեք այն փոքրիկ տուփը, որն ասում է XPath;

6. Xpath- ը հարցումների մի տեսակ է, որն աշխատում է XML- ի և HTML- ի համար.

7. XPath- ը կօգնի ձեզ գտնել ձեզ հետաքրքրող էջի այն մասերը. Հաջորդը `գտնել համապատասխան տարր և գրել դրա համար XPath;

8. Հիմա եկեք դասավորենք մեր սեղանը;

9. Դուք կտեսնեք, որ մեր գոյություն ունեցող XPath- ը, որն ունի բոլոր անհրաժեշտ տվյալները ՝ «// div [3] / div [3] / div [2] / div»;

10. XPath- ը տեղեկացնում է համակարգին ՝ HTML փաստաթղթերը դիտելու և երրորդ տարրը ընտրելու համար, ապա երկրորդ տարրը, ապա բոլորը.

11. Բայց մենք կցանկանայինք առանձնացնել մեր տվյալները.

12. Օգտագործեք սյունների հատվածը վահանակում, որպեսզի սկրապը կատարի դա:

13. Եկեք նախ գտնենք մեր վերնագիրը – Օգտագործեք Inspect Element անվանումը ՝ վերնագիրը դիտելու համար;

14. Ստուգեք վերնագիրը պիտակի մեջ: Ավելացնել պիտակը XPath;

15. Արտահայտությունը, ըստ երևույթին, գործում է պատշաճ կերպով, այնպես որ այն դարձրեք մեր առաջին սյունակը.

16. «Սյունակներ» բաժնում առաջին սյունակի անունը փոխարինել «վերնագրով».

17. Դրան ավելացրեք XPath;

18. Սյունակի հատվածում XPath- ները հարաբերական են, և դա նշանակում է, որ «./b» - ն ընտրելու է <b> տարրը

19. Վերնագրի սյունակի XPath- ում ավելացնել «./b» կետը և ընտրել «գրությունը»;

20. Հիմա եկեք շարունակենք մեկ տարի: Տարիները կարելի է գտնել մեկ տողում:

21. Ստեղծեք նոր սյունակ `ընտրելով ձեր վերնագրի համար սյունակի կողքին գտնվող փոքր գումարածը.

22. Օգտագործելով XPath »./span« սյունակը ստեղծեք «տարվա» համար.

23. Կտտացրեք գրությունը և տեսեք, թե ինչպես տարին ավելացավ;

24. Կատարված է:

mass gmail