Semalt Expertтин Chrome Web Scraper Tutorial

Эгер сиз Google Chrome'ду колдонуп жатсаңыз, браузериңизде веб-баракчаларды кырып салууга жардам бере турган кеңейтүү бар. Ал '' Скрепер '' деп аталат жана аны кыйынчылыксыз колдонсо болот. Скреппер веб-сайттын мазмунун кырып салууга жана анын натыйжаларын Google документтерине жүктөөгө жардам берет.

Scraper кеңейтүүсүн колдонуп, веб-сайтты кантип сындырса болот?

1. Google Chrome-дон Chrome Желе дүкөнүн тандаңыз;

2. Кеңейтүүлөрдө '' Scrapper '' издөөнү жүргүзүңүз;

3. Биринчи издөө натыйжасы - '' Scrapper '' деп аталган кеңейтүү;

4. 'Chrome'га кошуу' деп аталган баскычты тандаңыз;

5. Улуу Британиянын депутаттарынын тизмесине кайрылыңыз;

6. Төмөнкү шилтемени чыкылдатыңыз;

7. Эми бир депутатты издеңиз жана жазуу белгиленгендигин текшериңиз;

8. "Scrape Similar ..." опциясын тандоо үчүн оң баскыч менен чыкылдатыңыз;

9. Скрапчынын консолу башка терезеде пайда болот;

10. Кыргыч консолундагы кырылган материалдарды көрүү;

11. Мазмундун Google Электрондук жадыбалы катары сакталышын камсыз кылуу үчүн "Google Документтерге сактоо ..." тандаңыз.

Узартылган кыргыч

Бул рецептке жабышуудан мурун HTML'дин негиздерин түшүнүү пайдалуу. Мисалы, ушул шилтеме аркылуу HTML жөнүндө кыскача таанышууну окуй аласыз

Атактуу италиялык актриса Азия Аргентонун ролун ойногон бардык кинолорго кызыгып көрөлү.

1. IMDBде актёрлордун кеңири архиви бар. Asia Argento сайты: http://www.imdb.com/name/nm0000782/;

2. Бул жерден актриса ойногон ролдорду көрө аласыз. Бизди кызыктырган маалыматты камтышы баштайлы;

3. Жогоруда айтылгандай кыркып көрүңүз;

4. Сиз тизме бир аз бурмаланганын көрөсүз. Себеби, бул жердеги тизме башкача түзүлүшү мүмкүн;

5. Кыргыч консолуна барыңыз. Сол жакта, XPath деп аталган кичинекей кутучаны көрө аласыз;

6. Xpath - XML жана HTML үчүн иштей турган тилдин бир түрү;

7. XPath сизге кызыккан баракчанын бөлүктөрүн табууга жардам берет. Кийинки нерсе - ылайыктуу элемент таап, ага XPath жазуу;

8. Эми дасторконубузду уюштуралы;

9. Сиздин бардык XPath керектүү маалыматтары бар "// div [3] / div [3] / div [2] / div" экендигин көрөсүз.

10. XPath Тутумга HTML документин көрүп, үчүнчү элементти, андан кийин экинчи элементти, андан кийин бардыгын тандап алуусу жөнүндө билдирет;

11. Бирок, биз маалыматтарыбызды бөлүп алгымыз келет;

12. Муну жасоо үчүн скраппер үчүн консолдогу тилке бөлүмүн колдонуңуз;

13. Адегенде өз аталышыбызды табалы, аталышын көрүү үчүн Inspect Element колдонуңуз;

14. Тэгдин аталышын текшериңиз. Тэгди XPathка кошуңуз;

15. Өрнөк туура иштейт окшойт, ошондуктан аны биринчи катарда кылыңыз;

16. "Мамычалар" бөлүмүндө биринчи тилкенин аталышын "аталыш" деп алмаштырсын;

17. Ага XPath кошуңуз;

18. Тилке бөлүмүндө XPaths салыштырмалуу жана "./b" <b> элементин тандап алат дегенди билдирет

19. XPath тилкесине аталыш тилкесине "./b" кошуп, "кыртышты" тандаңыз;

20. Эми бир жылга созолу. Жылдарды бир гана аранын ичинде табууга болот;

21. Сиздин аталышыңыз үчүн тилкенин жанындагы кичинекей плюс тандоо менен жаңы тилке түзүңүз;

22. XPath "./span" колдонуу менен "жыл" үчүн тилке түзүү;

23. Скреперлерди чыкылдатып, жыл кантип кошулганын көрүңүз;

24. Бүттү!

mass gmail