Seneste forumindlæg
Køb / Salg
 * Uofficiel Black/White liste V3
Login / opret bruger

Forum \ Off Topic \ Hyggekrogen
Denne tråd er over 6 måneder gammel

Er du sikker på, at du har noget relevant at tilføje?

Iorden at køre en webscraper på HOL?

Af Junior Nørd dgaa1991 | 08-12-2018 11:19 | 3045 visninger | 15 svar, hop til seneste
Hallø. Jeg går lidt med tanken om at lave en webscraper som bliver kørt hver 5 min på http://hol.dk[...] der så skal sende en email ud til mig hvis de korrekte keywords bliver funder, såsom "S: 8700k" så man slipper for at kontrollere KØB/SALG forummet manuelt hele tiden. Men hvrodan er det lige nu? er det okay ay gøre eller er det ilde set?
--
#1
Kaasje
Guru
08-12-2018 12:41

Rapporter til Admin
Den påvirker vel kun dig? Så jeg kan ikke se hvad der skulle være ilde set i det.
--
*(Foreveralone face)* Ultimate goal: More bacon! And cola. Thats it. Oh, and Cocio. OOOH, and potato chips.
--
Sidst redigeret 08-12-2018 12:42
#2
ToFFo
Guru
08-12-2018 13:20

Rapporter til Admin
Det var smart. Go for it.
--
- Indsæt signatur -
#3
ekud
Bruger Aspirant
08-12-2018 13:54

Rapporter til Admin
Det er selvfølgelig kun admins og ejeren selv som direkte kan svare på det. Umiddelbart vil jeg mene det er ganske lovligt da den data du arbejder med er på din side (klient siden), i samme stil som hvis du requestede en side i din browser. Scraping er jo ikke ulovligt da du ikke gør noget som du ikke kan med en browser. Er din scraper for aggressiv og skaber for mange forbindelser til webserveren kan det selvfølgelig anses for at være et DOS angreb og vil kunne have den negative effekt at andre brugere på siden får lavere respons tider - hvilket jo ikke lyder til at være dit motiv. Det ville også give mening hvis hol havde en api hvor du kunne tilgå data'en direkte, så devs havde mulighed for at minimere overhead, da der jo er voldsomt meget ekstra data at skulle sende hver gang man laver en normalt request (og webserveren er relativ sløv i forvejen) og alt html og css er jo unødvendigt i dit tilfælde og derfor ville en api give mening. Scraping er teknikken til at arbejde udenom sider der er forældet og ingen api har. Hvis du gider må du gerne smide den op på en pasteit side så andre kan få muligheden for at benytte af samme funktion og studere koden hvis de lyster. God programmering til dig!
--
Sidst redigeret 08-12-2018 13:54
#4
dgaa1991
Junior Nørd
08-12-2018 20:12

Rapporter til Admin
#3 det skal jeg nok gøre når jeg engang er færdig. Dog ville jeg ønske at alle item's i købsalg listen havde et class name :D fremfor et unikt href
--
#5
Chucara
Maxi Nørd
08-12-2018 20:31

Rapporter til Admin
#3: HOL er en ASP.NET MVC side, så API'et findes desværre ikke. #0: Overvej hvor ofte den behøver at køre for at være nyttig. Et enkelt request hvert 15. minut bliver nok ikke set som værende et problem, medmindre der er 1000, der gør det.
--
ASUS Z270 TUF Mk1 | 7700K | GTX 1080TI | 32GB 3000MHz | Fractal Define R5 | Samsung 960 EVO 1TB | PG279Q | 2xU2715H
#6
ekud
Bruger Aspirant
08-12-2018 22:04

Rapporter til Admin
#4 Når du først bliver ferm med scraping teknikken er det nemmere end først antaget - Jeg har selv oplevet samme scenarie. Man bliver kreativ og finder indgangsvinkler til at arbejde udenom de forhindinger man støder på undervejs, kort og godt er det den eneste mulighed man har :b #5 Du kan sagtens have API funktionalitet på trods af at det er .NET man har valgt at kode systemet i. API er blot en funktionalitet hvormed du kan lave visse typer af requests der bliver udformet til et format (fx. JSON eller XML) i form af en respons, hvorman derefter kan bearbejde data'en i sin kode. Det er så simpelt at hvis man kan finde ud af at hente data fra en database og udforme det i et andet format, så er man allerede 80% af vejen, resten er bare at pakke de funktioner man nu vil have ind i systemet. Det bygger på de basis principper af request & response som web servere bygger på og ganske almindelig bearbejdelse af data i en database. Alle sprog har disse muligheder, dog skal funktionaliteten kodes hvis ikke det kan generes automatisk. Med det sagt er det teknisk muligt at udvide den nuværende kode base med en API funktionalitet hvis man valgte det, dog er jeg godt klar over at de økonomiske ressourcer og den frivillige hjælp ikke stor og derfor er udviklingen begrænset - Hvilket er fuldt ud forståeligt :)
--
#7
Chucara
Maxi Nørd
08-12-2018 23:22

Rapporter til Admin
#6: Du behøver ikke forklare mig hvad et API er. Jeg er softwareudvikler ;) At det er .NET har intet med at gøre. At det er ASP.NET MVC (Model-View-Controller) har. MVC serverer HTML med data indlejret på 'gammeldags' manér. Dermed skulle der laves et separat API, hvis man ønskede dette. Man kan principielt godt misbruge MVC til at returnere andet end HTML, men ASP.NET Web API eller ASP.NET Core er begge bedre egnede til API'er. Endelig er der ingen sprog, der har understøttelse for API'er eller HTTP servere. Dette ligger i frameworks eller libraries.
--
ASUS Z270 TUF Mk1 | 7700K | GTX 1080TI | 32GB 3000MHz | Fractal Define R5 | Samsung 960 EVO 1TB | PG279Q | 2xU2715H
--
Sidst redigeret 08-12-2018 23:25
#8
inckie
Monster Nørd
09-12-2018 13:17

Rapporter til Admin
#4 Dog ville jeg ønske at alle item's i købsalg listen havde et class name :D fremfor et unikt href Hvorfor det, er det fordi du ikke ved hvordan du skal parse url'erne eller løbe oversigten igennem eller ?
--
https://twitter.com[...] - Ned med #lurerSørenPape
#9
Gill Bates
Monster Nørd
09-12-2018 13:36

Rapporter til Admin
Ja den er vel ikke sværere end at gennemgå hver ahref tekst i div'en "koebsalg_litList".
--
Sidst redigeret 09-12-2018 13:37
#10
inckie
Monster Nørd
09-12-2018 14:49

Rapporter til Admin
I forhold til om sådanne crawlere, kunne bringe HOL i knæ, så tror jeg ikke det ville betyde synderligt meget, hvis HOLs brugere begyndte crawl køb & salgs sektionen med deres egne værktøjer, da HOL formentligt ville kunne holdes under kontrol via de caching features, som Cloudflare jo har og som HOL benytter. #0 Jeg ville nok bare lave en eller andet form "Køb & Salg DOM to RSS/ Atom" oversætter/tjeneste, da jeg tænker at der er massere af RSS/Atom readers derude, der bagefter kan subscribe og notifiere dig, når der er intressante ting - det jo lidt det, som de er lavet til. Og hvis det så ikke lige finde en RSS/Atom feed reader der passer til dig, kunne du jo hygge dig med at lave din egen bagefter ;-)
--
https://twitter.com[...] - Ned med #lurerSørenPape
--
Sidst redigeret 09-12-2018 14:51
#11
DeXTer_DK
Super Supporter
09-12-2018 16:34

Rapporter til Admin
Kunne faktisk være ret smart/brugbart , hvis køb og salgstråde kunne subscribes via RSS :)
--
"Always bear in mind that your own resolution to succeed, is more important than any other one thing."
#12
inckie
Monster Nørd
09-12-2018 18:44

Rapporter til Admin
#11 As you wish: https://github.com[...] ps - jeg har faktisk ikke testet med en rigtig RSS reader - antager bare den pakke jeg bruger spytter valid RSS XML ud.
--
https://twitter.com[...] - Ned med #lurerSørenPape
--
Sidst redigeret 09-12-2018 18:49
#13
dgaa1991
Junior Nørd
09-12-2018 20:40

Rapporter til Admin
#8 det ville have gjordt det lidt nemmere men det løste et regex heldigvis. I forhold til RSS må det blive en anden gang, det kunne være meget godt som et mini projekt. Dog har jeg lidt problemer med mit regex ikke altid trækker den korrekte tittel ud så hvis der er nogle der lige kan spotte fejlen må i da meget gerne sige til ;) https://pastebin.com[...] Her er outputtet hvor man kan se at #3 og #14 fejler : https://pastebin.com[...]
--
#14
Vff83
Junior Supporter
09-12-2018 21:08

Rapporter til Admin
Vil lige blande mig lidt, da jeg tidligere har arbejdet en smule med web scraping ifm. hobbyprojekter. Er dog ikke så stærk i PHP eller Python, så har sammensat et hurtigt .NET / C# bud (ikke gennemtestet eller optimeret) :-) Den primære kode: https://pastebin.com[...] Screenshot af hvordan den kaldes (Postman eksempel): https://imgur.com[...] Ligger online og kan kaldes som vist i ovenstående eksempel hvis man ønsker at teste.
--
thomasrasmussen.net netradio.nu tvtracker.net ugensmad.dk
#15
inckie
Monster Nørd
11-12-2018 00:43

Rapporter til Admin
#13 Brug en DOM parser til at læse semi strukturet formater, så som HTML dokumenter. Du kan bruge mit bud på en RSS proxy eller #14's bud på et webscraper API, som inspiration. #14 Cool eksempel
--
https://twitter.com[...] - Ned med #lurerSørenPape
--
Sidst redigeret 11-12-2018 00:47

Opret svar til indlægget: Iorden at køre en webscraper på HOL?

Grundet øget spam aktivitet fra gæstebrugere, er det desværre ikke længere muligt, at oprette svar som gæst.

Hvis du ønsker at deltage i debatten, skal du oprette en brugerprofil.

Opret bruger | Login
NYHEDSBREV
Afstemning