Seneste forumindlæg
Køb / Salg
 * Uofficiel Black/White liste V3
Login / opret bruger

Forum \ Programmering og webdesign \ Programmering
Denne tråd er over 6 måneder gammel

Er du sikker på, at du har noget relevant at tilføje?

MIP - labeling af dokumenter

Af Giga Supporter jhc9817 | 24-05-2023 17:54 | 1348 visninger | 11 svar, hop til seneste
Hej Jeg arbejder på at kategorisere en mængde Word-dokumenter, der er omkring 10 millioner dokumenter. I øjeblikket tager det op til 1,5 sekunder at behandle hvert dokument ved hjælp af MIP og information protection. Jeg har udviklet en trådet C# service, der bruger en MSSQL server til logning på status af hvert dokument. Jeg har prøvet at lave en service der håndtere 10 dokumenter af gangen i hver sin tråd og så har en cache til håndtering af SQL server kald. Men det betyder stadig at første runde af kørslen vil tage små 400 timer hvis der ikke er noget som går galt. SQL serveren indeholder status på hver fil, således at når kørslen er foretaget, så kan jeg trække en liste over de dokumenter som ikke er behandlet korrekt og lave en delta kørsel på ny tilkomne dokumenter. Nogen som har forslag til optimering eller har prøvet noget lignende.
--
#1
mr doc22
Super Supporter
24-05-2023 18:04

Rapporter til Admin
Hvor mange kerner bruger du/har du på serveren?
--
5600X,ASUS TUF GAMING B550 PLUS,G.skill 3600 MHz AUTO C16 4x8GB,AOC G2590FX,Corsair RM850,Sapphire RX 5600 XT 6GB,1 TB NVMe ADATA
#2
jhc9817
Giga Supporter
24-05-2023 18:06

Rapporter til Admin
#1 på min udvikler server har jeg 16 kerner og 384gb ram. Udfordringen er en del af koden kører asynkront.
--
Sidst redigeret 24-05-2023 18:07
#3
mr doc22
Super Supporter
24-05-2023 18:11

Rapporter til Admin
Har du delt det i feks. blokke af 500000 dokumenter til hver tråd og kører du med feks. 28 tråde?
--
5600X,ASUS TUF GAMING B550 PLUS,G.skill 3600 MHz AUTO C16 4x8GB,AOC G2590FX,Corsair RM850,Sapphire RX 5600 XT 6GB,1 TB NVMe ADATA
#4
jhc9817
Giga Supporter
24-05-2023 18:18

Rapporter til Admin
Der er ikke defineret et antal dokumenter pr tråd - der er i stedet lavet en "kø" som dokumenterne venter i til de skal behandles. Denne kø er defineret til at indeholde svarende til 1000 dokumenter. Når der er behov for det så loades der flere. Det skal siges at "kø" kun indeholder referencer til et dokument. Dokumenterne er placeret på netværksdrev og de loades når de skal behandles. Jeg er klar over at det tager tid at gøre og en måde kunne være at loade selve dokumentet så det bliver en del af køen. Så kunne der være en tråd som hele tiden står og loader dem.
--
#5
RoadRunnah
Supporter
24-05-2023 18:24

Rapporter til Admin
Det virker ok på office 365, når man lige får sat label op, og derefter auto labeling med en E5 licens. Der tager det op til en uge for den at scanne alt efter hvor mange dokumenter der er. Har du lavet det hele selv, eller bruger du Azure information protection on-prem?
--
Sidst redigeret 24-05-2023 18:29
#6
jhc9817
Giga Supporter
24-05-2023 18:32

Rapporter til Admin
#5 har selv sat det op. En af grundene til det er at der er tale om en iterativ proces' - dvs. at der kommer hver dag nogle tusinde dokumenter til. Desuden er vi underlagt nogle ret Strange krav angående compliance, så vi skal kunne dokumentere hvad der er sket under behandlingen af data.
--
#7
jhc9817
Giga Supporter
24-05-2023 18:35

Rapporter til Admin
Det skal lige siges og det kan jeg se at jeg har glemt i #0. Men dokumenterne skal have en ny label afhængig af hvilken information som der er tale om.
--
#8
stallemanden
HOL Moderator
24-05-2023 22:03

Rapporter til Admin
Uden at kende mere til, hvordan din service er bygget, vil min første antagelse være, at det er det faktum, at du skal indlæse dokumenterne via. netværk, der vil være mest at hente ved. Jeg har ikke selv arbejdet med MIP, men 1,5 sekund for at læse status og skrive til SQL lyder af overraskende lang tid. Med forbehold for, at jeg ikke kender størrelsen på dokumenterne.
--
https://onsdagssnegl.dk[...] "Held er noget, der indtræffer, når grundige forberedelser mødes med gunstig lejlighed"
#9
jhc9817
Giga Supporter
24-05-2023 22:35

Rapporter til Admin
#8 Der skal desuden hentes forskellige informationer ud af office dokumenterne. Vil tro det er realistisk at komme ned på 0.5 sekund.
--
#10
jhc9817
Giga Supporter
24-05-2023 22:57

Rapporter til Admin
#8 og der skal sættes en anden label.
--
#11
stallemanden
HOL Moderator
24-05-2023 23:00

Rapporter til Admin
#10 Du har ikke prøvet at lave debug på, hvor tiden "forsvinder"? Min mistanke vil under alle omstændigheder være omkring åbn og gem over netværket.
--
https://onsdagssnegl.dk[...] "Held er noget, der indtræffer, når grundige forberedelser mødes med gunstig lejlighed"

Opret svar til indlægget: MIP - labeling af dokumenter

Grundet øget spam aktivitet fra gæstebrugere, er det desværre ikke længere muligt, at oprette svar som gæst.

Hvis du ønsker at deltage i debatten, skal du oprette en brugerprofil.

Opret bruger | Login
NYHEDSBREV
Afstemning


ANNONCE