mongodb-user
[Arriba] [Todas las Listas]

[mongodb-Usuario] Re: mongoimport pathetically despacio en grande actual

To: mongodb-user <mongodb-user@xxxxxxxxxxxxxxxx>
Subject: [mongodb-Usuario] Re: mongoimport pathetically despacio en grande actualiza
From: Rohit Jain <imrohit.j@xxxxxxxxx>
Date: Fri, 25 Sep 2015 14:10:30 -0700 (PDT)
Delivery-date: Fri, 25 Sep 2015 17:22:22 -0400
Dkim-signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=googlegroups.com; s=20120806; h=date:from:to:message-id:in-reply-to:references:subject:mime-version :content-type:x-original-sender:reply-to:precedence:mailing-list :list-id:x-spam-checked-in-group:list-post:list-help:list-archive :sender:list-subscribe:list-unsubscribe; bh=O4HssGQG162LjPqaF3h8/pioZMfM7UUmxf4AEnHn5U4=; b=M6VJxvOfiIwZ65asL1hsetzPAW/+63lLdAnBeONQEfTzTTQC18HeFGPC24xyZa6LiH 4k7f9a1AijQ96gT4vUwTR3FohJ0+04tHfwvSnYvj1ho/7aMHi6ydRzwsr9FZ85TzXELa jDwaDxzK0Q+5vwTMUhlC0D85qvYhBhOoNl/4jhLs1DsCnIj7RZ8e3orvTK7735Q05xFE pfr4mfaijQ8yM0p17cm5eYsLS/tG1+eLDOVffxcjDE3rWiMN63d54RLvN+qgT6wooR5P JwVQQnTN/Vj+Qn9CzN+KJHsRkduajCtQ/rxgB1EOj2nkk4HsI1YCuML42h4wDmOSjab+ 9PqA==
Dkim-signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=gmail.com; s=20120113; h=date:from:to:message-id:in-reply-to:references:subject:mime-version :content-type:x-original-sender:reply-to:precedence:mailing-list :list-id:x-spam-checked-in-group:list-post:list-help:list-archive :sender:list-subscribe:list-unsubscribe; bh=O4HssGQG162LjPqaF3h8/pioZMfM7UUmxf4AEnHn5U4=; b=GsimUch8DxbIZDDZPiXLc1WuCVPhZagmXy9v3KjwOLwamj5BLWzro42AIATKpckux7 y9wUVdjmWiaxJYVw6REuM5yCcqnoZnwvkO4dNWnIps4ysj86i4JGGzwaJVNijlRDoK0m vwSZABheyOkvnjKoIVelTfmk2pLf3w2XAQT2kOa8Mv8KN+qkEulIzdozydQveboNPBDl TGbVutdJUN2i/lzJWTz+HqLB1GxGP5MJTpQgKyCjgZE+FTzuNyyrugvaIslVJ1Qlpc/s lrMcWmBA/3bGpscE0m69an+TRLe4FcU9xBR28fzHytMM8lH73jahuA/6CNGGZ6DEoOJu WAqg==
Envelope-to: traductor@xxxxxxxxxxx
In-reply-to: <962b8590-af0f-4445-854d-b9ba8378f53c@googlegroups.com>
List-archive: <http://groups.google.com/group/mongodb-use>
List-help: <http://groups.google.com/support/>, <mailto:mongodb-user+help@googlegroups.com>
List-id: <mongodb-user.googlegroups.com>
List-post: <http://groups.google.com/group/mongodb-user/post>, <mailto:mongodb-user@googlegroups.com>
List-subscribe: <http://groups.google.com/group/mongodb-user/subscribe>, <mailto:mongodb-user+subscribe@googlegroups.com>
List-unsubscribe: <mailto:googlegroups-manage+1044811755470+unsubscribe@googlegroups.com>, <http://groups.google.com/group/mongodb-user/subscribe>
Mailing-list: list mongodb-user@xxxxxxxxxxxxxxxx; contact mongodb-user+owners@xxxxxxxxxxxxxxxx
References: <962b8590-af0f-4445-854d-b9ba8378f53c@googlegroups.com>
Reply-to: mongodb-user@xxxxxxxxxxxxxxxx
Sender: mongodb-user@xxxxxxxxxxxxxxxx
Qué *MongoDB versión estás utilizando ?

Consideraciones,
*Rohit

En viernes, 25 septiembre 2015 23:12:44 *UTC+5:30, parco...@xxxxxxxxx escribió:
>
> tengo una colección con 700 millones registros ( 1 TB )
> estoy intentando actualizar 200 millones de estos registros como parte de dato 
> operaciones limpiadoras.
>
> He probado varias aproximaciones, y finalmente convergido en *mongoimport. Produzco varios *jsons
> con los 200 millones registros  y entonces uso  --*upsert . *mongoimport  
> No  fusiona/añade a documentos,
> así que tengo que verter fuera del documento entero para #este 200 *M registros.
>
> La importación *crawls y toma alrededor de 3-5 minutos para cada archivo que haber 
> sólo 50,000 registros.
>
> 1. En *verbose modo de *mongoimport, es claro que *bson la creación no es 
> el asunto.
>
> 2. Para depurar el problema, había creado una marca colección nueva y justo 
> insertar estos documentos, las cosas mueven realmente 
> rápidas alrededor de 20-30 segundos por archivo, el cual es razonable.
>
> 3. El Índice actualiza no es el asunto. No tengo ningún índice en esta colección.
>
> 4. Cuándo no utilizo --*upsert, *mongoimport detecta hay registros 
> duplicados. Pasa por el archivo entero 
>    con 50,000 documentos en 10 segundos y no inserta cualquier cosa. Así que parece como él es capaz de localizar
>    que hay duplicados muy deprisa.
>
> Dado los descubrimientos de 2 y 4, no soy seguro lo que podría ser el asunto?
>
>
>
>
>
>
>
>

-- 
Recibiste este mensaje porque eres *subscribed al *Google Grupos "*mongodb-grupo"
de usuario.

Para otro *MongoDB opciones de apoyo técnico, ve: *http://www.mongodb.org/sobre/apoyo/.
--- 
Recibiste este mensaje porque eres *subscribed al *Google Grupos "*mongodb-grupo" de usuario.
A *unsubscribe de este grupo y la parón que recibe *emails de él, enviar un *email a *mongodb-usuario+unsubscribe@xxxxxxxxxxxxxxxx.
A correo a este grupo, envía *email a *mongodb-user@xxxxxxxxxxxxxxxx.
Visita este grupo en *http://grupos.*google.*com/Grupo/*mongodb-usuario.
Para ver esta discusión en la visita de web *https://grupos.*google.*com/*d/*msgid/*mongodb-Usuario/4*bd0*f919-9*e95-4*d33-935un-41*d8*afd1073*e%40*googlegroups.*com.
Para más opciones, visita *https://grupos.*google.*com/*d/*optout.
Which MongoDB version you are using ?

Regards,
Rohit

On Friday, 25 September 2015 23:12:44 UTC+5:30, parco...@xxxxxxxxx wrote:
>
> I have a collection with 700 million records ( 1 TB )
> I am trying to update 200 million of these records as a part of data 
> cleansing operations.
>
> I have tried several approaches, and finally converged on mongoimport. I 
> produce several jsons
> with the 200 million records  and then use  --upsert . mongoimport does 
> not do merges/adds to documents,
> so I have to dump out the whole document for these 200 M records.
>
> the import crawls and takes around 3-5 minutes for every file which have 
> only 50,000 records.
>
> 1. In verbose mode of mongoimport, it is clear that bson creation is not 
> the issue.
>
> 2. to debug the problem, I had created a brand new collection and just 
> insert these documents, things move really 
> fast around 20-30 seconds per file, which is reasonable.
>
> 3. Index updates is not the issue. I have no indexes on this collection.
>
> 4. when I do not use --upsert, mongoimport detects there are duplicate 
> records. it goes through the entire file 
>    with 50,000 documents in 10 seconds and does not insert anything. So it 
> seems like it is able to locate
>    that there are duplicates very quickly.
>
> given the findings of 2 and 4, I am not sure what could be the issue?
>
>
>
>
>
>
>
>

-- 
You received this message because you are subscribed to the Google Groups "mongodb-user"
group.

For other MongoDB technical support options, see: http://www.mongodb.org/about/support/.
--- 
You received this message because you are subscribed to the Google Groups "mongodb-user" group.
To unsubscribe from this group and stop receiving emails from it, send an email to mongodb-user+unsubscribe@xxxxxxxxxxxxxxxx.
To post to this group, send email to mongodb-user@xxxxxxxxxxxxxxxx.
Visit this group at http://groups.google.com/group/mongodb-user.
To view this discussion on the web visit https://groups.google.com/d/msgid/mongodb-user/4bd0f919-9e95-4d33-935a-41d8afd1073e%40googlegroups.com.
For more options, visit https://groups.google.com/d/optout.
<Anterior por Tema] Tema Actual [Siguiente por Tema>