mongodb-user
[Arriba] [Todas las Listas]

[mongodb-Usuario] mongo-hadoop - Uso de mongo.Entrada.Consulta para carg

To: mongodb-user <mongodb-user@xxxxxxxxxxxxxxxx>
Subject: [mongodb-Usuario] mongo-hadoop - Uso de mongo.Entrada.Consulta para cargar dato de mongo a hadoop
From: utkarsh2012@xxxxxxxxx
Date: Mon, 14 Sep 2015 13:10:20 -0700 (PDT)
Delivery-date: Mon, 14 Sep 2015 16:45:04 -0400
Dkim-signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=googlegroups.com; s=20120806; h=date:from:to:message-id:subject:mime-version:content-type :x-original-sender:reply-to:precedence:mailing-list:list-id :list-post:list-help:list-archive:sender:list-subscribe :list-unsubscribe; bh=7CoUR9VwJ+CnMa2Lexb4tpGsYAGi1bNbKIsCDJoEltA=; b=Kf4d5tPyFUYKLPVTKV30TtI7cAzWf9kqzlQXHOwTipyAJCpNsbJeJCxvtjoV4AMe+x 2lu5Pfd71UGdOZTIqMfzWtfsCJ7k46a6nPV31LLGcmL9WziOmBO/b60vMuPecLH8yZZ5 xJgdPNuRxbxSwJ34IueeT2Ack988vblqp6CRklsRpEOMYJK5h4kb8Js7LLVKp6BFp9k+ DhZoa/c7iaA2ttOSkmhsfh0iekZu/SPs2ZRwk3YXUS3UoMlu4+6tw34QljxSK77ooJQw XHVJB62MwJLEvBtyHwr6EWXVLwg0pks4dvodHo55Xn6PC/8J4ITsQ60m0Tm+C3JW0n4F R5Bw==
Envelope-to: traductor@xxxxxxxxxxx
List-archive: <http://groups.google.com/group/mongodb-use>
List-help: <http://groups.google.com/support/>, <mailto:mongodb-user+help@googlegroups.com>
List-id: <mongodb-user.googlegroups.com>
List-post: <http://groups.google.com/group/mongodb-user/post>, <mailto:mongodb-user@googlegroups.com>
List-subscribe: <http://groups.google.com/group/mongodb-user/subscribe>, <mailto:mongodb-user+subscribe@googlegroups.com>
List-unsubscribe: <mailto:googlegroups-manage+1044811755470+unsubscribe@googlegroups.com>, <http://groups.google.com/group/mongodb-user/subscribe>
Mailing-list: list mongodb-user@xxxxxxxxxxxxxxxx; contact mongodb-user+owners@xxxxxxxxxxxxxxxx
Reply-to: mongodb-user@xxxxxxxxxxxxxxxx
Sender: mongodb-user@xxxxxxxxxxxxxxxx
Estoy utilizando *mongo-*hadoop para cargar dato de *monogo a mi *spark trabajo un RDD. 
*https://*github.*com/*mongodb/*mongo-*hadoop/*wiki/*Spark-Uso

Esto mi mi actual *config:
        Configuración *mongodbConfigRestaurantSetup = Configuración nueva();
        *mongodbConfigRestaurantSetup.Conjunto("*mongo.Trabajo.Entrada.Formato", 
"*com.*mongodb.*hadoop.*MongoInputFormat");
        *mongodbConfigRestaurantSetup.Conjunto("*mongo.Entrada.*uri", 
*props.*getProperty("*mongo_*uri"));
        *mongodbConfigRestaurantSetup.Conjunto("*mongo.Entrada.Medida_de ruptura", "200");
        *mongodbConfigRestaurantSetup.Conjunto("*mongo.Entrada.Consulta",\"#unknown{^*MyId\":\"$#adv\":[" + *listOfIds + "]}}");

Mis colecciones tiene >10*M documentos (*listOfIds) pero mi *spark los trabajos necesita trabajar en un *subset de aquel dato, dice 1*M *IDs o quizás justo 1 puesto que probando.
Pero cuándo cargo el dato, *mongo-*hadoop carga todos los documentos y entonces 
aplica la consulta en aquel *dataset, el cual no es muy eficaz.

Lo es una limitación técnica o es allí un sugerido *workaround para esto?
También, parece algunos más tuvieron un asunto similar: 
*http://*codeforhire.*com/2014/02/18/utilizando-*spark-con-*mongodb/comentario-página-1/#comentario-853

*Thanks,
-*Utkarsh

-- 
recibiste este mensaje porque eres *subscribed al *Google Grupos "*mongodb-grupo"
de usuario.

Para otro *MongoDB opciones de apoyo técnico, ve: *http://www.mongodb.org/sobre/apoyo/.
--- 
Recibiste este mensaje porque eres *subscribed al *Google Grupos "*mongodb-grupo" de usuario.
A *unsubscribe de este grupo y la parón que recibe *emails de él, enviar un *email a *mongodb-usuario+unsubscribe@xxxxxxxxxxxxxxxx.
A correo a este grupo, envía *email a *mongodb-user@xxxxxxxxxxxxxxxx.
Visita este grupo en *http://grupos.*google.*com/Grupo/*mongodb-usuario.
Para ver esta discusión en la visita de web *https://grupos.*google.*com/*d/*msgid/*mongodb-Usuario/7*d020787-*e61*e-4498-966*c-*cfe760012*e2#uno%40*googlegroups.*com.
Para más opciones, visita *https://grupos.*google.*com/*d/*optout.
I am using mongo-hadoop to load data from monogo to my spark job an RDD. 
https://github.com/mongodb/mongo-hadoop/wiki/Spark-Usage

This my my current config:
        Configuration mongodbConfigRestaurantSetup = new Configuration();
        mongodbConfigRestaurantSetup.set("mongo.job.input.format", 
"com.mongodb.hadoop.MongoInputFormat");
        mongodbConfigRestaurantSetup.set("mongo.input.uri", 
props.getProperty("mongo_uri"));
        mongodbConfigRestaurantSetup.set("mongo.input.split_size", "200");
        mongodbConfigRestaurantSetup.set("mongo.input.query", 
"{\"MyId\":{\"$in\":[" + listOfIds + "]}}");

My collections has >10M documents (listOfIds) but my spark jobs needs to 
work on a subset of that data, say 1M IDs or maybe just 1 for testing.
But when I load the data, mongo-hadoop loads all the documents and then 
applies the query on that dataset, which is not very efficient.

Is it a technical limitation or is there a suggested workaround for this?
Also, looks like some else had a similar issue: 
http://codeforhire.com/2014/02/18/using-spark-with-mongodb/comment-page-1/#comment-853

Thanks,
-Utkarsh

-- 
You received this message because you are subscribed to the Google Groups "mongodb-user"
group.

For other MongoDB technical support options, see: http://www.mongodb.org/about/support/.
--- 
You received this message because you are subscribed to the Google Groups "mongodb-user" group.
To unsubscribe from this group and stop receiving emails from it, send an email to mongodb-user+unsubscribe@xxxxxxxxxxxxxxxx.
To post to this group, send email to mongodb-user@xxxxxxxxxxxxxxxx.
Visit this group at http://groups.google.com/group/mongodb-user.
To view this discussion on the web visit https://groups.google.com/d/msgid/mongodb-user/7d020787-e61e-4498-966c-cfe760012e2a%40googlegroups.com.
For more options, visit https://groups.google.com/d/optout.
<Anterior por Tema] Tema Actual [Siguiente por Tema>