Multimodal AI Evaluator

3 semanas atrás

Curitiba, Brasil beBeeEvaluations Tempo inteiro

Job Overview iMerit seeks detail-oriented and analytically minded professionals to perform highly nuanced evaluations of AI system outputs across different modalities: text, image, video, and multimodal interactions . Evaluators will assess the accuracy, appropriateness, quality, clarity, and cultural alignment of model outputs against complex guidelines, ensuring that results align with project standards and real-world use cases. These evaluations will directly inform the development and fine-tuning of advanced large language models (LLMs), vision models (LVMs), and multimodal AI systems. Key Responsibilities: Evaluate outputs generated by LLMs across multiple modalities (text, image captions, video descriptions, and multimodal prompts ).Assess quality against project-specific criteria such as correctness, coherence, completeness, style, cultural appropriateness, and safety.Identify subtle errors, hallucinations, or biases in AI responses.Apply domain expertise and logical reasoning to resolve ambiguous or unclear outputs.Provide detailed written feedback, tagging, and scoring of outputs to ensure consistency across the evaluation team.Escalate unclear cases and contribute to refining evaluation guidelines.Collaborate with Project Managers and Quality Leads to meet accuracy, reliability, and turnaround benchmarks. Required Skills & Qualifications: Strong critical reading, observational, and evaluative skills across different modalities.Ability to articulate nuanced judgments with precision and clarity.Excellent English comprehension (CEFR B2 or above); additional languages a plus.Familiarity with LLMs, generative AI, and multimodal systems.Strong attention to detail and ability to apply guidelines consistently.Awareness of cultural and linguistic nuances, including potential bias and harm in AI outputs.Comfort with evolving workflows, rapid feedback cycles, and complex quality frameworks.

Multimodal Ai Evaluator

2 semanas atrás

Curitiba, Brasil Bebeeevaluations Tempo inteiro

Job OverviewiMerit seeks detail-oriented and analytically minded professionals to perform highly nuanced evaluations of AI system outputs across different modalities : text, image, video, and multimodal interactions. Evaluators will assess the accuracy, appropriateness, quality, clarity, and cultural alignment of model outputs against complex guidelines,...
Multimodal AI Evaluator

3 semanas atrás

Curitiba, PR, Brasil beBeeEvaluations Tempo inteiro

Job Overview iMerit seeks detail-oriented and analytically minded professionals to perform highly nuanced evaluations of AI system outputs across different modalities: text, image, video, and multimodal interactions . Evaluators will assess the accuracy, appropriateness, quality, clarity, and cultural alignment of model outputs against complex guidelines,...
Multimodal Ai Evaluator

2 semanas atrás

Curitiba, Brasil Bebeeevaluations Tempo inteiro

Job OverviewiMerit seeks detail-oriented and analytically minded professionals to perform highly nuanced evaluations of AI system outputs across different modalities : text, image, video, and multimodal interactions.Evaluators will assess the accuracy, appropriateness, quality, clarity, and cultural alignment of model outputs against complex guidelines,...
Multimodal AI Evaluation Specialist

2 semanas atrás

Curitiba, Brasil beBeeEvaluator Tempo inteiro

Job Opportunity: Multimodal AI Evaluator Evaluate and assess the accuracy, appropriateness, quality, clarity, and cultural alignment of AI system outputs across different modalities. Assess model outputs against complex guidelines, ensuring correctness, coherence, completeness, style, cultural appropriateness, and safety. Identify subtle errors,...
Multimodal AI Evaluation Specialist

2 semanas atrás

Curitiba, PR, Brasil beBeeEvaluator Tempo inteiro

Job Opportunity: Multimodal AI Evaluator Evaluate and assess the accuracy, appropriateness, quality, clarity, and cultural alignment of AI system outputs across different modalities. Assess model outputs against complex guidelines, ensuring correctness, coherence, completeness, style, cultural appropriateness, and safety. Identify subtle errors,...
Multimodal Ai Evaluation Specialist

2 semanas atrás

Curitiba, Brasil Bebeeevaluator Tempo inteiro

Job Opportunity: Multimodal AI EvaluatorEvaluate and assess the accuracy, appropriateness, quality, clarity, and cultural alignment of AI system outputs across different modalities.Assess model outputs against complex guidelines, ensuring correctness, coherence, completeness, style, cultural appropriateness, and safety.Identify subtle errors, hallucinations,...
Multimodal Genai Assessment Specialist

1 semana atrás

Curitiba, Brasil Bebeeevaluation Tempo inteiro

Job TitleWe seek detail-oriented and analytically minded Multimodal GenAI Evaluation Experts to perform nuanced evaluations of AI system outputs across text, image, video, and multimodal interactions.
Multimodal GenAI Assessment Specialist

1 semana atrás

Curitiba, Brasil beBeeevaluation Tempo inteiro

Job Title We seek detail-oriented and analytically minded Multimodal GenAI Evaluation Experts to perform nuanced evaluations of AI system outputs across text, image, video, and multimodal interactions.
Multimodal GenAI Assessment Specialist

Há 7 dias

Curitiba, PR, Brasil beBeeevaluation Tempo inteiro

Job Title We seek detail-oriented and analytically minded Multimodal GenAI Evaluation Experts to perform nuanced evaluations of AI system outputs across text, image, video, and multimodal interactions.
Multilingual Audio Personalization Evaluator

1 semana atrás

Greater Curitiba, Brasil Welocalize Tempo inteiro

About the RoleWe are looking for experienced annotators with deep cultural, linguistic, and audio catalog expertise to help improve a major music platform's personalized experiences across multiple languages and regions. In this role, you will create high-quality ground truth and evaluate the quality of both training data and model-generated output...

Américas

Europa

Ásia / Oceania

África

Multimodal AI Evaluator