Marieke's Linkedin: https://www.linkedin.com/in/mariekevanvlietvandergraaff/ ### Slides Silicon sampling presentation ![[Silicon Sampling.pdf]] ## Scientific articles Argyle, L. P., Busby, E. C., Fulda, N., Gubler, J., Rytting, C., & Wingate, D. (2022). Out of One, Many: Using Language Models to Simulate Human Samples. _Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)_, 819-862. [https://doi.org/10.18653/v1/2022.acl-long.60](https://doi.org/10.18653/v1/2022.acl-long.60) ## Companies offering silicon sampling - [Synthetic users](https://www.syntheticusers.com) - [Opinio]() - [Evidenza](https://www.evidenza.ai/) ## Persona’s [[How to make a persona for silicon sampling]] - coming soon ## Research article ##### The Rise of Silicon Sampling - Roberta Vaznyte and Marieke van Vliet - [Research article: The rise of Silicon Sampling - Researchgate](https://www.researchgate.net/publication/383415728_The_Rise_of_Silicon_Sampling) - [Analysis of our research experiment - Innovation Origins](https://innovationorigins.com/en/silicon-sampling-ai-powered-personas-offer-new-insights-for-market-research-but-have-limitations/) - [Analyse van ons research experiment - Innovation Origins](https://innovationorigins.com/nl/silicon-sampling-ai-personas-bieden-nieuwe-inzichten-voor-marktonderzoek-zij-het-met-beperkingen/) **Samenvatting** Het gebruik van Large language models (LLM's) in user research lijkt belovende resultaten te geven, het zou sneller en goedkoper zijn, en daarnaast doelgroepen kunnen bereiken die normaal gesproken niet naar voren zouden komen. Maar levert het ook de resultaten die we zouden willen uit user research? We deden een interview met 2 economie studenten en 2 docenten over de impact van Silicon Sampling op hun werk. Diezelfde vragen stelden we aan een Large language model via een tool die zich specifiek richt op user research met LLM's. We concludeerde dat er behoorlijk wat verschillen zijn tussen de manieren waarop mensen en LLM's antwoord geven op dit soort vragen, zowel wat betreft de inhoud als de onderliggende toon en waarden die naar boven komen. Er moet dus goed worden nagedacht op wat voor manier Silicon Sampling kan worden ingezet en wat de resultaten ons zeggen over het begrip van een gebruiker. ## What data is the model trained on: **Claude**: - mix of publicly available information from the Internet, datasets that we license from third party businesses, and data that our users affirmatively share or that crowd workers provide [source](https://www-cdn.anthropic.com/files/4zrzovbb/website/bd2a28d2535bfb0494cc8e2a3bf135d2e7523226.pdf) predominantly English **GPT-4**: using a large dataset of text from the Internet [source](chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://cdn.openai.com/papers/gpt-4-system-card.pdf), publicly available data (such as internet data) and data licensed from third-party providers [source](https://arxiv.org/html/2303.08774v6) **Gemini**: - Gemini doesn't store your prompts or generated responses to our models, nor use this data for training or fine-tuning our underlying models. Any data sent to the Gemini models is used strictly for serving a response to the request, and not stored [source](https://cloud.google.com/gemini/docs/discover/works) a variety of multimodal and multilingual data. data sourced across many different domains, including web documents and code, and incorporates image, audio, and video content.[source](https://goo.gle/GeminiV1-5)