Search Results for author: Chris van Merwijk

Found 2 papers, 0 papers with code

A Complete Criterion for Value of Information in Soluble Influence Diagrams

no code implementations • 23 Feb 2022 • Chris van Merwijk, Ryan Carey, Tom Everitt

Influence diagrams have recently been used to analyse the safety and fairness properties of AI systems.

Paper
Add Code

Risks from Learned Optimization in Advanced Machine Learning Systems

no code implementations • 5 Jun 2019 • Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse, Scott Garrabrant

We analyze the type of learned optimization that occurs when a learned model (such as a neural network) is itself an optimizer - a situation we refer to as mesa-optimization, a neologism we introduce in this paper.

BIG-bench Machine Learning

Paper
Add Code

Cannot find the paper you are looking for? You can Submit a new open access paper.